蛋白质组学中对缺失值的处理

如题所述

第1个回答  2022-06-17
蛋白质组学数据中经常存在缺失值(missing values),特别是对于非标记定量蛋白质学(DDA或者DIA),都存在相当一部分缺失值。首先说说缺失值的产生机制:

完全随机缺失(MCAR,Missing Completely At Random),指的是数据的缺失不依赖于自身或者其他变量,完全是随机的(例如质谱仪的扰动)。MCAR完全随机,所以它对你整个数据的影响没有任何的偏好性,呈现均一分布。

随机缺失(MAR,Missing At Random),指的是数据的缺失不是完全随机的,该类数据的缺失依赖于其他观测变量。比如时间梯度越长的采集越可能有缺失值的出现。这个时候,若是我们将时间变量进行控制,那么数据的缺失也就变成了完全随机的了。所以也有人认为MCAR和MAR二者没啥区别,或者认为MCAR是MAR的一个特例(doi:10.1186/1471-2105-13-S16-S5)

非随机缺失(MNAR,Missing Not At Random),指的是数据的缺失依赖于观测变量自身。比如在质谱检测的过程中,某些肽段的含量在仪器的检测限以下,这些肽段的定量信息就很有可能丢失。

很难真正辨别缺失值产生的确切原因。一般我们默认缺失值属于MCAR或MAR机制类的,除非有足够的证据表明是MNAR机制类的缺失值。

DDA label-free一般较多,10%-50% 的缺失值。过滤标准不定,如一个蛋白中三个重复,2个有值,建议保留,1个有值,严格一点考虑过滤掉。

不建议用均值、中位值或最小值来进行填充。

常用方法:KNN,Sequential KNN,MI,RandomForest, Impseq等,所有方法都是基于现有的数据来进行填充的。其中,KNN,s-KNN等依赖于局部基因共表达的假设,而Impseq依赖于全局基因共表达的假设。NAguideR可比较评估23种缺失值填充方法,帮助我们从中选择最好的一种。
相似回答