常用GWAS统计方法和模型简介

如题所述

第1个回答  2022-06-13
本文是 百迈客GWAS生物信息培训课程 学习笔记第二篇,第一篇请参考 GWAS基本分析内容

这里首先介绍了GWAS分析中常用的统计学概念:

零假设(H0,null hypothesis): 即原假设,指进行统计检验时预先建立的假设 , 一般是希望证明其错误的假设。GWAS中的H0是标记的回归系数为零, SNP对表型没有影响。

备择假设(H1,也叫对立假设,Alternative Hypothesis): 与原假设对立的假设,GWAS中的H1就是标记的回归系数不为零,SNP和表型相关。

图片来自参考文献  Review: Population Structure in Genetic Studies: Confounding Factors and Mixed Models

计算H0成立的概率,如果H0成立的概率很低,则拒绝H0,接受H1。但实际情况更复杂(下图b)

Type I error (I类错误): 拒绝真实的H0,即假阳性,概率α为显著性水平;

Type II error (I类错误): 接受错误的H0,即假阴性,概率为β;

功效(power): 拒绝错误H0的概率 1-β

一般可以用pearson's 卡方检验来分析

数量性状(quantitative trait):是指在一个群体内的各个体间表现为连续变异的 性状 ,如动植物的高度或长度等

数量性状基因座(quantitative trait locus, QTL):控制数量性状的基因在基因组中的位置

QTL定位:确定数量性状基因在染色体上位置

比较复杂的分析可以使用逻辑logistic回归,在logisitic回归模型中,基因型是因变量,群体结构和表型是自变量;在线性回归模型(一般线性模型GLM,混合线性模型MLM)中,表型是因变量,其他品种、性别、群体结构和基因型数据是自变量。

以数量性状为研究性状的关联分析多用混合 GLM 模型

进阶版 MLM 模型

其他改进模型EMMA, EMMAX, fast-LMM等等降维提升速度,同时不影响功效

推荐学习资料

https://genepi.qimr.edu.au/staff/davidD/Course/

GWAS入门要点
相似回答