生物统计-置信区间与假设检验

如题所述

第1个回答 2022-06-07

概率定义 ：重复多次试验，某个事件发生的概率。
条件概率 ：某一重复试验下，在B事件发生的概率下，A事件发生的概率。
贝叶斯概率 ：描述了P(E2|E1) and P(E1|E2)之间的关系。
离散变量的概率分布函数 :pmf

连续变量的概率密度函数 ：pdf

从样本数据推获得群体数据相关结论。包括以下两种方法：
置信区间估计

【当sigma 未知时，以样本的方差代替，并利用t-分布计算置信区间。20次测序数据点估计置信区间图表明，20次试验估计值的置信区间95%概率下趋近真实值的分布，图中第6次实验估计结果远不接近真实值。】

假设检验

P-value ：被用于评价零假设与数据不相容的可能性，P越小，零假设与原始数据越不相容？相容可以指元数据并不符合正态分布假设或数据间并不独立或其他因素。

两类假设检验的错误

两个类别型变量的chi-square test
有点难，先放一放。

【假设检验的思想就是，对待分析样本根据提出的假设，借助统计分布推断是否拒绝零假设。引入的p值，是对检验结果的另一个评价值。】

非参数检验
t-test 的一个前提是，数据服从正太分布，当一类、二类错误被尽量控制时，虽然数据并不完全是正态分布，其检验结果仍不会有很大偏差。参数检验可以理解为，分析数据能够通过参数决定的分布来描述，而非参数检验则与之相反。

非参数检验包括以下几种：

相关性非参数检验
也就是评估样本中变量间的内在关系，也可以理解为变量间独立性的检验。包括pearson 相关系数，Kendall's tau 和Spearman's rho，后两种为非参数的相关性检验方法。

常用的检验方法包括以下几种：

相似回答