您的位置  > 互联网

什么是假设检验,非统计学背景的同学可能一脸懵逼

什么是假设检验?

首先,我们澄清一下假设检验在统计学中的地位: 统计推断是统计学的一个重要分支。 进行统计推断有两种重要的方法,即参数估计和假设检验。 参数估计是利用样本统计量来估计总体参数。 简单来说,如果样本表现良好,我就会推断总体会是什么样子。 假设检验,顾名思义,首先提出一个假设,然后检验该假设是否可靠。 例如,假设均值是μ,然后根据样本信息来测试均值是否为μ。 通常我们想要证明均值不是μ,即推翻原来的假设。 。 逻辑上采用反证法的方法,基于统计学中的小概率原理,即假设是这样,但样本表现不是这样,从而否定原假设。

比如有的官方数据说居民人均收入是1万,但我认为这是错误的,所以我在当地范围内做了一个统计(假设样本具有代表性),平均值是7000。 我相信这个结果吗? 然后我们可以测试一下,计算出P值为0.0002。 那我就可以理直气壮地说,官方数据不正确,不值得信任。 因为P值为0.0002,也就是说如果居民人均工资是1w,那么我计算出均值是7k的概率就是0.0002。 这么小的概率很容易导致我选择的本地统计。 显然,真正的人均工资不可能是1w。 这就是推翻基于小概率原理的原假设。

假设检验的基本步骤

接下来我们来说一下假设检验的步骤。 在此过程中,您可能会疑问为什么会这样。 别担心,请继续阅读。 我将逐渐添加有关假设检验的细节。 如果没有涵盖,可以在评论中提及。 , 我会加):

第一步,提出假设,即我猜测结果会是什么。 猜完之后,进入第2步,即我应该用什么来检验假设? 这里我们称之为检验统计量。 测试没有绝对的对错,所以我们需要设置一个显着性水平,也就是第3步。相当于设置一个阈值,在门外就拒绝进门。 统计学上称为拒绝域,被拒绝的就是原假设。 该例程的第四步是根据前两步中确定的检验统计数据和显着性水平来计算门的位置。 最后你可以做出决定,是在门内还是在门外。

接下来我就给大家详细讲解一下提到的步骤:

假设包括原假设和备择假设。 原假设(H0)是我们要通过收集证据来推翻的假设,而备择假设(H1)是要得到支持的,所以可以根据实际情况设置原假设和备择假设。 原假设和备择假设是相互排斥的。 假设检验围绕原假设是否为真。 假设检验还涉及到两类错误,内容较多,将分别进行说明。

检验统计量是用于假设检验决策的统计量。 如何选择统计数据? 这与参数估计相同。 你需要考虑样本总体的数量、样本大小,通常超过30个样本被认为是大样本,以及总体方差是否已知。 如果未知,可以通过样本方差来近似。 如果你感觉有点头晕,坚持一下。 这是假设检验的关键。 它告诉你在什么情况下使用什么样的测试方法。 记住这一点,以后就不会粗心只知道t检验了。 我贴心地给你整理了一份检验统计量选择表,你直接拿就可以了。 记住这些,再遇到假设检验的问题,你就会觉得它很厉害(niu),也很有害(bi)。

配对样本检验:在两个总体参数的假设检验过程中,我们假设样本是独立的,但样本之间可能存在依赖关系。 在这种情况下,两个正常总体的问题可以作为一个样本整体分析来解决。 例如:我想测试某种洗涤产品的洗涤效果。 我可以用该产品测量衣服洗前的清洁度和洗后的清洁度。 这样就得到了两个总体,可以根据方差未知的小样本t来衡量。 测试和分析。 然而,对于同一件衣服,洗涤前后的数据之间存在对应关系。 我可以对洗涤前后的清洁度进行差异,并检查差异是否为0,从而将其转换为整体样本。 t 检验。

具体的统计计算公式这里不给出。 主要考虑是现在使用统计软件进行计算。 关键是要明确自己的统计问题,选择合适的检验统计量,然后就可以在统计软件上作弊了!

显着性α:这是犯第1类错误的概率,即当原假设为真时拒绝原假设的概率。 例如,当警察抓到一个小偷时,很可能他明明是小偷,却判断错误,认为他是好人,就放走了他。 也称为抽样分布的拒绝区域,这可以由研究人员提前确定。

计算检验统计量的值。 当检验统计量和显着性α值确定后,通常为0.01、0.05、0.001,统计量的临界值za或za/2、ta或ta/2可以通过统计软件或查表得到。

做出统计决策。 有两种方法可以确定统计决策。 一是将检验统计量的绝对值与α水平的临界值进行比较。 如果高于临界值,则拒绝原假设;如果低于临界值,则不能拒绝原假设。 另一种方法是使用P值来做出决策。 就我个人而言,我更喜欢第二种。 当然,目前的统计软件会将这些值一起给出。 我们通常将P值称为观察到的显着性水平,它是当零假设为真时获得样本观察或更极端结果的概率。 如果P值很小,说明获得观测结果的概率很小。 如果发生的话,根据小概率原则,我有理由拒绝原假设。 如果事先确定了显着性水平,如α=0.05,则可以在双边检验中将P值与0.025进行比较来决定是否拒绝原假设,在单边检验中可以将P值与0.05进行比较多方面测试才能做出决定。 当然,我们也可以直接使用P值,根据我们需要的显着性水平来做出决策。

双面测试

单方面测试

以上就是假设检验的基本原理和过程。 一旦理解了这一点,您就可以解决遇到的几乎所有假设检验问题。 经常有同学问为什么小概率标准定为0.05。 哈哈,别问我,因为我也不知道。 英国著名统计学家就是这么用的,没有解决办法。

例如:

“多吃谷物有助于减肥。” 为了检验这一假设,随机选择了 35 个人,并询问他们通常的早餐和午餐食谱。 根据他们的食谱,他们被分为两类,一类是经常吃谷物的人(总体为1),一类是不常吃谷物的人(总体为2)。 然后测量每个人午餐时的卡路里摄入量。 经过一段时间的实验,得到以下结果: 检验假设(a = 0.05)

1.原假设:u1-u2>=0

备择假设:u1-u2

2、这种情况是两个总体的t检验,计算出t=2.4869。 请注意,这是一项单方面的测试。

3. 拒绝 0.05 显着性水平的原假设。

4.结论,没有证据表明吃多种谷物有助于减肥。

以上就是典型的假设检验解释和过程。 欢迎对数据科学感兴趣的同学关注留言,共同交流学习。