假說檢定

假說檢定（粵拼：gaa2 syut3 gim2 ding6；英文：hypothesis testing）係指喺推論統計學當中驗證一個假說（hypothesis；指一個仲未搵到證據支撐，但研究者有理由認為好可能係真確嘅論述）係咪真嘅過程。

基本工序

一個做假說檢定嘅研究者所做嘅工序如下：

睇過有關佢所研究嗰樣嘢嘅文獻，
建基於已有嘅知識，作出一啲有關嗰樣嘢嘅新假說（「我睇過打前嘅研究，我認為有咗已知嘅嘢，我可以作出以下嘅判斷，而驗證呢個判斷係咪正確能夠帶嚟新知識」），
諗出一個驗證呢假說嘅程序，
用呢個程序攞數據，
對數據作出分析，
用分析結果判斷個假說係咪真確^[1]。

虛無同備擇假說

虛無假說（null hypothesis；符號： $H_{0}$ ）同備擇假說（alternative hypothesis；符號： $H_{1}$ ）係做科研上成日會用到嘅行話：

虛無假說係指做一份研究嗰陣嘅預設立場，指「兩個量度嘅變數之間冇關係」呢句嘢，而
備擇假說係做一份研究嗰陣嘗試驗證嘅立場，指「兩個量度嘅變數之間有關係」呢句嘢。

舉個例說明，假想有個認知心理學家想驗證「年紀」同「記憶力」呢兩個變數之間嘅關係，於是佢就搵咗兩批人返嚟做佢嘅樣本，第一批人年紀喺 20 至 30 歲之間，第二批人年紀喺 50 至 60 歲之間，再用一啲測試量度呢兩批人嘅記憶力，設第一批人喺記憶力測試上嘅平均得分係 $\mu _{1}$ ，而第二批人喺同一柞測試上嘅平均得分係 $\mu _{2}$ ，噉呢份研究嘅 $H_{0}$ 係 $\mu _{1}=\mu _{2}$ ， $H_{1}$ 係 $\mu _{1}\neq \mu _{2}$ ，當中後者係個認知科學家想證實嘅嘢^[2]。虛無假說同備擇假說呢兩個詞語查實好簡單，但呢兩個詞語令到寫科研報告嗰陣慳好多位－啲科學家唔使吓吓都講嗮成句假說出嚟^[3]。

錯誤類型

喺做假說檢定嗰陣，一般會將可能會出現嘅錯誤分兩種^[4]：

第一型錯誤（Type I Error）指錯誤噉否定咗 $H_{0}$ ，得出咗個「假陽性」（false positive）結果－兩個變數查實有啦掕，研究者但搵到咗一個陽性結果出嚟。
第二型錯誤（Type II Error）指 $H_{0}$ 其實係錯，但就冇俾人成功噉否定到，得出咗個「假陰性」（false negative）－兩個變數實際上有關但就搵到個陰性結果。

呢啲錯誤會發生有好多原因，包括係科研入面嘅某啲隨機性－例如有份研究想睇吓兩個地區嘅狼嘅平均身長係咪有分別，佢哋隨機噉喺兩個地區度抽樣，再度吓啲狼嘅身長，可能兩個地區啲狼嘅平均身長係冇分別嘅（ $H_{0}$ 係真），但喺隨機抽樣嘅過程當中，咁啱得咁橋喺地區 $A$ 抽咗啲嗰頭最大隻嘅狼出嚟，而喺地區 $B$ 又咁橋淨係抽嗮啲嗰頭最細隻嘅狼出嚟，搞到最後搵到出嚟個結果話兩個地區啲狼嘅身長有顯著分別，即係錯誤噉排除咗 $H_{0}$ －第一型錯誤。喺呢個個案入面，啲科研人員之所以搵到兩個變數（「地區」同埋「啲狼嘅身長」）之間有關唔係因為兩者之間真係有關，而係抽樣嗰陣唔好彩。呢啲事喺科學界間唔鐘會發生^[5]。

比較平均值

要測試一個 $H_{1}$ ，其中一種最常見嘅做法就係比較平均值（comparison of means），即係比較個樣本入面唔同組之間喺個變數嘅平均值上有冇差異。喺最簡單嗰種情況－得兩組要比較－之下，研究者可以用學生 t 測試（Student's t-test；以下簡稱「t 測試」）。學生 t 測試呢種方法可以攞嚟分析兩個組（通常係實驗組同對照組）之間喺個指定變數嘅數值上係咪有顯著嘅差異，當中最原始嗰種獨立樣本 t 測試（independent samples t-test）係 t 測試嘅一種，獨立樣本 t 測試假設咗三點^[6]：

個總體喺個變數上嘅概率分佈係一個常態分佈（normal disribution）；
要比較嗰兩個組係獨立（指兩個組入面啲個體係分別噉抽樣入組嘅）嘅；
要比較嗰兩個組喺個變數上嘅方差相等。

用返同上面類似嘅例子，班研究人員可能想做個實驗，睇吓提高氣溫會唔會改變狼嘅食量，佢哋可以

隨機噉由全世界嘅狼嗰度抽一柞（例如係 200 隻）出嚟，將佢哋分做兩組－實驗組同對照組，兩組各有 100 隻狼，將前者擺喺一個有暖氣嘅環境度養，而後者就擺喺一棟模仿自然環境（氣溫正常）嘅地方度養（「氣溫」係自變數）；
跟手啲研究人員就要量度個應變數（食量）－一個可能嘅方法係用攝影機監察住啲狼嘅一舉一動，佢哋一食嘢就記錄低，並且用影片影到嘅影像估計樣本入面嘅每隻狼大約每日食咗幾多公斤嘅嘢食。呢個步驟會得出一大柞數據，表述每一個個體喺個應變數上嘅數值（即係每隻狼嘅日常食量），而
由呢啲數據嗰度，研究者亦會順理成章噉計到兩個組分別喺個應變數上嘅平均值－「實驗組啲狼嘅平均日常食量」（ $\mu _{1}$ ）同「對照組啲狼嘅平均日常食量」（ $\mu _{2}$ ）；
下一步就要睇吓 $\mu _{1}$ 同 $\mu _{2}$ 之間係咪有顯著嘅分別－如果有，研究人員就有得否定個 $H_{0}$ ，並且話今次攞到嘅實驗數據撐佢哋個 $H_{1}$ （ $H_{1}$ 係「提高氣溫會影響狼嘅食量」呢句嘢）。
因為佢哋嗰兩個組入面個體係分別噉抽樣嘅，而且得一個應變數（「狼嘅食量」），所以佢哋可以用獨立樣本 t 測試。

用好似 t 測試噉嘅統計分析可以提高一份研究嘅說服力：一方面，啲研究者可以淨係靠直接比較兩個組喺個變數上各自嘅平均值（ $\mu _{1}$ 同 $\mu _{2}$ ），但噉做唔會有乜嘢說服力；個變數係大致上呈常態分佈嘅－一隻狼嘅日常食量通常會接近所有狼嘅日常食量嘅平均值，離平均值愈遠嘅數值就會出現得愈少；如果齋靠比較兩個組嘅平均值，就等於冇考慮到抽樣等過程入面嘅隨機性－可能只係抽樣嗰陣唔好彩，大食嘅狼咁橋分嗮去實驗組嗰度，而食嘢少嘅狼就咁啱分嗮去對照組。於是啲研究人員為咗要提高佢哋份研究嘅說服力，就要攞啲數據嚟計吓^[7]。

t 測試流程

要評估兩組之間嘅差異嘅顯著性，首先要計兩組嘅標準差（符號係「 $s$ 」或者「 $\sigma$ 」）出嚟：

s={\sqrt {\frac {\sum _{i=1}^{N}(x_{i}-{\overline {x}})^{2}}{N-1}}}.

，當中

$N$ 係樣本大細（sample size；個樣本入面嘅個體數量）， $x_{i}$ 係個體 $i$ 喺個變數上嘅數值，而 ${\overline {x}}$ 就係成個樣本喺個變數上嘅平均值。 $s$ 呢個數值反映咗個樣本入面每一個個體喺個變數上面嘅數值平均嚟講同成個樣本嘅平均值差幾遠，亦即係反映咗一個組嘅內部差異，而呢啲內部差異係隨機性嘅個體差異。 $s$ 大嘅話就表示個體同個體之間嘅差異好大，而 $s$ 細嘅話就表示啲個體普遍同成個樣本嘅平均唔係差好遠。得到兩個組嘅 $s$ 嘅數值，仲可以用另外一啲統計方法顯示到兩個組嘅標準差冇明顯差異。假設兩組嘅 $s$ 冇差異（等分散性^[8]）嘅話，就可以做下一步，計以下嘅數值：

t={\frac {{\bar {X}}_{1}-{\bar {X}}_{2}}{s_{p}{\sqrt {2/n}}}}

$n$ 係成個樣本嘅大細，而 ${\bar {X}}_{1}$ 同 ${\bar {X}}_{2}$ 就係兩個組分別喺個變數上嘅平均值， $s_{p}$ 係兩個組嘅標準差（假設咗兩個組嘅標準差相等），最後計到一個 $t$ 值出嚟，呢個數值同「兩個組嘅平均值嘅差距」成正比，同「兩個組嘅標準差」成反比。如果 $t$ 值好大，噉就表示咗「兩個組之間嘅差異」大過「組嘅內部差異」好多，噉就表示「個實驗嘅操作造成嘅差異」大過「隨機性嘅個體差異」－ $t$ 值愈大愈表示個實驗嘅操作嘅效果明顯過個體差異，愈係表示兩個組之間嘅差異係因為實驗嘅操作造成嘅。所以 $t$ 值愈大， $p$ 值（ $p=P{\big (}{\text{have this result}}\mid H_{0}{\text{ is true}}{\big )}$ ）理應會愈細^{[註 1]}^[7]。

t 測試變種

配對樣本 t 測試（paired samples t-test / repeated-measure t-test）：指做 t 測試嗰兩個組唔係獨立同分佈嘅，研究者做咗某啲嘢，令一組數值當中每一個都喺另外嗰組當中有個對應，例如做個心理學實驗，研究者想知個實驗操作會引致變數 $X$ 有乜變化，於是就喺實驗前量度 $X$ 一次，跟住對受試者做實驗操作，然後喺實驗後又量度 $X$ 一次（睇返重複量數設計）。喺呢個情況下，每位受試者都有一個「實驗前嘅 $X$ 值」（ $X_{\text{pre}}$ ）同「實驗後嘅 $X$ 值」（ $X_{\text{post}}$ ），研究者想比較兩組數值（總共有 $n$ 個數值，而受試者數量係 $n/2$ ），但兩組數值唔係獨立同分佈嘅－每個 $X_{\text{pre}}$ 值都有一個相應嘅 $X_{\text{post}}$ 值（一位受試者嘅 $X_{\text{pre}}$ 值同佢嘅 $X_{\text{post}}$ 值）^[7]。
方差分析（analysis of variance，ANOVA）：一系列用嚟分析唔同組嘅平均值嘅方法；假想家陣個研究者想比較三組喺變數 $x$ $x$ 嘅平均值上嘅差異，如果三組之間有顯著嘅差異，噉組之間嘅 $x$ $x$ 嘅方差應該會大過組內部嘅好多。最簡單嘅單因子方差分析（one-way ANOVA）分析一個應變數喺三個或者以上嘅組之間嘅差異（「組」就係自變數），考慮以下嘅數值^[9]：
$F={\frac {\text{variance between groups}}{\text{variance within groups}}}$
- 原則上， $F$ 數值愈大，研究者就愈有理由相信組之間有顯著嘅差異。

...等等。

註釋

↑ 查實係有方法可以更加精確噉計個 $p$ 值出嚟嘅，但呢度省略咗。

睇埋

攷

↑ Myers, Jerome L.; Well, Arnold D.; Lorch Jr., Robert F. (2010). "Developing fundamentals of hypothesis testing using the binomial distribution". Research design and statistical analysis (3rd ed.). New York, NY: Routledge. pp. 65–90.
↑ Adèr, H. J.; Mellenbergh, G. J. & Hand, D. J. (2007). Advising on research methods: A consultant's companion. Huizen, The Netherlands: Johannes van Kessel Publishing.
↑ Everitt, B. (1998). The Cambridge Dictionary of Statistics. Cambridge, UK New York: Cambridge University Press. ISBN 0521593468.
↑ Rubin, D. B.; Little, R. J. A. (2002). Statistical analysis with missing data. New York: Wiley.
↑ The Difference Between Type I and Type II Errors.
↑ O'Mahony, M. (1986). Sensory Evaluation of Food: Statistical Methods and Procedures. CRC Press. p. 487. ISBN 0-82477337-3.
↑ ^7.0 ^7.1 ^7.2 Derrick, B; Toher, D; White, P (2017). "How to compare the means of two samples that include paired observations and independent observations: A companion to Derrick, Russ, Toher and White (2017)". The Quantitative Methods for Psychology. 13 (2): 120–126.
↑ McCulloch, J. Huston (1985). "On Heteroscedasticity". Econometrica. 53 (2): 483.
↑ Howell, David (2002). Statistical Methods for Psychology. Duxbury. pp. 324–325.

[9] 查實係有方法可以更加精確噉計個 $p$ 值出嚟嘅，但呢度省略咗。

[myers2010-1] Myers, Jerome L.; Well, Arnold D.; Lorch Jr., Robert F. (2010). "Developing fundamentals of hypothesis testing using the binomial distribution". Research design and statistical analysis (3rd ed.). New York, NY: Routledge. pp. 65–90.

[Adetal2007-2] Adèr, H. J.; Mellenbergh, G. J. & Hand, D. J. (2007). Advising on research methods: A consultant's companion. Huizen, The Netherlands: Johannes van Kessel Publishing.

[3] Everitt, B. (1998). The Cambridge Dictionary of Statistics. Cambridge, UK New York: Cambridge University Press. ISBN 0521593468.

[4] Rubin, D. B.; Little, R. J. A. (2002). Statistical analysis with missing data. New York: Wiley.

[5] The Difference Between Type I and Type II Errors.

[ttestthingies-6] O'Mahony, M. (1986). Sensory Evaluation of Food: Statistical Methods and Procedures. CRC Press. p. 487. ISBN 0-82477337-3.

[derrick2017-7] 7.0 ^7.1 ^7.2 Derrick, B; Toher, D; White, P (2017). "How to compare the means of two samples that include paired observations and independent observations: A companion to Derrick, Russ, Toher and White (2017)". The Quantitative Methods for Psychology. 13 (2): 120–126.

[8] McCulloch, J. Huston (1985). "On Heteroscedasticity". Econometrica. 53 (2): 483.

[10] Howell, David (2002). Statistical Methods for Psychology. Duxbury. pp. 324–325.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[註 1]

[9]