跳去內容

概率同統計學詞彙表

出自維基百科,自由嘅百科全書
(由統計學行話跳轉過嚟)
統計學上成日用嘅常態分佈(睇下面)畫出嚟會出鐘形線

以下係概率論統計學上嘅主要詞彙一覽。

概率論[e 1]數學一個子領域,專門研究概率(又叫機會率)相關嘅問題:概率係一啲描述隨機過程嘅結果嘅數值,例如掟一個冇出千嘅銀仔,出公嘅概率係 50%,所以對於思考不確定性嚟講不可或缺[1]

統計學[e 2]就係專門研究點樣喺各個科學領域當中搜集分析呈現數據,而實證嘅科學方法本質上就帶有不確定-理論上,淨係抽個樣本嚟睇嘅過程就必然會有「手上個樣本有幾大機會真係代表到個總體嘅實況」嘅問題,所以統計學嘅理論思考梗會用到概率論[2][3]

除此之外,噉亦即係話概率論同統計學本質上就係一啲可以攞嚟「喺有不確定性嘅情況下,按過去經驗預測未來」嘅工具,所以呢個表入面嗰啲詞彙同概念响研究「點樣教人工智能學習」嘅機械學習領域上都相當有用[3]

基本概率論

[編輯]
用一幅溫氏圖表示三件事件-之間嘅機會率要點樣用數學符號表達。
内文:概率論

機會率粵文入面又有叫概率或者或然率:大致上可以理解做「一件事件有幾可能會成」,1 代表件事件實會發生,0 代表件事件絕對唔會發生;喺實際應用上,啲人一般會用以下噉嘅數學符號表示唔同事件嘅機會率[4]

  • (或者 )代表「 發生嘅機會率」,
  • 代表「 都發生嘅機會率」(交集[e 3]),而
  • 就代表「 或者 發生嘅機會率」(併集[e 4]),

... 呀噉。機會率係統計學機械學習等領域上實要諗到嘅一個課題:呢啲領域都涉及研究者由一個總體[e 5]入面攞一個樣本[e 6]出嚟,並且嘗試靠分析手上嘅樣本嚟增進自己對個總體嘅認識,但呢種做法本質上就有不確定性-難以保證個樣本實係代表到個總體;例如研究者想研究體重,因為人力物力嘅限制,佢冇可能研究嗮古往今來所有嘅狼,所以佢就去搵 100 隻狼返嚟做研究,佢量度到呢個樣本嘅狼平均體重係 40 公斤,就最嚴格嘅邏輯基準嚟講,呢個數可能真係代表到全世界嘅狼,但又有可能全世界嘅狼嘅平均體重查實係 60 公斤,個研究者之所以搵到 40 公斤呢個數只係佢咁啱唔好彩抽到個代表唔到個總體嘅樣本-隨機係統計學(以至科學方法)分析上走唔甩嘅一部份[4]

  • 概率論:一套數學理論;專門研究機會率同相關概念,會以形式化(用各種數學符號)嘅方法將呢啲概念表達出嚟[4]
  • 概率公理:現代概率論當中嘅三條公理[e 7][5]
    • 第一公理:一件事件嘅概率係一個非負數實數(不過可以係 0),
    • 第二公理:「最少一件基本事件發生嘅概率」係 1,
    • 第三公理:任何可數嘅事件不交集[註 1] 會滿足以下呢條式:
  • 實驗[e 8]:概率論上講嘅「實驗」同一般科學上講嘅實驗係兩個唔同嘅概念;喺概率論上,一場實驗係指一段程序,而段程序有以下嘅特性[4]
    1. 有若干個具有清楚定義可能結果樣本空間[e 9]);
    2. 最少理論上可以重複無限咁多次;
    • 例如掟銀仔就係概率論上嘅一場實驗-正路嚟講,掟銀仔有兩個可能結果(),理論上可以重複無限咁多次,而呢兩個結果結合埋就形成呢場實驗嘅樣本空間。
    • 伯努利試驗[e 10]:指有兩個可能結果嘅隨機實驗,例如掟銀仔(一係出一係出)就係一場伯努利試驗[6]
    • 概率空間[e 11]:以下呢三樣嘢加埋嘅總體-
      1. 樣本空間
      2. 事件(睇下面)、同埋
      3. 概率分佈(簡單講就係一個講明「每件可能事件發生嘅機率」嘅函數
    • 實際數值[e 12]:指場概率實驗最後出嘅數值,例如家陣掟銀仔,有兩個可能結果(),而掟完最後係出公,噉就係「呢場掟銀子嘅結果」嘅實際數值[4]
  • 隨機變數[e 13]:指一個數值會隨住某啲隨機現象而改變嘅變數
  • 隨機過程[e 14]:簡單講就係有隨機喺入面嘅過程;嚴格啲噉講,隨機過程係指一嚿以若干個隨機變數定義數學物體[7]。可以睇吓馬可夫鏈
    • 平穩過程[e 15]:指場隨機過程嘅無條件概率分佈唔會隨時間改變,簡單講即係「啲可能結果分別嘅出現機率」唔會隨時間改變[8]
    • 隨機漫步[e 16]:指一條「路徑」描述一個隨機變數喺每「步」點樣變化;設 做步數或者時間, 係個離散變數,而有個變數 ,無論 係幾多,以下呢條式都會成立:
      ,例如係
      • 如果將 嘅變化畫做條線,打戙軸係 ,而打橫軸軸係 ,會出好似以下噉嘅圖[9]
  • 期望值[e 17] ):指數據嘅每一個可能值各自噉同個可能值出現嘅機率乘埋,再將柞數加埋得出嘅總和,單位會同數據嘅相同[10];舉個具體例子,想像家陣個數據有 個可能數值,而 係指個數據嘅第 個可能數值,噉 條式係:
    ;有關呢啲數學符號嘅意思,可以睇吓加總
    • 例如想像家陣掟銀仔,假設銀仔冇出千(出公同出字嘅機率一樣),出公會得到 10 分,出字 0 分,噉掟一次銀仔嘅分數嘅期望值會係
    • 大數定律[e 18]:依家有一串 iid 嘅隨機變數 ;只要 期望值)唔係無限大,噉 實際觀察到嘅樣本平均值(
      • 會隨住 變大而接近 。進階嘅分析仲會分弱大數定律(趨近樣本平均值有咁上下概率會發生)同強大數定律(趨近樣本平均值係一定會發生咁滯)[11]
  • 隨機變數匯合[e 19]:指隨機變數可以有嘅極限[e 20];如果話某一個隨機變數 有一個極限,即係指(例如)隨住某個數值 變得愈嚟愈大, 嘅數值會慢慢愈嚟愈近(匯合)某個數值(設呢個數值做 係個函數嘅極限)[12]
  • 溫氏圖[e 21]:一種成日俾人攞嚟表達概率嘅圖表;圖入面會有若干個波波,每個波波代表一件事件,而兩個波波之間嘅相交空間代表嗰兩個波波代表嗰兩件事件嘅交集 [13]

隨機事件

[編輯]

概率論上所講嘅事件[e 22]係指一個由若干個可能結果組成嘅,掕住「呢件事件發生嘅機率」。

  • 基本事件[e 23]:淨係包含其中一個可能結果嘅事件。
  • 對立事件[e 24]:「 嘅對立事件」( 或者 )係指「 冇發生」呢件事件。
  • 互補事件[e 25]:如果話「 係互補事件」,即係話呢兩件事件當中必然有最少一件會發生-
  • 互斥事件[e 26]:如果話「 係互斥事件」,即係話兩件事冇可能同時發生-
    [14]
  • 非互斥事件[e 27]:如果 係非互斥事件,即係話兩件事有可能同時發生-
    [14]
  • 條件機會率[e 28]:指如果一件事件發生咗,另一件事件會發生嘅機會率;「 發生咗, 嘅條件機會率」係
    • 呢個數值可以用以下呢條式計[15]
    • 如果 互斥事件
  • 獨立[e 29]:如果話「 呢兩件事件互相獨立」嘅話,意思即係兩件事唔會影響對方發生嘅機會率,
    ,所以
    • 呢條式表示,就算 發生咗, 發生嘅機會率依然係 ,反之亦然[16]
  • 條件獨立[e 30]:指一件事件唔會影響第件事件嘅條件概率,即係話如果[17]
    • 就算係「喺 之下條件獨立」[e 31]
  • 概率連鎖法則[e 32]:有兩件隨機事件
    • 而如果要考慮嘅事件()有多過兩件:
  • 貝葉斯定理[e 33]:指以下嘅定理

概率分佈

[編輯]
内文:概率分佈

概率分佈[e 34]係指一個表明某個變數每個可能數值出現嘅機會率函數

當中 就係個概率分佈;呢個函數可以畫做一個表,X 軸代表個目標變數嘅數值,Y 軸代表嗰個目標變數嘅每個數值出現嘅機率;是但搵個變數 喺總體當中有一個概率分佈,表示 每個可能數值 出現嘅機率,呢個分佈喺實際上係不可知嘅,研究者淨係有得樣本量度樣本當中嘅概率分佈(喺個樣本入面, 嘅每個可能數值出現嘅機率大約係幾多),靠噉嚟估計個總體嘅分佈[18]

喺廿一世紀統計學上,比較常用嘅概率分佈相關概念有以下呢啲:

  • 離散概率分佈[e 35]:指所描述嘅變數 嘅可能數值係離散嘅概率分佈[19]
    • 概率質量函數[e 36]:描述一個離散概率分佈嘅函數;一個離散概率分佈嘅 PMF 會講明嗰個概率分佈嘅每一個離散可能數值出現嘅機會率[19]
      ,啲可能性嘅機率冚唪唥加埋係 1;
      ,每個可能性嘅機率大過 0;
      ,啲可能性以外嘅數值出現嘅機會率係 0。
一個概率質量函數; 嘅可能數值得三個(1、3 同 7),每個數值都掕住咗個「出現嘅機率」,而呢啲機率加埋係 1。
  • 連續概率分佈[e 37]:指所描述嘅變數 嘅可能數值係連續[19]
    • 概率密度函數[e 38]:描述一個連續概率分佈嘅函數;一個連續概率分佈嘅 PDF 會講明嗰個概率分佈嘅每一個可能數值出現嘅機會率大約係幾多[19]
    • 常態分佈[e 39]統計分析上最常用嘅概率分佈之一;喺常態分佈下,出現得最頻密嘅數值會係個平均數 ,而離平均數愈遠嘅數值就愈少會出現,畫做圖嘅話會出一條鐘形線[e 40];常見可以用常態分佈模擬嘅變數有人類嘅智商-多數人嘅智商數值都傾向於平均數,愈極端嘅數值愈少出現,即係話好少有智商極高或者極低嘅人。常態分佈個概率密度函數係( 係個分佈嘅標準差[18]
常態分佈畫做圖嘅樣;x 軸代表目標變數嘅數值,y 軸代表目標變數嘅每個數值出現嘅機會率
身高間距 頻率 累計頻率
< 5.0 25 25
5.0 - 5.5 呎 35 60
5.5 - 6.0 呎 20 80
6.0 - 6.5 呎 20 100
  • 累計函數[e 42]:描述一個概率分佈之下 嘅累計值會點隨 變化嘅函數 表示「由個樣本嗰度隨機抽一個個體,個個體嘅 (叫呢個值做 )細過或者等如 」嘅機會率,
    • 無論連續定離散嘅概率分佈都可以有相應嘅累計函數[21]
唔同嘅常態分佈嘅累計函數
  • 對稱度[e 43]:一個概率分佈可以有嘅一個屬性,攞個概率分佈當中嘅一個 值,個分佈喺 左邊嗰部份同個分佈喺 右邊嗰部份形狀上愈相似,個概率分佈以 為中心嘅對稱度就愈高;喺實際應用上,量度一個概率分佈嘅對稱度嗰陣會用嘅 值通常會係個分佈嘅平均值[22]
    • 對稱概率分佈[e 44]:一個對稱概率分佈定義上係指符合下面呢條式嘅概率分佈,當中 係個分佈上嘅一點[22]
      所有實數
  • 動差[e 45]:泛指描述一個函數(例如概率分佈)嘅形狀嘅指標數值[23]
    • 偏度[e 46]:指個分佈有幾「歪埋一邊」;要評估一個分佈嘅偏度,一條可能嘅式如下:
      • 當中 係第 個個案嘅 值, 係個分佈嘅平均值,而 係個分佈嘅標準差;呢個數值愈大,表示個分佈偏度愈高[24]
    • 峰度[e 47]:指個分佈有幾「扁」;要評估一個分佈嘅偏度,一條可能嘅式如下:
      • 當中 係第 個個案嘅 值, 係個分佈嘅平均值,而 係個分佈嘅標準差;呢個數值愈大,表示個分佈愈扁,(如果係常態分佈)比例上有愈多嘅個案處於極端值[24]
兩個有相當偏度嘅概率分佈
  • 抽樣分佈[e 48]:攞一個基於隨機抽樣統計量,個統計量嘅概率分佈就係佢個抽樣分佈[25]
  • 聯合概率分佈[e 50]:一個聯合概率分佈同時描述緊多過一個變數嘅分佈;一個兩變數聯合概率分佈會有打橫嘅 X 軸 Y 軸以及打戙嘅 Z 軸,總共三條軸,X 軸 Y 軸分別描述嗰兩個變數 嘅數值,而 X 軸同 Y 軸成嘅平面當中每一點嘅高度(Z 值)反映咗「 係呢個數值而且同時 係呢個數值」嘅機會率。當變數有多過兩個嗰陣同一道理[26]
一個兩變數聯合概率分佈
  • 獨立同分佈[e 51]:係概率論同統計學上嘅一個概念;如果話一柞隨機變數(或者事件)係「獨立同分佈」嘅話,意思係佢哋嘅概率分佈完全一樣(每次抽嗰陣個結果嘅概率分佈一樣),而且彼此之間獨立(抽一次嘅結果唔會受打前抽到嘅數值影響)[27]
  • 中央極限定理[e 52]:概率論同統計學上最重要嘅定理之一;根據 CLT,想像有個變數 ,只要三條條件成立:
    1. 個總體喺 上嘅變異數係有限,
    2. 每次抽樣都係獨立同分佈(iid)嘅,
    3. 而且個樣本夠大,

收集數據

[編輯]
抽樣係由一個總體嗰度抽出一個樣本嘅過程;喺呢個個案入面,
内文:收集數據
睇埋:數據集

收集數據[e 53]係做統計分析前必要嘅一個工序:用科學方法做研究係要由對現實嘅觀察當中歸納出一啲能夠描述現實嘅普遍法則;而要對現實作出有系統化嘅觀察,就一定要攞數據-即係用某啲符號(喺統計學上通常係數目字)記低現實世界嘅狀態[28]

  • 總體[e 54]:指所有屬研究對象嘅個體;一份研究會嘗試搵出有關某啲研究對象嘅知識,會作出一啲描述呢啲對象嘅假說[29]
    • 例 1:研究假說係「嘅平均體重係咁多咁多」,研究對象係全世界嘅狼;
    • 例 2:研究假說係「人類可以記住一串 8 個位嘅數字平均記 4 個鐘頭」,研究對象係全世界嘅人類。
  • 樣本[e 55]:由總體抽出嚟、俾研究者攞嚟做量度 個個體(因為人力物力嘅限制,一份研究冇可能睇得嗮古往今來嘅所有研究對象)[29]
    • 例 1:由全世界嘅狼當中抽 100 隻嚟做研究,量度佢哋嘅體重,
    • 例 2:由全世界(過十億)人當中抽 80 個做研究,量度佢哋嘅記住串數字記到幾耐,
    • 樣本大細[e 56]:樣本嘅個體數量,通常以 符號代表;一般認為假設第啲因素不變,樣本最好就有咁大得咁大[29]。喺現實應用上,因為人力物力限制,研究者往往冇辦法做到「樣本有咁大得咁大」,不過會起碼想啲樣本「有返咁上下大」,仲會有啲特定嘅式,用嚟計「樣本最少要係幾大」[30]
  • 抽樣[e 57]:由總體抽出樣本嘅過程[31]
    • 代表性[e 58]:指個樣本有幾代表到想研究嗰個總體,數學啲講係指個樣本喺研究緊嘅變數上嘅概率分佈有幾接近總體;例如家陣想研究嘅總體係「人類」,但個研究者貪方便淨係由大學生嗰度抽樣,搞到成個樣本得 19 至 26 歲嘅人類,代表唔到呢個年齡層以外嘅人類-樣本代表性不足[29]
    • 隨機抽樣[e 59]:由總體嗰度隨機噉抽 個個體做樣本[31]
    • 系統抽樣[e 60]:將總體入面嘅個案,按每個個案佢喺某個變數 上嘅數值排序(由細到大定由大到細都得),然後再每 個個體就將嗰個個體抽出嚟做樣本一部份;系統抽樣能夠有效噉避免「抽出嚟個樣本喺變數 上唔夠代表性」呢個問題[32]
    • 返去平均[e 61]:想像家陣量度某個隨機變數若干次,如果其中一次度到個極端(極高或者極低)嘅數值,[註 3]噉下一次量度嗰陣大機率會度到個比較近平均嘅數值。有唔少統計學工作者指,返去平均嘅現象喺唔少人對「點解手上個數值出咗變化」作出錯誤嘅判斷(睇埋歸返謬論[33]
  • 統計量[e 62]:指由數據嗰度做計算得出、用嚟做進一步分析嘅數值,例子有平均值
    • 順序統計量[e 63]:一個樣本嘅第 級順序統計量係指個樣本入面第 細嗰個數值。
    • 充分統計量[e 64]統計量嘅一種。如果話一個統計量對於一個統計模型同個模型嗰啲參數嚟講係「充分」嘅,意思即係話「冇任何其他可以由個樣本嗰度計出嚟嘅統計量能夠為『啲參數嘅數值係乜』提供額外嘅資訊」,簡單講即係話嗰個統計量能夠獨力噉提供嗮有關個模型參數嘅數值嘅可能資訊[34]
  • 缺失數據[e 65]:指因為數據搜集嘅過程當中,因為受訪者對問題嘅遺漏、拒絕回答、又或者係啲調查員犯嘅疏忽等原因,而造成數據當中有啲位冇相應嘅數值。基本上做親統計分析個數據集都梗會有啲缺失數據,而係做統計分析嘅過程當中,一件缺失咗嘅數據通常會用「99」或者類似嘅冇可能數值代表[35]
  • 研究設計
    • 受試間設計[e 66]:指份研究量度咗受試者喺柞變數上嘅數值,並且比較受試者之間喺變數上嘅差異[36]
    • 受試內設計[e 67],又有叫重複量數設計[e 68]:指份研究量度咗每位受試者喺若干個時間點當中嘅變數數值;例:一路睇住班受試者嘅食量,每日睇一次,連睇 10 日,噉個數據集會每個受試者有 10 個數值,表示佢喺呢 10 日當中每一日嘅食量),等研究者可以分析一個變數點樣隨時間變化[36]
  • 自變數[e 69]應變數[e 70]:兩個相關嘅概念;IV 指自己變緊(自變)嘅變數,而 DV 指隨住 IV 變而變嗰一個變數,IV 可以大致想像成「影響或者預測 DV 數值嗰個變數」。
  • 控制變數[e 71]:如果話一個變數係一個控制變數,噉意思即係話研究者想睇個應變數獨立於呢個控制變數嘅效果。
  • 操作化[e 72]:指「定義要點樣量度一啲唔能夠直接量度得到嘅變數」嘅過程;例如係心理學研究成日都要應付一啲人腦入面嘅變數,呢啲變數好多時都難以直接量度,而個研究者要做嘅嘢包括定義好個變數,講明用某個直接量度得到嘅變數 代表想量度嗰一個變數(),以及佢點解認為 代表到 ,上述嘅過程就係所謂嘅操作化[37]
  • 時間序列[e 73]:係指一列若干個數據數值,而呢列數值當中每一個都掕住一個數值,表示嗰一個數據數值「喺時間上係第幾個發生嘅數值」。
時間序列數據;X 軸代表時間,而 Y 軸就代表研究緊嗰個變數。
  • 倖存偏見[e 74]:指啲人搜集數據嗰陣,傾向淨係得到通過咗某啲甄選程序嘅個體,過唔到甄選程序嘅個體進入唔到數據集,因而引起數據偏向。例如喺二戰嗰時,有美軍嘅分析師試過研究戰機裝甲,佢哋分析返空軍基地嘅戰機喺乜嘢部位俾敵人子彈打過(搜集數據),諗住俾敵人子彈打得多嘅部位就要加厚裝甲;結果發現,返到基地嘅戰機當中冇一架係駕駛艙俾敵人子彈打過嘅;噉唔係表示駕駛艙唔使加厚裝甲,而係因為駕駛艙俾敵人打中嘅戰機根本唔會返到基地-駕駛艙俾敵人打中嘅戰機過唔到「生還」呢個甄選程序,令最後得到嘅數據望落好似反映「冇戰機嘅駕駛艙畀敵人打中過」噉[38]

觀察研究

[編輯]
一個人填緊份問卷;問卷調查係俾人做心理測驗嘅常見方法。
内文:觀察研究

觀察研究[e 75]係指由樣本嗰度攞啲描述自變數應變數嘅數據,並且作出推論,而途中唔會特登嘗試作出任何嘅操作嚟影響啲變數嘅數值。呢類研究喺社會科學上成日用,因為社會科學研究嘅係人-好少可有得好似自然科學噉,能夠吓吓都攞自己啲研究對象入去實驗室裏面任意噉搞[39]

  • 橫切面研究[e 76]:指研究者對個樣本喺 1 個時間點進行咗觀察。
  • 縱向研究[e 77]:指研究者對個樣本喺多過 1 個時間點進行咗觀察,而且會分析其中一啲變數隨時間嘅變化。
  • 隊列研究[e 78]:縱向研究嘅一種,指按某啲特性(性別同年紀等)搵一柞受試者返嚟觀察,然後喺打後一段時間(好多時斷年計)係噉觀察佢哋嘅變化;呢種做法喺醫學上成日俾人用嚟研究(例如)一隻對患者有乜嘢長遠影響[40]
  • 社會統計調查[e 79]社科上常用嘅一種收集數據方法,通過搵一柞社會大眾返嚟做受試者,對佢哋作出系統化嘅提問,並且分析有關研究嘅數據,用嚟描述或者解釋社會現象[41]
    • 李卡特量表[e 80]心理測量學上常用嘅一種社會統計調查方法,指每一條題目都成一句句子,而受試者要做嘅係睇每條題目,答自己有幾同意嗰句句子講嘅嘢;例:一個心理測驗量度一個人有幾外向,其中一條題目會係「我鍾意識新朋友」(一句句子,描述緊一樣同外向度有關嘅行為),而受試者要填一個 1 至 5 嘅數字,當中 1 分表示好唔同意呢句句子,5 分表示好同意[42]
  • 自我報告研究[e 81]:指靠人類受試者向研究者報告自己嘅行為嚟做嘅研究,通常係心理學社科領域先會做嘅。例如一個社會學研究者想研究一個人每個禮拜花幾多時間上網會點影響佢嘅社交生活,佢要量度每個受試者「每個禮拜花幾多時間上網」,就靠問受試者估計自己平均每個禮拜花幾多時間上網。自我報告研究嘅效度受到唔少學者爭議[43]
  • 民意調查[e 82]:指由專業人士搞,通過網絡、電話或者書面等嘅媒介嚟對一般大眾做調查,想知一般大眾對某啲政治經濟社會議題嘅意見態度[44]
  • 檔案研究[e 83]:指用檔案數據嚟做嘅研究;例如經濟學同第啲商學領域上嘅研究噉,就好興攞政府數據庫嗰度嘅數據嚟估計經濟指標數值,並且以呢啲經濟指標嚟做研究嘅自變數或者應變數[45][46]

實驗

[編輯]
内文:實驗

實驗[e 84]泛指一啲做嚟目的係要驗證某啲假說嘅步驟。喺研究者做實驗嗰陣,佢要喺一個有返咁上下受控[e 85] 指個研究者能夠量度同控制啲變數)嘅環境下做一啲操作[e 86]。一個操作涉及個研究者特登控制某啲變數(自變數)嘅數值,再睇吓個操作會引致應變數有乜嘢變化,用意在於研究自變數同應變數嘅變化之間係咪有因果嘅關係[47]-如果一份觀察性質嘅研究,發現 呢兩個變數之間有正相關,呢個發現有最少三個可能嘅解釋:

  • 上升,
  • 上升,或者
  • 會受同一個因素 影響而上升,

但如果做咗場實驗,操控 嘅數值(實驗操作[e 87])然後發現噉做令 數值上升,就更加確立「 上升」呢個可能性[註 4][48][49]

  • 實驗設計[e 88]:指設計一場實驗嘅過程;喺做實驗之前,研究者一般會寫計劃書向自己所屬嘅院校提議場實驗,會喺計劃書入面詳述場實驗嘅設計[50]
  • 實驗組同對照組
    • 實驗組[e 89]:指接受咗實驗操作嘅受試者。
    • 對照組[e 90]:指冇受實驗操作嘅受試者,研究者會對比實驗組同對照組,睇吓兩組受試者係咪有分別;如果有,噉就表示個操作真係有效。
    • 舉個例說明,想像有個研究者,佢想研究一隻新藥(自變數)係咪能夠提升人嘅專注力(應變數),於是佢就搵咗若干個受試者返嚟,將佢哋分做兩組,實驗組俾佢哋試隻藥,而對照組就食一隻已知唔會影響專注力嘅藥,然後俾兩組受試者做一啲要求專注力嘅作業(假設有咗明確方法量度專注力),比較兩組喺專注力上嘅表現係咪有分別,如果有,就表示隻藥真係有效[51]
  • 隨機化實驗[e 91]:指隨機噉將受試者分做實驗組同對照組;假想家陣有個研究者想做實驗,佢搵咗柞受試者返嚟,跟手就要有方法決定邊個入實驗組邊個入對照組,而一般認為,最理想係完全隨機噉分。有關應用上要點樣做到呢樣嘢,可以睇吓隨機數產生(RNG)等嘅技術[52]
  • 析因實驗[e 92]:指有多過一個自變數受操控嘅實驗;例如家陣有個研究者想知 呢兩個實驗操作分別會造成乜嘢效果同埋彼此之間有冇調節效應(睇下面),於是就將受試者分做 4 組- 都冇、有 、冇 、同 都有,成一個 2 x 2 嘅析因實驗[53]
  • 自然實驗[e 93]:指場實驗操作係由研究者以外嘅力量所施加嘅,例如係一場經濟實驗,研究自然災難造成嘅經濟影響-場災難唔係由研究者施加嘅,但研究者可以透過比較受咗場災難嘅經濟體同冇受嗰場災難嘅經濟體(假設兩個經濟體除咗災難之外大致上相同)對比,嚟推斷場災難造成咗乜嘢影響。呢種實驗喺社會科學嗰度零舍常見[54]
  • 准實驗[e 94]:指冇完全隨機噉將受試者分做實驗組同對照組實驗[54]
  • 臨床研究[e 95]:指喺醫學同相關領域上試吓新嘅或者治療法嘅效用;呢種研究通常都會採取比較實驗組(食咗隻新藥或者用咗新嘅治療法)同對照組(食咗安慰劑)嘅實驗方法嚟做[55]

量度

[編輯]
内文:量度
睇埋:刪失
  • 量度層次[e 98]:喺統計學入面對變數量度方法嘅一種分類法。喺做科學研究嗰陣時,科學家想做嘅嘢係要搵出變數同變數之間嘅關係,而要做呢樣嘢,佢哋好多時係首先要量度啲變數嘅數值,並且跟手做統計分析睇吓啲變數之間有乜嘢關係。量度層次嘅分類法係基於嗰個量度方法提供到幾多資訊嚟到劃分嘅,呢個分類法將量度方法分做四個級別[56][57]
層次 用得嘅邏輯數學運算 例子 點計中間趨勢 點計離散趨勢 定性抑或
定量
1
名目
[e 99]
二元名目:性別(男、女)、真實性(真、假)、出席狀況(出席、缺席)
多元名目:語言廣東話普通話英文等)...
眾數
定性
2
次序
[e 100]
多元次序:服務評等(傑出、好、欠佳)、教育程度(小學、初中、高中、學士、碩士同博士等) 眾數中位數 分位數
定性
3
等距
[e 101]

溫度年份緯度 眾數中位數平均數 分位數全距
定量
4
等比
[e 102]

價錢年齡身高絕對溫度、絕大多數嘅物理量 眾數中位數平均數 分位數全距標準差
定量
  • 連續變數[e 103]離散變數[e 104]:一個連續變數嘅可能數值有無限咁多個,而離散變數得若干個可能數值;例:真相得兩個可能數值(真同假),但溫度嘅可能數值嘅數量原則上有無限咁多個,攝氏 100 度、攝氏 100.01 度、攝氏 100.0001 度... 等等[58]
    • 離散化[e 105]:指「將一個連續嘅變數或者函數變做離散」嘅過程;喺實際應用上,噉做嘅一個可能目的係因為手上嘅數據唔夠多,但要搜集大量數據又因為人力物力嘅限制而行唔通,所以分析之前將一個連續嘅變數變做離散(睇下面中位數分割),令分析變簡單啲[59]
    • 中位數分割[e 106]將一個連續變數變做一個離散變數嘅一種方法;攞一個連續變數 ,搵出 中位數 數值 嘅個案冚唪唥設做「組 1」,而 數值 嘅個案冚唪唥設做「組 2」-得出「屬組 1 定組 2」呢個離散變數,可以將一個原本係連續嘅變數做一啲離散變數先可以做嘅推論統計分析(例如係 ANOVA)。到咗 2020 年,中位數分割呢種做法廣受評擊,好多人都唔會接受呢種做法[59]
  • 共同方法變異[e 107]:指因為量度方法(而唔係想量度嗰個變數)而起嘅變異數-想量度嘅變數會有一個(研究者想靠量度估計嘅)概率分佈,但實際量度到嘅數值嘅分佈可能同呢個真實分佈唔同,而呢個差異係因為量度架生嘅特性而起嘅;要檢驗一柞數據有冇共同方法變異嘅問題,最原始嘅做法係用哈曼測試[e 108]-即係用探索型因素分析(EFA;睇下面)嘗試由柞數據嗰度抽取一個因素出嚟,而如果呢個想像中嘅因素能夠解釋幾多嘅變異數[註 5][60]
  • 時間解像度[e 109]:指一個量度方法能夠睇到幾細時間差之間嘅變化。例如有兩個量度方法 A 同 B,A 能夠話到俾觀察者知一個變數喺 1 毫秒之間嘅變化,而 B 淨係講到俾觀察者知個變數喺 10 秒之間嘅變化,噉 A 嘅時間解像度比較高。
  • 空間解像度[e 110]:指一個量度方法能夠睇到幾細空間差之間嘅變化。例如有兩個量度方法 A 同 B,A 能夠話到俾觀察者知一個變數喺 1 厘米之間嘅變化,而 B 淨係講到俾觀察者知個變數喺 1 米之間嘅變化,噉 A 嘅空間解像度比較高。
  • 天花板效應[e 111]地板效應[e 112]:指想量度嗰啲數值高得滯(天花板效應)或者低得滯(地板效應),搞到件量度架生唔再俾到有用嘅資訊[61]
    • 舉個簡化嘅例子,想像家陣攞支日常嘅溫度計去量度太陽(塊表面超過 5,000 °C 咁熱)同天狼星(塊表面估計超過 9,000 °C 咁熱)嘅表面溫度,攞支日常溫度計去度太陽表面嘅話,條溫度計應該會變成氣體(假如條溫度計係用一般玻璃造-普通嘅玻璃沸點好多時得嗰 2,200 °C 左右),而攞支日常溫度計去度天狼星表面,條溫度計都係變氣體-噉即係話,雖然天狼星明顯熱過太陽,但條溫度計對太陽定對天狼星都係俾一樣嘅反應(變氣體)-做唔到分辨兩者(俾唔到有用嘅資訊)。
    • 呢種情況喺社科入面都見得到:想像家陣有 A 君同 B 君兩個人,兩個都喺智商測驗度攞滿分;但噉唔表示兩個一樣咁聰明-可能 A 君明顯聰明啲,但佢同 B 君嘅智能都係遠超份智商測驗度到嘅值;於是份智商測驗就唔再俾到有用嘅資訊-發生咗天花板效應[62]
    • 地板效應係天花板效應嘅相對,指想量度嗰啲嘢嘅值低得滯,搞到件量度架生俾唔到有用資訊(想像條溫度計最低淨係度到 -20 °C 嘅氣溫,條計就應該唔會有能力分辨一嚿 -100 °C 嘅物體同一嚿 -120 °C 嘅物體)。

信度同效度

[編輯]
内文:信度效度

信度[e 113]係常用嚟評估一個量度方法有幾好嘅指標,指對一個現象用嗰個方法進行重複觀察之後,係咪可以得到相同嘅數值;正路嚟講,如果一個量度方法係可信嘅,噉無論何時何地何人用嗰個方法量度同一樣嘢,都理應會得到相同嘅數值[63][64]

  • 評分者間信度[e 114]:用嚟評估一個量度有幾受做量度嘅人影響;例如有一個俾教育家用嚟評估細路學習進度嘅方法,但做完研究發現,五位教育家分別噉用同一個方法評估同一班細路,五個得到完全唔同嘅數值,噉呢個量度方法嘅評分者間信度就低。
    • 高氏 kappa[e 115] ):可以用嚟評估評分者間信度嘅指標,條式係
      • 當中 係指有幾多 % 嘅個案係兩位評分者同意(評同一個分數),而 指如果啲評分者隨機評,有幾多 % 嘅個案會係兩位評分者同意。高氏 kappa 最大可能數值係 1,數值愈近 1 愈表示評分者間信度高[65]
  • 評分者內信度[e 116]:用嚟評估一個量度有幾受做量度嘅人影響;例如有一個俾教育家用嚟評估細路學習進度嘅方法,但做完研究發現,由同一位研究員用同一個方法度同一個細路,假設段研究時間短(個細路嘅行為理應唔會有明顯變化),次次出嘅結果都唔同,噉呢個量度方法嘅評分者內信度就低。
  • 重測試信度[e 117]:用嚟評估一個量度方法有幾受時間影響;例如有一個俾心理學家用嚟量度智商嘅測驗,做研究,搵班受試者返嚟做個測驗,得到一柞分數 ,然後過咗一個月之後,搵返班受試者返嚟又做過,得到另一柞分數 ;一般認為智商冇乜可能會喺一個月之內改變嘅,如果 差異好大,就表示呢個測驗嘅重測試信度低。
  • 內部一致度[e 118]:指一個有多條題目嘅量度方法有幾「係量度緊同一樣嘢」;例如有一個智商測驗,有 50 條題目,理論上,呢啲題目冚唪唥都係量度緊智商,所以彼此之間理應喺得分上有返咁上下正相關,但研究發現,嗰 50 條題目當中有 5 條零舍係同其餘嗰啲題目有負相關,噉心理學家就好可能會要求攞走嗰 5 條題目(佢哋似乎唔係量度緊智商,所以唔應該擺喺一個智商測驗入面),變成一個 45 條題目嘅測驗。

效度[e 119]係另一個常用嚟評估一個量度方法有幾好嘅指標,指個方法有幾量度到佢理應要量度嗰樣嘢;一個有效嘅量度方法真係量度緊研究者想佢量度嗰個變數;例如如果一個方法信度高、但效度低,就表示個量度方法能夠準確噉量度某個變數,但佢所量度嗰個變數並唔係研究者想佢量度嗰個[63][64]

  • 建構效度[e 120]:指一個概念嘅量度有幾合乎理論上嘅定義;例如理論上,智商測驗係量度智能嘅,而智能理論一般認為,智能包含一個個體解難嘅能力,所以一個智商測驗理應會考驗受試者嘅解難能力;建構效度嘅評估一般都係比較理論化嘅[66]
  • 效標效度[e 121]:通常用嚟評估心理測驗嘅效度嘅一個指標,指個測驗嘅分數同俾人認為代表要量度嗰個變數有幾強相關;例如一個設計嚟量度一個人有幾外向嘅心理測驗,研究者搵咗班受試者返實驗室做個測驗,知道每位受試者嘅分數,然後喺實驗室入面觀察每位受試者有幾常主動同人講嘢或者互動(呢啲行為反映外向程度),再做一個相關嘅分析,睇吓測驗分數係咪真係同受試者做外向行為嘅次數有正相關。
  • 分歧效度[e 122]:指一個量度方法有幾「唔量度到理應唔啦更嘅變數」;例如一個智商測驗理應係量度緊智商,而唔係身高,如果一個一個智商測驗入面其中一條題目同個人嘅身高有正相關而且同身高嘅相關強過同其餘題目嘅相關,噉就似乎表示呢條題目量度身高多過量度智商,分歧效度低。
  • 內容效度[e 123]:指一個量度方法有幾能夠涵蓋嗮佢要量度嗰樣嘢嘅各個方面;例如智能一般包括邏輯語言等多種嘅認知能力,所以一個理想嘅智商測驗理應要量度嗮以上嘅各種認知能力。
  • 聚合效度[e 124]:指一個量度方法有冇同一啲理論上同佢有相關嘅嘢有預期中嘅相關;例如智能理論上會同時影響一個人嘅邏輯能力同語言能力,所以邏輯能力同語言能力理論上應該會有返咁上下正相關[67]
  • 表面效度[e 125]:指一個量度方法就噉望落有幾合乎佢理應要量度嘅嘢,通常話「一個量度方法有表面效度」喺正式科研上唔會俾人接受[68]

描述統計學

[編輯]

描述統計學[e 126]係指一啲量化噉描述一柞資訊嘅統計數值,包括咗[69]

集中趨勢

[編輯]
内文:集中趨勢

集中趨勢[e 127]係指表示一個概率分佈「最中間嗰個數喺邊」嘅統計數值[69]

  • 平均數[e 128]:平均數()最常係指算術平均值[e 129],即係將啲個案嘅數值()冚唪唥加埋一齊,再除以個案數量():
    • 幾何平均值[e 130] ):指將嗰 個案嘅數值乘埋一齊,再計個數嘅 根式
    • 調和平均值[e 131] ):指以下嘅數值:
  • 中位數[e 132]:將啲個案嘅數值()由細到大或者由大到細排好序,再攞最中間嗰個數,嗰個數就中位數;如果個案數量係雙數,令到有兩個數喺中間,就攞嗰兩個數嘅平均。
  • 眾數[e 133]:指出現得最多次嗰個數值,通常只會喺個變數係離散嘅嗰陣先會用。

離散程度

[編輯]
兩個大致跟常態分佈概率分佈;紅色嗰個嘅變異數低啲。
内文:離散程度

離散程度[e 134]係指描述一個概率分佈「有幾散」嘅統計數值[70]

  • 變異數[e 135] ):以下嘅數值:
    • 當中 係個案數量, 係第 個個案喺個變數上嘅值,而 係個樣本嘅平均值- 反映咗啲個案平均距離平均值幾遠。
  • 標準差[e 136] ):變異數嘅開方
  • 百分位數[e 137]:家吓將樣本入面嗰 個數值由細至大排好,噉第 個案嘅百分位數()就係指有幾多百分比嘅個案喺個變數數值上細過或者等如嗰個個案,即係
  • 全距(range):指樣本入面最大嘅 數值減最細嘅 數值。
  • 變異系數[e 139] ):指用平均值標準差得出嘅數。
  • 離散指數[e 140]:一個概率分佈嘅離散指數 係指以下嘅數值:
    • 離散指數可以用嚟作為離散程度嘅一種標準化指標[71]
  • 協方差矩陣[e 141]:一種數據表達方法,用一個矩陣表達每對變數之間嘅協方差,例如下面嗰個矩陣就顯示 之間嘅協方差係 ,而對角線當中嘅係每個變數嘅變異數,例如下面嗰個矩陣就顯示 嘅變異數係
數據顯示嘅協方差矩陣

統計圖

[編輯]
一幅箱形圖
内文:統計圖

統計圖[e 142]係指將數據以視覺化嘅方法表達出嚟嘅做法,用途主要在於令啲數字易睇啲,例子有棒形圖

  • 箱形圖[e 143]:一幅箱形圖條 X 軸會一個離散嘅變數 ,Y 軸係一個連續嘅變數 嘅每個可能數值都會有一個四方形嘅「箱」,個箱會下面掕一條橫線上面掕一條橫線,個箱反映嘅嘢如下[72]
    • 個箱上面嗰條橫線反映最大嘅 值;
    • 個箱下面嗰條橫線反映最細嘅 值;
    • 個箱嘅上邊反映上四分位數[e 144],即係 值比較高嗰半橛嘅中位數
    • 個箱嘅下邊反映下四分位數[e 145],即係 值比較低嗰半橛嘅中位數
    • 個箱中間嗰條線反映所有個案夾埋中位數
  • 散佈圖[e 146]:一種常用嘅統計圖,圖嘅兩條軸分別代表咗一個變數,圖上每一點代表一個個案,而每個個案都喺嗰兩個變數上有個數值,所以就形成一幅有大量點點嘅圖像,而每個點嘅位置反映佢喺變數上嘅數值。

拉雜描述統計

[編輯]
  • 標準分數[e 147]:攞個個案喺一個變數上嘅數值 ,個個案喺嗰個變數上嘅標準分數()係
    • 當中 係拃個案喺個變數上嘅平均值,而 係佢哋個標準差[73]
  • 結合數據[e 148]:指由將幾個個體嘅數據以某啲方式結合成嘅數據;例:有個經濟學家想研究一間公司營業額同員工嘅工作表現有乜關係,佢一個可能嘅做法係,每間公司都搵若干個員工(個體),量度每個員工嘅工作表現(個體嘅數據;假設員工表現有方法量化),然後每間公司計個平均員工工作表現(以平均值嘅方式結合),再用統計分析睇吓每間公司嘅呢個數值同營業額之間有乜關係[74]
  • 抽樣誤差[e 149]:指因為抽樣造成嘅誤差-例如由一個有 10,00 個個體嘅總體嗰度是但抽 100 個個體出嚟,用呢 100 個個體嘅平均身高)估計個總體嘅平均身高(),因為抽樣過程嘅隨機性, 之間梗會有些少差異[75]
  • 誤差積聚[e 150],又有叫不確定嘅傳播[e 151]:指一柞變數不確定性隨機誤差)影響到基於柞變數嘅函數嘅不確定性;想像一架太空船燃料缸,太空船要監察住自己仲淨低幾多燃料,而廿世紀嘅太空船做法係知道燃料缸滿嗰陣容量係幾多,然後喺每次架船噴燃料嗰時估計問出咗幾多燃料,靠噉嚟計淨低幾多燃料,但噉做有問題-每一次嘅估計都會有個最大可能誤差 ,喺噴咗 次燃料之後,得到嘅估計結果嘅誤差最大可以係成 咁多,即係話誤差會隨住做估計嘅次數「積聚」變到愈嚟愈大[76]
  • 數數據[e 152]:指數某件事發生咗幾多次嘅一種數據,數值只可以係正整數。
  • 班佛定律[e 153],又有叫第一個位定律[e 154]:指一個喺現實世界數據當中觀察到嘅現象;如果話一柞有單一變數 嘅數據跟從班佛定律(假設啲數值以十進制寫),意思係話喺嗰柞數據入面,會有大約 30% 嘅個案喺 上嘅數值會係以 1 開頭,而數值嘅開頭數字愈大嘅個案數量就會愈細,得大約 5& 嘅個案喺 上嘅數值會係以 9 開頭(下圖)。實證嘅研究表明,呢種現象喺地址、股票價格同人口數字等多種嘅自然(唔係由人用電腦隨機產生)統計數字當中都可以見得到[77]
一個跟從班佛定律嘅數據集;X 軸係 1 至 9,而 Y 軸係(如果啲數據以十進制嘅數字表示)「喺數值上以嗰個數做開頭嘅個案嘅數量」。

推論統計學

[編輯]

推論統計學[e 155]技術化噉講係指做數據分析,推論數據背後反映嘅概率分佈嘅過程。呢啲分析通常係由數據嘅個案嘅值嗰度計一啲指標出嚟,用呢啲指標評估(例如)某兩個變數之間係咪真係有關,或者個自變數係咪真係能夠對個應變數產生影響,甚至估計一個數學模型出嚟描述所研究嘅現象。廿一世紀嘅統計學上有好多種推論統計分析法,每種能夠處理嘅數據類型都唔同。數據科學等領域嘅專家一定要對呢啲唔同嘅分析法有所認識,知乜嘢時候應該用邊種分析法[78]

假說檢定

[編輯]
内文:假說檢定

假說檢定[e 156]係指喺推論統計學當中驗證一個假說係咪真嘅過程。一個做假說檢定嘅研究者所做嘅工序如下:

  1. 睇過有關佢所研究嗰樣嘢嘅文獻,
  2. 建基於已有嘅知識,作出一啲有關嗰樣嘢嘅新假說-「我睇過打前嘅研究,我認為有咗已知嘅嘢,我可以作出以下嘅判斷,而『驗證呢個判斷係咪正確』能夠帶嚟新知識」,
  3. 諗出一個驗證呢假說嘅程序,
  4. 用呢個程序攞數據,
  5. 對數據作出分析,
  6. 用分析結果判斷個假說係咪真確[79]
  • 假說[e 157]:喺科學上係指一個仲未搵到證據支撐,但研究者有理由認為係真確嘅論述。
  • 虛無假說[e 158] 符號)同備擇假說[e 159] 符號):虛無假說係做一份研究嗰陣嘅預設立場,指「兩個量度嘅變數之間冇關係」呢句嘢,,而備擇假說係做一份研究嗰陣嘗試驗證嘅立場,指「兩個量度嘅變數之間有關係」呢句嘢,
    • 舉個例說明,假想有個認知科學家想驗證「年紀」同「記憶力」呢兩個變數之間嘅關係,於是佢就搵咗兩批人返嚟做佢嘅樣本,第一批人年紀喺 20 至 30 歲之間,第二批人年紀喺 50 至 60 歲之間,再用一啲測試量度呢兩批人嘅記憶力,設第一批人喺記憶力測試上嘅平均得分係 ,而第二批人喺同一柞測試上嘅平均得分係 ,噉呢份研究嘅 ,當中後者係個認知科學家想證實嘅嘢[80]
  • 單側同雙側檢定[e 160]單側檢定指個備擇假說講明咗 處於 邊一面,即係 或者 ,而雙側檢定指個備擇假說冇講明 處於 邊一面,即係單純嘅 [81]
  • 喺做假說檢定嗰陣,一般會將可能會出現嘅錯誤分兩種[82]
    • 第一型錯誤[e 161]指錯誤噉否定咗 ,得出咗個「假陽性」結果-兩個變數查實冇啦掕,但研究者搵到咗一個陽性結果出嚟。
    • 第二型錯誤[e 162] 其實係錯,但就冇俾人成功噉否定到,得出咗個「假陰性」-兩個變數實際上有關但就搵到個陰性結果。
  • 統計顯著性[e 163]:係做假說檢定嗰陣得到嘅一個數值;統計顯著性嘅數學符號係 ,表示「如果虛無假說係真,呢個結果出現嘅機會率」,
    睇到個噉嘅結果 係真
    例如如果 值係 0.05,表示「如果虛無假說係真,呢個結果出現嘅機會率得嗰 5%」-因為呢個緣故,研究者有理由相信虛無假說好有可能唔係真,而主張備擇假說(通常係佢想得到嗰個結果)比較有可能會係真,個研究者可以拒絕個虛無假說[e 164][79]
  • 統計功效[e 165]:一個假說檢定過程會有嘅一個屬性;指「如果 係真確,個測試過程會成功拒絕到 」嘅機會率[83]
    成功拒絕 係真
  • 點定區間估計
    • 點估計[e 166]:指用樣本嘅數據嚟計出一個數值,作為一個「估計嘅數值」;例如做統計嘅人家陣嘗試靠住樣本嘅變數 數據嚟估計出總體個 嘅平均值最大機會會係幾多,如果畫做圖嘅畫,個估計值會係條軸上面嘅一[84]
    • 預測區間[e 167]:指按統計模型作出嘅一個有關「跟住落嚟呢個觀察值嘅數值會喺幾多同幾多之間」嘅預測,會掕個機率數值表示嗰個預測有幾大機會成真[84]
    • 區間估計[e 168]:指用樣本嘅數據嚟計出一個數值間距,作為一個「估計個數值喺邊點同邊點之間」;例如做統計嘅人家陣嘗試靠住樣本嘅變數 數據嚟估計出總體個 嘅平均值喺幾多同幾多之間,如果畫做圖嘅畫,個估計值會係條軸上面嘅一個間距[84]
      • 信心區間[e 169]:係指「有信心總體個真實數值係喺入面嘅區間」,喺做統計嗰時會俾人攞嚟表述個樣本嘅數值同個總體嘅真實數值之間估計差幾遠。
  • 因果[e 170]:兩個變數之間可能有嘅一種關係;如果話 係因而 係果,意思即係話 引致 -「因果」一詞嘅具體定義喺廿一世紀初嘅哲學邏輯學上查實仲係一條好有爭議性嘅問題[85]。以廿一世紀初嘅基準嚟講,如果要檢定一啲帶有因果性質嘅假說(例如「食煙會引致患肺癌機率提高」係一條醫學有可能會研究嘅因果假說),通常份研究要滿足以下呢啲條件[86][87]
    • 份研究涉及實驗操作:研究者要操控 (因),睇吓 (果)係咪會跟住改變;如果會,先至確立到因果關係。
    • 份研究要顯示 嘅變化响時間上發生喺 嘅操作之後,先至會確立到因果關係。
    • 一般認為,齋靠統計相關係確立唔到因果關係嘅(睇相關唔蘊含因果)。
    • 格蘭傑因果關係[e 171]:靠兩個變數嘅時間序列嚟評估嗰兩個變數之間「有冇因果關係」嘅一種假說檢定方式;最簡單噉講,喺格蘭傑因果關係之下,攞一個因變數 嘅時間序列同一個果變數 嘅時間序列,並且揀一個時間間隔 ,如果喺每個時間點 數值傾向能夠預測 咁耐之後嘅 數值嘅話,噉 就可以算係 嘅「因」。呢種分析方法源自經濟學(經濟學成日都會應付一個個經濟指標數值嘅時間序列),而且喺現代嘅各社會科學當中相當常用,不過「到底呢個測試能唔能夠真係表明因果」係一條幾受爭議嘅課題[88]
打橫條軸表示時間。(上面條線)喺一個時間點嘅數值能唔能夠預測(紅色箭咀)(下面條線)喺若干時間後嘅數值呢?
  • 多重比較問題[e 172]:指一位研究者同時考慮多場統計推論嘅結果嗰時會搞到出錯嘅機率提升;例如家陣位研究者做咗 5 場 t 測試,噉「啲測試當中最少一場出咗錯」嘅機率實會高過淨係做 1 場 t 測試嗰陣嘅。統計學界有好多種方法應付多重比較問題,簡單例子有「做嘅測試數量愈多,就要對統計顯著性有愈嚴格嘅基準」[89]
    • 邦佛朗尼校正[e 173]:最簡單(同時亦係最保守)嗰種多重比較問題應對方法,將對統計顯著性嘅要求變得嚴格啲;設 做一次比較嗰陣對統計顯著性嘅要求, 做比較嘅次數,邦佛朗尼校正係將對統計顯著性嘅要求設做[90]

統計相關

[編輯]
内文:統計相關

相關[e 174]呢個詞喺統計學上嘅定義如下:如果話 呢兩個變數正相關,即係話 數值高嗰陣 數值都傾向高,而 數值低嗰陣 數值都傾向低;如果話 呢兩個變數成負相關,即係話 數值高嗰陣 數值傾向低,而 數值低嗰陣 數值就會傾向高;而如果話 呢兩個變數冇明顯相關[e 175],即係話 嘅數值唔會點預測得到 嘅數值[91]

  • 皮亞遜積差相關係數[e 176]:係常用嚟衡量兩個變數之間嘅相關嘅一個數值,條式如下[92]
    ,當中
    • 呢兩個變數之間嘅皮亞遜積差相關係數;
    • 係第 個個案嘅 數值;
    • 係第 個個案嘅 數值;
    • 係啲個案喺 上嘅平均值
    • 係啲個案喺 上嘅平均值;
    • 係啲個案喺 上嘅標準差
    • 係啲個案喺 上嘅標準差。
    • 皮亞遜積差相關係數俾嘅資訊只係「兩個變數大致上嘅相關」,但就算兩個變數之間嘅皮亞遜積差相關係數係 0,都唔等如兩個變數之間真係冇關,好似係以下嘅一柞圖噉,每幅圖上面嗰個數表示皮亞遜積差相關係數,每一點表示一個個案,X 軸係變數 ,Y 軸係變數 ;由圖中可見,有好多有趣嘅關係都會俾出數值係 0 嘅皮亞遜積差相關係數[92]
  • 協方差[e 177]皮亞遜積差相關係數條式個分子,即係[93]
  • 相關唔蘊含因果[e 178]:統計學上嘅一條重要原則,指緊就算兩個變數之間有相關,都唔表示兩個變數之間有因果關係;假想而家有兩個變數 之間有勁嘅相關(皮亞遜積差相關係數數值大),噉可以表示三個可能性-
    1. 引致
    2. 引致
    3. 有同一個原因。
    • 有唔少統計學嘅學生都以為兩個變數之間有相關表示咗兩者有因果關係,但呢個係一個錯誤嘅諗法,所以統計學界就有咗句噉嘅說話用嚟提醒學生要小心[94]
  • 局部相關[e 179]:指喺第個或者第啲變數嘅影響冇咗嘅情況下,兩個變數之間嘅相關;想像有兩個變數 ,有 混淆變數(睇下面) 之間「喺 嘅影響受控制冇咗嗰陣」嘅局部相關 會係 之間嘅相關,當中 係指做線性迴歸分析 預測 嗰陣嘅誤差, 同一道理[95]
  • 組內相關[e 180]:用嚟衡量每一組有幾「內部一致」嘅基準;想像有個數據,有若干個個案,而呢柞個案可以分做若干組,如果柞數據反映組內相關高,就表示同一組嘅個案嘅數值傾向彼此之間接近;要計組內相關可以有幾條唔同嘅式用[96][97]
每個藍點係一個個案,每個個案有個 值,而 X 軸表示個個案屬邊組;左圖係 ICC 高(0.91)嘅情況,而右圖係 ICC 低(-0.07)嘅情況。
  • 等級相關[e 181]:指要同佢哋計相關值嗰兩個變數係「等級」,即係每個個案喺嗰兩個變數上有「第一高」、「第二高」同「第三高」等嘅數值[98]
    • 斯皮亞曼等級相關係數[e 182] ):等級相關嘅一種計法,指兩個變數分別嘅等級之間嘅皮亞遜積差相關係數,即係[99]
      ,當中
      • 係考慮緊嗰兩個變數,而 係啲個案喺 上嘅等級(第一、第二... 等等)。
    • Τ 等級相關係數[e 183] ):設 做一柞個案,每個個案都喺 呢兩個變數上有個數值,是但搵兩個個案 嚟睇,佢哋可以係一致[e 184],即係 或者 ,否則佢哋就算係唔一致[e 185],而 嘅計法如下[100]
      • :一致配對嘅數量
      • :唔一致配對嘅數量
  • 自相關[e 186]:一個隨機過程嘅自相關係指嗰個過程喺唔同時間點嘅數值之間嘅皮亞遜積差相關係數;設 做一個有隨機嘅過程, 設做是但一個時間點,而家將 呢個過程若干次, 代表個過程喺時間點 俾出嘅數值,噉呢個過程時間點 同時間點 之間嘅自相關 定義上係 之間嘅皮亞遜積差相關係數;自相關喺訊號處理上常用,可以用嚟量度一段訊號有幾接近完全隨機[101]
  • 交叉相關[e 187]:睇喺每個時間點兩段時間序列 之間嘅統計相關,即係話交叉相關會反映 (時間點 值)同 (時間點 值)之間嘅相關,又或者係揀個延遲值 ,睇吓交叉相關反映 之間嘅相關[102]
  • 正交[e 188]:喺統計學上,如果話兩個 IV「正交」,意思即係話呢兩個 IV 之間冇統計相關[103]。睇埋多重共線性

比較平均值

[編輯]

泛指「將手上嘅個案分做若干組,再比較唔同組之間喺個變數上嘅平均值」嘅推論統計學分析方法,多數都會假設每組喺個變數上呈常態分佈

  • 學生 t 測試[e 189],簡稱 t 測試:成日用嘅統計分析方法之一,用嚟分析兩個組(通常係實驗組同對照組)之間喺某個指定變數嘅數值上係咪有顯著嘅差異[104]。t 測試涉及以下嘅方程式,比較兩組喺個變數上嘅平均值
    • 當中 係成個樣本嘅大細, 就係兩個組分別喺個變數上嘅平均值 係兩個組嘅標準差(t 測試假設咗兩個組嘅標準差相等),最後計到一個 值出嚟。如果 值好大,噉就表示咗「兩個組之間嘅差異」大過「組嘅內部差異」好多,噉亦都表示咗「個實驗嘅操作造成嘅差異」大過「隨機性嘅個體差異」- 值愈大愈係表示兩個組之間嘅差異係因為組嘅存在而造成嘅。計到個 值之後,仲有啲方法可以跟手計埋個顯著性嘅值出嚟。
    • 獨立樣本 t 測試[e 190]:指做 t 測試比較嗰兩個組係獨立同分佈嘅,例如做個心理學實驗,用隨機抽樣方法隨機噉抽咗 個受試者返嚟,再用隨機方法將佢哋分落實驗組同對照組(即係每位受試者有 50% 機率入實驗組、50% 機率入對照組)[105]
    • 配對樣本 t 測試[e 191]:指做 t 測試嗰兩個組獨立同分佈嘅,研究者做咗某啲嘢,令一組數值當中每一個都喺另外嗰組當中有個對應,例如做個心理學實驗,研究者想知個實驗操作會引致變數 有乜變化,於是就喺實驗前量度 一次,跟住對受試者做實驗操作,然後喺實驗後又量度 一次(睇返重複量數設計)。喺呢個情況下,每位受試者都有個
      • 「實驗前嘅 值」()同
      • 「實驗後嘅 值」(),
      • 研究者想比較兩組數值(總共有 個數值,而受試者數量係 ),但兩組數值唔係獨立同分佈嘅-每個 值都有一個相應嘅 值(一位受試者嘅 值同佢嘅 值)。喺配對樣本 t 測試當中,兩組數值理論上會互相影響-每一個 理論上都會係相應嘅 函數),所以同獨立樣本 t 測試比起嚟,配對樣本 t 測試嘅統計自由度;睇下面)會明顯低啲[105]
實驗組同對照組喺個變數上各有個概率分佈(紅色線同藍色線);上圖顯示兩組差異細-組之間嘅差異(由 反映)同組內部差異(由 反映)比起嚟好細,而下圖顯示兩組差異大。組嘅數量係三或者以上(ANOVA)嗰陣可以用同樣方法想像。
  • 變異數分析[e 192]:一系列用嚟分析唔同組嘅平均值嘅方法;假想家陣個研究者想比較三組喺變數 嘅平均值上嘅差異,如果三組之間有顯著嘅差異,噉組之間嘅 變異數應該會大過組內部嘅好多。最簡單嘅單因子變異數分析[e 193]分析一個應變數喺三個或者以上嘅組之間嘅差異(就係自變數),考慮以下嘅數值[106]
    • 原則上, 數值愈大,研究者就愈有理由相信組之間有顯著嘅差異。
    • 重複量數變異數分析[e 194]:即係唔同組係同一班受試者喺唔同時間點嘅數值嗰陣用嘅 ANOVA;想像一個用重複量數設計實驗,喺 個時間點分別噉量度班受試者喺變數 上嘅值,如果 ,研究者可以用配對樣本 t 測試(睇上面),而如果 ,噉研究者就要用 rANOVA-比較 組()數值之間喺 上嘅平均值嘅差異,而呢 組唔係各有一班受試者,而係同一班受試者喺唔同時間點嘅 [107]
    • 雙因子變異數分析[e 195]:指有兩個自變數嘅 ANOVA,可以用嚟睇嗰兩個自變數之間嘅調節效應(睇下面)[108]
    • 多變量變異數分析[e 196]:ANOVA 嘅一個變種,用嚟分析多過一個應變數;簡單講嘅話,MANOVA 做嘅嘢就係比較唔同組嘅平均值向量-喺一般嘅 ANOVA 當中,每組得一個數值(個應變數嘅平均值),而 MANOVA 要考慮多過一個應變數,所以做法就變成每組有一個向量 ,即係 個應變數(假設每個應變數都最少去到等距層次)[109]
    • 協方差分析[e 197]:係一種結合 ANOVA迴歸分析一般線性模型;評估一個應變數嘅平均值係咪受一個離散嘅自變數(例如)影響(一般 ANOVA 做得到嘅嘢)之餘,仲會控制住若干個連續變數(簡單講就係睇到個應變數獨立於呢啲控制變數嘅效果)。大致上噉講,ANCOVA 做嘅就係假設柞控制變數同應變數成線性關係,做迴歸分析用柞控制變數預測應變數,然後再用迴歸分析得到嘅誤差(柞控制變數預測唔到嘅變化)嚟做應變數行 ANOVA [110]
  • 等分散性[e 198]:比較平均值方法成日會作嘅假設;如果話一柞隨機變數(例如係「各組喺變數 上嘅數值」)具有等分散性,表示佢哋冚唪唥都具有相同嘅有限變異數。比較平均值方法通常會假設各組喺變數 上嘅數值嘅變異數一樣[111]
  • 異分散性[e 199]:等分散性嘅相反,指嗰柞隨機變數當中有最少一個喺變異數上同其他嗰啲唔同[111]
  • Z 測試[e 200]:都係比較樣本之間嘅平均值有咩差異,不過唔似得 t 測試噉條式會考慮埋樣本大細
    • 當中 值愈大就愈表示樣本之間嘅差異愈明顯。
  • F 測試[e 201]:泛指要測試嗰個變數喺虛無假說下係跟 F-分佈[e 202]嘅。

拉雜推論概念

[編輯]
  • 非參數統計學[e 203]:泛指「唔對背後嘅概率分佈統計參數)作出任何假設」嘅統計分析方法;例如 t 測試ANOVA 都假設咗啲變數背後係跟常態分佈嘅,所以呢啲統計分析法就係有參數統計學;非參數統計學嘅例子包括麥倫瑪測試呀噉[112]
  • 卡方檢定[e 204] χ2):一種成日俾人用嚟分析離散變數之間嘅關係嘅做法;喺最簡單嘅情況下,卡方檢定要做嘅嘢係計以下嘅數值:
    ,當中
    • 係所謂嘅卡次方[e 205]
    • 係一個觀察到嘅數值。
    • 係一個預期嘅數值。
    • 舉個例說明,想像研究者家陣想研究老人家係咪零舍容易有某隻病,佢搵個樣本返嚟,樣本入面有若干個人係老人家(歲數大過 60),又有若干個人有病,即係話啲受試者會屬於四個類嘅其中一類:
      • 有病又唔係老人家;
      • 有病又係老人家;
      • 冇病又唔係老人家;
      • 冇病又係老人家;
    • 跟住研究者可以計吓每個格嘅人數()同「假如歲數同有冇嗰隻病無關,嗰一格嘅預期人數」()。所以如果 數值愈大,佢就愈有理據相信歲數同有冇嗰隻病真係有關[113]
  • 麥倫瑪測試[e 206]:一個 IV 一個 DV,兩個變數都淨係得兩個可能數值,麥倫瑪測試會計個 χ2 值出嚟反映「IV 係咪對 DV 有具體影響」;例:想像家陣研究一隻對病人「有冇骨痛」嘅影響,IV 係有冇食嗰隻藥,而 DV 係有冇骨痛,麥倫瑪測試會話到俾研究者聽,IV 係咪對 DV 有顯著嘅影響[114]
  • MWU 測試[e 207]:一種非參數統計分析方法,用嚟比較兩個獨立嘅組嘅平均值係咪相等,可以用嚟唔跟常態分佈嘅數據上(唔似得 t-測試噉指定啲組要跟常態分佈);想像家陣設兩組,佢哋嘅個案數量分別係 咁多,而又想像將每個個案喺個變數上嘅數值由細到大排咗次序(計好 rank),噉計以下嘅
    • ,當中 係指組 1 嘅 rank 總值;
    • ,當中 係指組 2 嘅 rank 總值;
    • 之間嘅差距會反映兩組之間係咪有啲系統性嘅差異(例如係咪「組 1 啲值硬係傾向低啲」噉)[115]
  • 效應值[e 208]:指一個量度兩個變數之間嘅關係「有幾勁」嘅數值;要得到效應值有好多方法,簡單例子有變數之間嘅相關值同埋迴歸分析當中嘅迴歸系數[116]
  • 效率[e 209]:一個假說檢定步驟或者一套實驗設計可以有嘅一個特性;一套統計方法嘅「效率」係指套方法有幾能夠用最少量嘅個案嚟達到最高嘅表現(表現通常係以「做預測嘅能力」嚟衡量)[117]
  • 頻率學派推論[e 210]:一種舊時嘅統計學詮釋方法;根據呢種理解,推論統計嘅作用在於測試「一件事有冇發生」;一個頻率學派嘅研究者做嘅嘢係將個實驗重複若干次,再睇吓喺呢 次實驗當中,有幾多次得出撐個假說嘅結果。呢種做法俾人詬病,話用佢得到嘅結果會受實驗嘅重複次數影響[118]
  • 貝葉斯推論[e 211]:一種喺廿世紀取代咗頻率學派推斷嘅統計學詮釋方法;根據呢種理解,一個研究者喺做實驗之前會有一個原先預期[e 212]嘅模型,對每件事件都有個先驗概率[e 213],然後佢會做實驗攞數據,再按呢啲數據更改自己手上嘅模型,打後再做實驗,按攞到嘅知識更改自己心目中每件事件嘅後驗概率[e 214],跟住不斷更新個模型。即係用返貝葉斯定理[e 215]嘅思考方法想像[119]
,當中
  • 指(研究者相信)手上模型係真確嘅機會率;
  • 指「如果手上模型係真確,會得出呢個實驗結果()」嘅機會率;
  • 指「有咗個實驗結果,手上模型係真確」嘅機會率(事後信念[e 216])。
呢個過程可以想像成「心目中嘅概率分佈嘅不斷變化」-想像一個觀察者,佢完全唔知「撳 A 呢個掣會發生乜事」(喺佢心目中,所有可能性嘅機會率都一樣,成一個均勻分佈),喺撳咗一次,觀察到撳咗個掣會有盞燈閃之後,佢就會改變佢心目中嗰個概率分佈,知道「會有盞燈閃」嘅機會率大過「天會跌落嚟」嘅,即係對「撳 A 呢個掣會發生乜事」嘅認識多咗[119]
  • 估計理論[e 217]:統計學當中嘅一個子領域,研究喺建立統計模型嗰陣點樣估計模型嘅參數數值。可以睇返普通最小二乘法[e 218][120]
    • 最大似然估計[e 219]:廿一世紀初最常用嗰種用嚟估計模型參數數值嘅做法;最大似然估計會先搵出一個機會率函數[e 220],呢個函數會反映「觀察到手上數據嘅數值」()同「模型參數」()之間嘅關係,而最大似然估計演算法嘅目標係要搵出 嘅數值應該要係幾多先可以令 (已知模型參數係 噉嘅樣,觀察到手上呢柞數據嘅機會率)嘅數值有咁大得咁大[121] 可以表達成[122]
      [註 6]
    • 當中 係指「第 1 個個案喺變數 上嘅值係 咁多」嘅機會率,而 就係樣本大細[123]
  • 特徵值[e 221]特徵向量[e 222]:假想有一個非零向量 ,處於一個向量空間 當中, 作出一個線性嘅改變 (例如係同一個矩陣相乘),而 呢個改變等同將 乘以一個標量 ,即係話:
    • 就係一個同 呢個特徵向量相關嘅特徵值;喺應用上,特徵值可以用嚟反映一個逐步噉變化嘅系統[124]
係一個特徵向量, 同矩陣 相乘,而 呢個變化等同將佢同標量 相乘, 係佢嘅特徵值。
  • 可解釋變異[e 223]:指一個數據庫入面嘅個案間差異(以離散程度計算)有幾多可以由手上嗰個統計模型解釋;可解釋變異可以用多個指標衡量[125]
  • 中介變數[e 224]:如果有三個變數,,當中 能夠影響 ,而 跟住會影響 ,噉 就係 之間嘅中介變數;要用迴歸分析分析中介效應最簡單嘅有三個步驟[126][127]
  1. 用迴歸分析睇吓 係咪能夠預測 ;即係睇吓 當中嘅 係咪顯著
  2. 用迴歸分析睇吓 係咪能夠預測 ;即係睇吓 當中嘅 係咪顯著
  3. 用迴歸分析睇吓 係咪能夠預測 ;即係睇吓 當中嘅 係咪顯著,以及 絕對值係咪細過 。如果 數值係 0,但 係顯著,呢個模型就係一個完全中介[e 225]嘅模型,而如果 絕對值細過 但依然顯著,噉呢個模型就係一個局部中介[e 226]嘅模型。
  • 一個諗中介嘅統計模型可以涉及多過一個層次嘅變數(可以睇返等級線性模型),即係話當中有啲變數係量度緊某啲個體(例:員工),而高層次嗰啲個體(例:公司)係由低層次嗰啲個體組成嘅。不過一般嚟講,高層嗰啲變數會係預測低層變數數值嘅自變數[128]
中介效應嘅圖解
  • 調節變數[e 227]:指一個「調節」另外兩個變數之間嘅關係嘅變數(調節效應[e 228]),用迴歸分析諗嘅話:
    • 當中 應變數自變數,而 係一個調節變數-,表示 數值對 嘅影響視乎 嘅數值[91]
    • 要睇吓一個變數係咪調節變數,一個可能嘅做法簡單講如下:首先將個自變數()同想知佢係咪調節變數嘅變數()做自變數,同個應變數做迴歸分析;然後第二步再做多個迴歸分析,今次淨係用互動項[e 229] 即係 )做自變數,如果迴歸分析結果顯示 都係統計上顯著,噉就表示真係有一個調節型嘅效應存在[129][130]
  • 混淆變數[e 230]:指一個同時會對自變數同應變數產生影響嘅變數,搞到研究者唔能夠肯定(如果搵到)自變數同應變數之間嘅關係係咪因為兩者真係有關,定係因為個混淆變數嘅影響;想像家陣研究者做一份研究,想知道 呢兩個變數之間嘅關係,佢做統計分析之後,發現 之間有顯著正相關,不過評鑑佢份研究嘅學者就指出,有一個變數 係之前嘅研究發現咗係會對 有正影響嘅,而呢份研究冇量度到 ,所以個結果就未必係因為 之間真係有關; 喺呢個情況下就係一個混淆變數[131]
  • 壓制變數[e 231]:想像家陣做迴歸分析,用幾個自變數 嚟預測應變數 嘅值;假想而家 有一定嘅統計相關 係預測變數),同時 冇顯著嘅相關( 係壓制變數),不過 就同 等嘅自變數有相關-喺現實,好似 噉嘅預測用變數多數都有「同應變數相關嘅部份」又有「同應變數冇相關嘅部份」,所以當研究者嘗試用呢啲變數建立迴歸模型嗰陣,呢啲變數唔淨只會解釋 嘅變異,同時又會解釋第啲自變數當中同應變數無關嘅變異;喺呢種情況下,壓制變數會解釋咗預測變數當中嗰啲同應變數無關嘅部份,形成「壓制預測變數入面嗰啲同應變數無關嘅部份」噉嘅效果[132]
  • 自由度[e 232] ):簡單講就係「手上有得完全隨機變化嘅資訊量」超越「為咗建立統計模型而必要嘅資訊量」(要估計嘅參數數量)幾多;例如家陣做抽樣,抽咗 個個案返嚟,然後由樣本度建立一個描述個樣嘅常態分佈;一個常態分佈可以靠兩個數值描述嗮-平均值)同標準差)-所以喺呢個情況下,自由度係 (用 咁多份互相獨立嘅資訊,估計 2 個參數)[133]
    • 自由度同奧坎剃刀[e 233]有啦掕-奧坎剃刀指出,假設第啲因素不變,研究者會偏好簡單嘅模型,簡單嘅模型有嘅參數數量會比較少,「要估計嘅參數數量」低就表示自由度數值會高。
    • 一般嚟講,自由度俾人覺得係數值愈大愈好嘅,不過喺現實世界因為人力物力嘅限制,樣本大細梗會係有限嘅。而唔同領域對於「自由度起碼要有幾多先可以接受」呢條問題都各有唔同嘅標準。
  • 敏感度分析[e 234]:有陣時喺得到統計模型之後會做嘅一樣嘢;用統計分析製作模型嘅過程當中往往假設咗好多嘢,但呢啲假設未必完全受人接納(例如好多時分析者都假設個變數係跟常態分佈);做敏感度分析意思就係睇吓如果嗰啲假設唔成立(變數唔係跟常態分佈),個模型仲成唔成立,如果就算冇咗嗰個假設都仲係搵到同一樣嘅結果嘅話,個分析者就更加有信心覺得個模型係掂嘅[134]
  • 廣義化[e 235]狹義化[e 236]
    • 廣義化指「攞多個唔同個案,搵出呢柞個案嘅共通點,用呢啲共通點形成一個概念」嘅過程。例:烏鴉青蛙同埋鯊魚(一柞個案)都有「有脊椎」等嘅特徵(共通點),呢啲共通點結合埋,就成為「脊椎動物」呢個概念[135]
    • 狹義化係指「攞一啲普遍嘅知識嚟分析一個特殊情況」嘅過程,例如係攞住講重力嘅理論(一個普遍噉描述萬物嘅理論)嚟分析一個蘋果自由下墜-好多嘢都可以受重力影響,所以蘋果嘅自由下墜只係其中一個個案[135]
  • 蒙地卡羅方法[e 237]:一柞用帶有隨機嘅做法嚟應付決定性系統演算法:如果話一個系統係「決定性」嘅,意思,係指個系統冇隨機性質喺裏面,但就算一個系統係決定性質,個系統依然有可能會係複雜到難以用決定性質嘅方法解決,所以喺實際應用上,要搵出有關呢啲系統嘅問題嘅答案,可以靠一啲有隨機性質嘅演算法[136]
  • 因式分解[e 238]:指將一個或者數學物體向量或者張量等都得)以若干個因素嘅形式表達出嚟,而呢啲因素通常係比較簡單嘅數學物體;例:將「15」呢個數做因式分解可以得出「」,而將多項式」做因式分解可以得出「[137]
  • 頑健統計[e 239]:泛指一種統計技術(尤其係推論統計學方面嘅技術)無論啲數據嘅原初概率分佈係點嘅樣都好,種技術都會有良好嘅表現[138]
  • 分析層次[e 240]:指分析嘅對象規模有幾「大」;例如喺行為科學社會科學上,「分析一個個體喺唔同時間點之間嘅差異」同「分析一柞個體之間嘅差異」就好唔同;想像一份認知心理學研究一班人揸車,比較個體之間嘅差異嗰陣發覺「一個人愈要俾心機揸車,就愈大機會撞車」,不過噉可能係因為新仔零舍要用多啲注意力先可以揸到車,而新仔因為技術冇咁好撞車嘅機會亦自然高啲;如果比較嘅係一個個體喺唔同時間點之間嘅差異,應該會發覺「一個人愈俾心機揸車,就愈細機會撞車」-唔同分析層次俾到嘅結果完全唔同[139]
  • 元分析[e 241]:一種「分析嗮已知嘅研究」嘅分析;科學好睇重嘅一樣嘢係一個結果有冇再現性,即係「唔同人做同一樣嘅研究係咪都會得出相同嘅結果?」呢條問題。元分析嘅做法大致上如下[140]
    • 搵出要研究嘅問題,即係「研究嘅係咩變數」;
    • 搵出有用實際數據嚟研究過呢柞變數之間嘅關係嘅研究論文;
    • 篩選啱用嘅研究,例如可能研究者淨係想睇攞後生仔女(年齡 )做樣本嘅研究;
    • 用元分析上會用嘅指標,計出「睇嗮呢柞研究,總體上嘅結果係點」。例如以下條式係考慮效應值嘅計法:
      ,當中
      • 係綜觀柞研究啲實驗組平均值 係綜觀柞研究啲對照組嘅平均值,而 係整體嘅變異數
      • 喺實際嘅科研上,啲研究者好興响針對某個課題研究咗一大輪之後就做元分析,並且按元分析嘅結果嚟決定要信邊個結果。

統計模型

[編輯]
内文:統計模型
睇埋:最佳化

統計模型[e 242]數學模型嘅一種。一個統計模型會帶有若干個假設,模擬一個產生數據(觀察到嘅嘢)嘅過程;一個研究者會收數據,並且用數據估計一個統計模型嘅參數數值,即係用數據估計世界嘅運作法則[141]

  • 統計參數[e 243]參數係指一個能夠定義一個系統嘅數值;統計參數係指個統計模型裏面用嚟描述個總體嘅特性嘅數值,例如係某個變數喺個總體嗰度嘅平均值或者標準差呀噉。
  • 單變量分析[e 244]:指個分析模型得一個變數[142]
  • 多變量分析[e 245]:指個分析模型有多過一個變數[142]
  • 多變量統計[e 246]:指個分析模型有多過一個應變數
  • 統計模型標明[e 247]:指「講明個統計模型要包含邊啲變數喺入面,仲有係啲變數要成點樣嘅函數」嘅過程[143]
  • 適合度[e 248]:一個統計模型有幾能夠準確噉描述手上嘅數據,一般係愈高愈好[144]
    • 適合度指標[e 249]:指一啲用嚟衡量一個統計模型嘅適合度嘅指標數值;喺廿一世紀嘅統計學界有好多種適合度指標,用統計技術做研究嘅人會按照自己嘅情況選擇用乜嘢指標衡量手上嘅統計模型[145]
  • 多組分析[e 250]:泛指「將受試者分做幾組,每組都由佢哋數據嗰度估個統計模型出嚟,並且比較唔同組喺個模型上有乜差異」;例如研究者認為變數 同變數 喺實驗組當中會成正比,而喺對照組當中會冇相關,於是就將數據分做兩份,每份對應其中一組受試者嘅數據,然後同兩組分別建立一個結構上相同嘅迴歸模型),睇吓呢兩組嘅 係咪有預期中嘅差異(即係喺實驗組當中係統計上顯著嘅正數,喺對照組當中統計上唔顯著);如果有,就能夠支持嗰位研究者嘅假說[146]。睇埋調節變數
  • 約束[e 251]:指喺建立一個統計模型嗰陣,指定個模型一定要滿足某啲條件;例如喺做兩組嘅多組分析嗰陣,指定一個約束,要 呢兩個變數之間嗰段統計關係喺兩組之間一樣,而如果施加呢個約束會搞到個模型嘅適合度明顯變差,噉個研究者就有理由話兩組之間有差異(睇埋調節效應[147]
  • 混合物模型[e 252]:簡單講就係指將個模型設做「群體入面有若干個子群體,每個子群體之間都有顯著嘅差異」,而且唔使拃數據事先指定每個個案屬邊個子群體[148]。睇埋聚類分析嘅概念。
  • 統計模型選擇[e 253]:泛指「由多個『可能描述到啲數據嘅統計模型』嗰度揀一個」嘅過程;通常係會靠「邊個模型嗰啲適合度指標最靚」嚟做基準揀。

迴歸模型

[編輯]
幅圖嘅兩條軸分別代表研究緊嗰兩個變數(x 同 y),每個紅點代表一個個案,每個個案都喺兩個變數上各有個值。用迴歸分析可以估計出條線(綠線同藍線都係可行嘅線)並且知道呢兩個變數大致上成正比
内文:迴歸模型

迴歸模型[e 254]係常用嘅一種統計模型。一般迴歸模型有若干個自變數同一個應變數,兩者多數會係連續變數,然後個演算法就嘗試畫一條能夠表達自變數同應變數之間嘅關係嘅線[149]

例:,當中 係應變數, 係自變數,殘差[e 255],0.5 同 30 係由數據估計出嚟嘅參數。
,當中
  • 係恆常嘅系數;
  • 每個 可以係
    • 常數 1、
    • 一個合頁函數[e 261],即係 或者 [註 7]、或者
    • 兩個或者以上嘅合頁函數乘埋[150]
  • 決定系數[e 262] ):反映一個應變數變異數有幾多可以由啲自變數預測;最廣義上嘅定義如下:
    • 當中 可以想像成做咗迴歸分析後嘅殘差平方和(反映「用個模型得出嘅預測值同實際值傾向差幾遠」),而 係指變異數樣本大細相乘(反映樣本整體嘅變異數);即係話如果個模型做到完美預測,噉 [151]
  • 多重共線性[e 263]多重迴歸模型當中間中會出現嘅問題,指其中一個自變數嘅數值可以由其他自變數嘅線性噉預測,,而且準確度有返咁上下高;喺有多重共線性嘅情況下,個多重迴歸模型嘅系數(嗰柞 )嘅估計數值可能會隨模型或者數據嘅細少變化而有不穩定嘅變化;多重共線性仲可能會令人懷疑個迴歸模型嘅預測能力-原則上,如果將一個多重迴歸模型嘅 改變而第啲 數值不變,係會睇到 嘅數值會點隨住 變化嘅,但如果有多重共線性,就表示 數值變會令第啲 跟住變,「設其他 不變, 改變」呢樣嘢就會唔可行;因為噉,統計學界對於「要點樣處理多重共線性」有進行認真嘅探討[152]
  • 一般線性[e 265]模型:一種同時寫低幾個線性迴歸模型嘅做法,可以表達成[154]
    • 當中 係一個矩陣,包含啲應變數 係一個包含啲自變數嘅矩陣, 係包含啲參數嘅矩陣,而最後 係包括啲誤差值嘅矩陣。
  • 邏輯[e 266]迴歸:個應變數係一個二元(得兩個可能數值)變數,例如係「輸定贏」噉;啲自變數就可以係連續可以係離散;邏輯迴歸可以用嚟按一柞個案當中每個喺柞自變數上嘅數值,預測佢哋係兩類當中嘅邊一類,例如係電子遊戲研究當中可以用嚟靠一個玩家嘅數據嚟估計佢輸定贏[155],用方程式嚟表達嘅話:
  • Sigmoid 函數:以下呢個函數
Sigmoid 函數畫做圖嘅樣
  • 自迴歸模型[e 267]:用嚟處理時間序列嘅一種迴歸模型;攞一個會隨住時間變化嘅變數 ,設 做時間點 值,一個自迴歸模型會用個變數嘅過去數值做自變數,預測個變數而家嘅數值。
  • 泊淞[e 268]迴歸分析:會用喺數數據上嘅一種迴歸分析,最基本嗰個模型係噉嘅樣:
    • 當中 係應變數(通常會假設佢跟泊淞分佈), 係包含柞自變數向量,而 係啲參數[156]
  • 普通最小二乘法[e 269]:其中一種最常用嚟估計線性迴歸模型參數嘅數值嘅演算法;呢一類演算法會用啲步驟逐漸改變個迴歸模型啲參數,目標係要令殘差平方和[e 270]有咁細得咁細(有關將某啲數值最大最小化嘅嘢,可以睇最佳化)。當中 RSS 係指將所有誤差值嘅平方加埋得出嘅數[149]
  • 逐步[e 271]迴歸:一種可以用嚟估計線性迴歸模型參數嘅數值嘅演算法;指
    • 由一個冇自變數嘅迴歸模型開始,foreach 自變數,加個自變數入去,喺每一步都用某啲事先制定咗嘅法則講明要點決定加邊個自變數(前向);
    • 由一個有齊嗮啲自變數嘅迴歸模型開始,foreach 自變數,攞個自變數走,睇吓個模型嘅預測力變成點,喺每一步都用某啲事先制定咗嘅法則講明要點決定攞走邊個自變數(反向)。
    • 喺廿一世紀嘅統計學界,逐步迴歸廣受批評,所以唔多人用[157]
  • 線性關係:如果話兩個變數 成線性關係,即係話如果將兩個嘅數值畫做圖,會得出一條直線,條式會係[158]
    ,當中 係一個特定嘅參數,而 截距[e 272]
  • 固定效應[e 273]模型:指個模型嘅參數係固定或者最少非隨機嘅數值[159]
  • 隨機效應[e 274]模型:指個模型嘅參數隨機變數[159]
  • 混合[e 275]模型:指個模型嘅參數有啲係固定或者非隨機,有啲係隨機變數[159]
  • 嵌套[e 276]模型:如果話「模型 嵌套咗喺模型 裏面」,意思即係話 參數子集;研究者可以透過比較唔同模型嘅適合度指標,睇吓「邊個模型能夠最有效噉描述手上攞住嘅數據」[160]。可以睇埋奧坎剃刀嘅概念。
  • 等級線性模型[e 277]:一種做多層分析[e 278]嗰時好有用嘅統計分析方法;「多層分析」意思係指樣本入面有 個群組,而每個個體都屬於某一個群組,研究者有理由相信唔同群組彼此之間會有啲系統化嘅差異。
    • 例如一份管理學上嘅研究,想分析一間公司(樣本)入面嘅員工(個體),而每個員工都有佢所屬嘅工作團隊(樣本入面嘅群組),研究者有理由相信工作團隊之間嘅差異(例如係團隊領袖嘅領導能力)會影響佢想研究嘅現象,所以佢就做 HLM,用類似以下噉嘅數學方程式將唔同層面嘅變數擺入去同一條式入面[161]
      • 係一個喺層面 1 嘅應變數(細階 指個體,而細階 指個群體);
      • 係一個喺層面 1 嘅自變數
      • 係一個喺層面 2(群體層面)嘅自變數,佢嘅數值對於屬同一個群體嘅成員嚟講都係一樣嘅;
      • 係個
      • 淨低嗰啲 迴歸系數[e 279],反映咗佢掕住嗰個自變數有幾能夠預測個應變數嘅數值,而 係指誤差
    • 呢條式用文字解釋係噉: 嘅數值係受 呢兩個變數嘅數值影響嘅,而如果用呢個變數嘅數值去預測 嘅數值嘅話,誤差平均會係 。而家想像:
      • 係「工作團隊 當中員工 嘅工作表現」,
      • 係「工作團隊 當中員工 嘅身體健康」,而
      • 係「工作團隊 嘅領袖嘅領導能力」-
    • 跟手個研究者就去收數據,做統計分析,用數據估計 嘅數值。如果數據反映(例如)一個員工嘅身體健康比起佢所屬嘅團隊嘅領袖嘅領導能力更加能夠預測佢嘅工作表現(簡單啲講就係 )嘅話,噉佢就發現咗啲有用嘅嘢(對一個組織嚟講,對提高員工表現嚟講,確保員工健康比起領導能力更重要),可以將佢嘅研究結果喺期刊嗰度公佈。HLM 常見於管理學社科領域研究,因為呢啲領域成日會遇到「樣本入面有若干個次群體」嘅情況[162]

因素分析

[編輯]
一個潛在變數模型嘅想像圖;家陣研究者想量度 呢個睇唔到嘅因素(例如智能),於是就俾受試者做個測驗,有 咁多條題目,... ,當中每條題目都有個誤差值 以及 (因素負荷量;簡單講係反映嗰條題目嘅得分同 有幾強相關)。
内文:因素分析

因素分析[e 280]係一系列用嚟將大量變數轉化成少量因素[e 281]嘅統計方法。因素分析有好多種做,不過做法一般都係由若干個直接觀察到嘅變數嗰度推想一個能夠解釋呢啲變數嘅變化嘅因素出嚟,而最後得出呢個因素能夠一定程度上反映嗰柞變數嘅變化。舉個例說明:

  1. 想像家陣手上個數據集有若干個可觀察[e 282]隨機變數 ,而呢柞變數嘅平均值係
  2. 想像有 個數值冇得直接觀察嘅隱藏變數[e 283],呢柞 係所謂嘅因素[註 8]
  3. 喺做因素分析前, 嘅數值係未知,而因素分析嘅目的就係要搵出以下呢啲式當中嘅參數:
;當中
係參數;
誤差,平均值係 0,而變異數係一個有限數值,唔同 變異數數值可以唔同。

假想 嘅數值好大(即係 數量多),研究者覺得吓吓都要用嗮柞 做運算好撈絞;而又假想 ,如果研究者搵到上述柞式嘅參數數值,佢就能夠用柞 嘅數值總結成個數據集,做到「用數量少啲嘅變數嚟做分析」嘅效果[163]

  • 潛在變數模型[e 284]:描述到啲可觀察變數(或者外顯變數)戥佢哋背後啲潛在變數之間嘅連繫。
  • 因素結構[e 285]:指一個因素嘅「結構」,包含「個因素由邊啲睇到嘅變數反映」以及「每個變數嘅因素負荷量[e 286]係幾多」等嘅資訊。
  • 因素負荷量[e 287]:喺每個量度咗嘅變數同個隱藏因素之間有嘅一個數,值喺 0 到 1 之間,係嗰個變數同個隱藏因素之間嘅統計相關;如果一個變數嘅因素負荷量大,就表示佢同個隱藏因素有強嘅統計相關,而如果一個變數嘅因素負荷量細,噉就表示佢同個隱藏因素之間嘅統計相關弱,通常研究者就會覺得噉表示個變數根本反映唔到個隱藏因素,會考慮將嗰個變數由個模型嗰度攞走。
  • 因素分析可以分做兩大類[164]
    • 探索型因素分析[e 288]:指研究者冇作出任何事先假設嘅因素分析,研究者會由手上嘅數據嗰度估計因素嘅數量同每個變數條 式係點;
    • 確定型因素分析[e 289]:指研究者分析前經已有個模型喺度;個模型會描述「因素有幾多個」以及「每個變數係邊幾個因素嘅函數」等嘅資訊,然後分析方法要做嘅係嘗試計出一啲量度「個模型有幾準確噉描述數據嘅實際情況」嘅指標。
  • 主成份分析[e 290]:因素分析嘅一種;想像有柞個案,佢哋每個喺兩個變數上都有其數值(附圖),跟住可以畫兩條線(附圖嗰兩個箭咀),兩條線分別都可以用一條包含 嘅算式表達,當中由圖當中可以清楚睇到,長箭咀嗰條線成功噉捕捉更多嘅變異數-亦即係話長箭咀嗰條線所代表嗰個「成份」比較能夠用嚟分辨啲個案,所以比較「重要」。喺最簡單嗰種情況下,一個做主成份分析嘅演算法大致上係噉[165]
    1. 攞數據;
    2. 畫條線出嚟,條線有條式,而條式包含數據當中有嘅變數
    3. 計出沿呢條線嘅變異數有幾多;
    4. 改變吓條線嘅參數
    5. 再計出沿條新線嘅變異數有幾多;
    6. 一路做步驟 4 同 5,做嗮所有指定咗嘅可能性,最後俾具有最大變異數嗰條線做個演算法嘅輸出。
主成分分析嘅圖解;幅圖每一點代表一個個案,兩個箭咀代表兩個成份,長啲嗰個箭咀係比較重要嗰個成份。
  • 卡隆巴系數[e 291]):心理測量學上成日用嚟衡量一個心理測驗信度(睇上面)嘅數值。想像家陣有個心理測驗,有 咁多條題目,而呢 條題目冚唪唥都係量度緊一個因素(例如 10 條題目量度邏輯能力),研究者搵人做個測驗攞到數據之後,個測驗嘅卡隆巴系數()條式如下[166][167]
    ,當中
    係指每對題目之間嘅協方差[e 292]平均值
    指「啲題目嘅變異數嘅總和」加埋「題目之間嘅協方差總和」;即係話
    (有關呢啲數學符號嘅意思,可以睇吓加總);
  • 如果卡隆巴系數數值大(接近 1)嘅話,就表示呢柞題目嘅變異數主要源自佢哋之間嘅協方差,簡單講就係表示「呢柞題目之間嘅變異數主要係由佢哋之間嘅相關引起嘅」而唔係源於佢哋各自獨立嘅變異-所以如果一柞題目嘅卡隆巴系數數值大,研究者就更有理由相信呢柞題目係量度緊同一個隱藏因素[166]
  • 張量分解[e 293]:將一柞以張量形式表達嘅數據「分解」做比較簡單嘅張量以及呢啲簡單張量之間嘅運算,例[168]
    • 當中 係一個複雜啲嘅張量,柞 係簡單啲嘅張量,而 張量積(一種數學運算)。做張量分解目的係要等計起數上嚟冇咁撈絞[168]

結構方程

[編輯]

結構方程式模型[e 294]:包含一系列用嚟搵出一柞變數之間嘅關係嘅數學模型演算法;一個結構方程式模型會包含若干個變數,途中好多時會用因素分析減少變數嘅數量先,然後再用獨立嘅迴歸分析估計啲變數之間嘅關係[169]

  • 量度模型[e 295]:一個結構方程式模型當中定義啲因素(睇因素分析)嗰部份。
  • 結構模型[e 296]:一個結構方程式模型當中講明因素之間嘅關係嗰部份。
  • 量度不變特性[e 297]:做多組分析嘅結構方程式模型嗰陣會用到嘅概念;如果話一個量度(例如係智商測試等嘅心理測驗)具有量度不變特性,即係話喺分析緊嗰幾組之間個量度所度緊嘅概念並冇差異;舉個例說明,想像家陣有個心理學家,喺幾個唔同國家嗰度用一個心理測驗做咗份研究,但佢擔心唔同文化嘅人會對個心理測驗嘅問題有唔同理解,於是就做一個多組分析,每組係一個國家嘅受試者,再同每組都做一個因素分析(睇返因素分析),睇吓唔同組喺因素結構上係咪一樣[170]
一個結構方程式模型;描述智能(intelligence)同學力(academic performance)之間嘅關係。智能由幾個唔同嘅指標(柞 scale)反映,講明智能同呢啲指標之間嘅式(由智能去指標嘅箭咀)嘅就係量度模型,而講明智能同成績之間嘅關係嘅式(由智能去成績嘅箭咀)就係結構模型。箭咀上嘅數字反映段關係有幾強(睇埋迴歸分析)。
  • 通徑分析[e 298]:指一個描述若干個變數之間嘅有方向相關嘅模型;一個通徑分析會有若干個變數,並且指明每對變數之間有點樣嘅關係,例:由 嘅單向箭咀表示 可以作為一個預測 自變數(睇埋迴歸分析[171]
  • 修改指數[e 299]:有好多用嚟做結構方程式模型嘅軟件喺建立完個模型之後會俾出一啲修改指數數值;喺最基本上,修改指數反映「邊條箭咀應該攞走」同「邊兩個變數之間應該要加箭咀」等嘅資訊,即係例如個程式喺建立個模型嗰陣,順手計埋「如果呢兩個變數之間嘅箭咀攞走,適合度指標會點樣變」同埋「如果呢兩個變數之間加個箭咀,適合度指標會點樣變」等嘅嘢,所以分析者如果需要執個模型,就可以靠睇啲修改指數嚟做決定[172]
  • 交叉滯後模型[e 300]:指個結構方程式模型包含兩個變數(),兩個變數都喺若干個時間點各有數值-,當中 係指時間點 數值,而 同一道理;個交叉滯後模型會嘗試用 嚟預測(即係有箭咀指住)未來時間點嘅 數值( 有箭咀指住 有箭咀指住 ... 如此類推);喺廿一世紀初,有唔少人覺得交叉滯後模型可以攞嚟理解兩個變數之間嘅因果關係,但呢種見解唔係個個都同意[173][174]

拉雜模型

[編輯]
生還分析嘅圖解;想像喺實驗室養咗柞老鼠,上面幅圖嘅 X 軸表示時間,Y 軸表示「有幾多百分比嘅白老鼠仲係生勾勾」。
聚類分析嘅附圖;呢拃物件可以按位置座標分做三類,而聚類分析可以想像成同啲點油顏色嘅過程。
  • 生還分析[e 301]:一套用嚟分析「一件事件要等幾耐先會發生」嘅統計分析技術,例如分析一隻動物要幾耐先會死-事件係「死亡」。生還分析包含咗一系列嘅技術,能夠解答以下呢啲問題:
    • 攞一個時間數值 ,過咗 咁耐之後,個總體入面有幾多百分比嘅個體會死亡?
    • 喺死淨嗰啲個體當中,佢哋會以幾快嘅率接近死亡?
    • ... 等等。進階啲嘅應用仲可以將「死亡」換做第啲事件,例如電子遊戲人機互動等方面嘅研究就會以「用家放棄隻遊戲或者產品」嚟做集中研究嘅嗰件事件,用嚟分析用家用起電子產品上嚟嘅行為[175]。除此之外,生還分析呢種分析喺工程學經濟學上都會用到[176]
    • 生還函數[e 302]):指一個俾出「是但搵個個體,嗰個個體嘅生存時間()會有幾大機會()會超過 咁長」嘅函數,即係話[177]
      • 可以有好多種唔同樣,好似指數函數就係常用嘅一種生還函數。
  • 聚類分析[e 303]:令一個組(聚類)入面嘅物件彼此之間相似,但同個組以外嘅物件唔相似;最基本上,聚類分析可以用附圖嗰種方法想像-圖入面拃點當中每一粒,都喺 X 軸(一個變數)同 Y 軸度有個位置,但就噉用肉眼睇都睇得出,啲點可以分做三大類(唔同色嘅點),每個聚類都係「個聚類入面啲點,彼此之間距離近,同時又冚唪唥都係同聚類外嘅點距離遠嘅」;聚類分析就可以想像成「同啲點油顏色,表示每點屬邊個聚類」嘅過程[178][179]
  • 馬可夫鏈[e 304]:一種用嚟模擬一連串可能事件嘅隨機數學模型。喺一條馬可夫鏈當中有若干個可能狀態,而每個狀態 都會有一串數字 表示世界由 呢個狀態變成另一個狀態嘅機會率;喺統計學上,一種簡單嘅做法係收數據,用數據估計 嘅數值,產生一個可以用嚟預測世界變化規律嘅模型[180]
  • 獨立成份分析[e 305]:常見於訊號處理,會將一個受多個變數影響嘅訊號 分做彼此之間獨立嘅子部份,即係將 變成 ,當中每個 都係某啲 線性組合;簡單講就係 foreach
    反映嗰個 有幾影響到 );
    • 當中啲 之間要盡可能彼此獨立[181]
  • 點過程[e 306],又有叫點場[e 307]:指將一個統計模型想像成會喺一個空間當中有隨機性噉產生一啲,可以攞嚟做好多涉及空間嘅分析,例如係地質學上分析地震噉,一場地震嘅中心可以想像成空間入面嘅一點,而一場地震出現可能會提升周圍嘅空間出現地震點嘅機會(可以睇餘震),而喺建立統計模型嚟分析地震嗰陣,分析者可以將「震央嘅出現」想像成一個會喺代表地面嘅空間嗰度產生一粒點點嘅隨機過程[182]
  • 線性判別分析[e 308]:指「攞住若干個自變數,搵出一個有齊呢啲自變數嘅線性組合,嚟分別出若干個『類別』嘅嘢」。

模型評估

[編輯]
睇埋:複雜度

喺做完推論統計或者機械學習過程之後,就要評估吓最後得出嗰個模型好定唔好。要評一個模型係咪「好」,有以下指標使得[183][184]

  • 準確度[e 309]:最常用嚟評估模型嘅指標;即係喺做完分析或者學習之後,要個模型睇一啲佢之前未見過嘅個案,同埋要佢對嗰啲個案進行預測。譬如一個訓練嚟預測股價嘅機械學習程式噉,要評估佢嘅準確度,最好方法就係要佢預估吓一啲股價、係佢之前未見過嘅時間點嘅。如果個程式做嘅嘢係將個案分做離散嘅類,準確度可以用以下嘅式計[185]
    係估啱咗幾多個個案;
    係個案嘅總數。
    • 自助抽樣法[e 310];設個數據入面嘅個案數量係 n;個演算法會由啲數據度隨機抽一個個案出嚟(重抽樣[e 311]),將個個案放入自助樣本[e 312],跟住再擺返第個個案入去抽過(即係所謂嘅邊替換邊抽樣[e 313]),重複 n 次。最尾得出一個(可能有重複嘅)自助樣本,用個自助樣本做過測試。
    • K 次交叉驗證[e 314]:隨機噉將數據嘅個案劏做 K 份(喺實際應用上,K 一個常見數值係 10);然後攞其中一份做測試,其餘啲份做學習-跟住逐份逐份過呢個過程。同一道理,都要使用某啲指標量度準確度[186]
  • 靈敏度同特異度[e 315]:包括咗四個數值:
  • 訓練曲線[e 320]:指一條以「個機械學習程式表現有幾好」做 Y 軸、「總共讀取咗嘅個案數量」做 X 軸。訓練曲線喺機械學習研究上可以用嚟比較唔同嘅機械學習演算法嘅功效、用嚟睇吓個模型用乜嘢參數值比較好、或者係個程式有冇過適[e 321]嘅問題等等[189]
  • 模型能耐[e 322]:一個機械學習模型 嘅能耐指佢能夠學解幾複雜嘅問題;要判斷一個模型嘅能耐一個可能方法係,用 個唔同複雜度嘅數學模型, 代表第 個呢啲模型,用每個 分別產生一柞數據,然後 foreach 模型出嘅數據,測試吓 有幾能夠學識對嗰個模型嘅輸出做準確預測-如果 能耐高,噉佢理應會無論 幾複雜都做到準確預測[190]
  • 演算法熵[e 323],又有叫柯氏複雜度[e 324]理論電腦科學同相關領域上用嚟量度一件物件嘅複雜度嘅一個指標,一件物件嘅演算法熵係指要產生嗰件物件嘅程式嘅最短可能長度[191][192]
    演算法熵以攞嚟比較唔同物件嘅複雜度。舉兩個簡單嘅例子說明,想像以下呢兩串符號:
    abababababababababababababababab(串 1)
    4c1j5b2p0cv4w1x8rx2y39umgw5q85s7(串 2)
    • 呢兩串符號長度一樣,但喺複雜度上唔同:串 1 可以描述為「將『ab』寫 16 次」,即係 write ab 16 times 噉嘅-段碼淨係用咗 17 個符號;相比之下,串 2 冇乜明顯嘅規律,唔能夠用一句嘢簡單噉描述嗮,所以要部電腦死記住 write 4c1j5b2p0cv4w1x8rx2y39umgw5q85s7 嘅碼-段碼有成 38 個符號。所以如果用演算法熵做準則嘅話,串 1 簡單過串 2。
  • 赤池資訊量準則[e 325]:基於資訊理論嘅一條統計模型評估準則;根據赤池資訊量準則,評估一個統計模型嗰陣應該要令以下嘅數值有咁細得咁細[193]
    • 當中 係估計咗嘅參數嘅數量, 係個模型嘅概似函數[e 326]得到嘅最大數值。
  • 貝葉斯資訊量準則[e 327]:另一條用嚟評估統計模型嘅準則;根據呢條準則,評估一個統計模型嗰陣應該要令以下嘅數值有咁細得咁細[194]
  • 困惑度[e 328] ):反映一個概率分佈「有幾能夠預測個樣本」;一個離散概率分佈 嘅困惑度計法如下-
    ,當中
    • 當中 係個概率分佈嘅資訊熵。簡單講,困惑度愈高,就反映個概率分佈愈做唔到肯定嘅預測(所以困惑度愈高,表示個概率分佈愈係差);自然語言處理好興用「個程式對每隻字嘅困惑度」嚟做量度「個模型有幾掂」嘅基準[195][196]
  • 可詮釋度[e 329]:對於統計模型嚟講好重要嘅一種性質,指個模型有幾能夠俾人類理解所描述嘅現象背後嘅運作原理,呢個特性亦都係統計學同機械學習嘅主要分界;舉個例說明,家陣用統計分析整咗一個迴歸模型出嚟,個模型反映兩個變數之間成簡單嘅正比關係,呢個模型由人類嘅角度嚟睇相當易理解;相比之下,一個人工神經網絡就算能夠做到準確預測,個網絡「到底係用乜嘢邏輯做預測」呢點對人類嚟講依然係冇可能理解嘅。即係話,統計學嘅目的係由數據搵出可詮釋嘅模型,等人類能夠了解所研究嘅現象,而機械學習最重視嘅係做準確預測,會願意為咗做預測嗰陣嘅準確度同效率犧牲可詮釋度[197]

註釋

[編輯]
  1. 簡單講就係冇可能同時發生嘅事件。例如家陣擲三粒骰仔,
    「掟到 」同「掟到 」係冇可能同時發生嘅,但
    「掟到最少一個 2」同「掟到最少一個 4」係有可能同時發生嘅。
  2. 係二項分佈當中有嘅一個參數
  3. 假設個變數呈常態分佈
  4. 不過除此之外仲要有幾個條件:
    • 嘅變化時間上出現喺 嘅變化之後;
    • 嘅共同原因攞走咗,兩個變數之間嘅關係依然喺度;
    ... 呀噉。
  5. 哈曼測試到咗 2020 年經已唔再俾人認為係一種可靠嘅做法。
  6. 喺實際應用上,考慮咁多極細嘅數值可能會出現算術下溢嘅情況(指要處理嘅數值細過部電腦能夠表示嘅最細值),所以喺實際應用上要點樣計 有一定嘅學問。
  7. 如果 ,否則
  8. 」意思係「 呢個入面」。

睇埋

[編輯]

文獻

[編輯]

引咗

[編輯]

篇文用咗嘅行話或者專有名詞英文(或者第啲外語)版本如下:

  1. probability theory
  2. statistics
  3. intersection
  4. union
  5. population
  6. sample,粵拼sem1 pou2*4
  7. axioms
  8. experiment
  9. sample space
  10. Bernoulli trial
  11. probabilty space
  12. actual value / observed value
  13. random variable
  14. stochastic process / random process
  15. stationary process
  16. random walk
  17. expected value
  18. law of large numbers,LLN
  19. convergence of random variable
  20. limit
  21. Venn diagram
  22. event
  23. elementary event
  24. complementary event
  25. collectively exhaustive
  26. mutually exclusive
  27. non-mutually exclusive
  28. conditional probability
  29. statistical independence
  30. conditional independence
  31. conditionally independent given C
  32. chain rule
  33. Bayes' theorem
  34. probability distribution
  35. discrete probability distribution
  36. probability mass function,PMF
  37. continuous probability distribution
  38. probability density function,PDF
  39. normal distribution
  40. bell curve
  41. frequency distribution
  42. cumulative distribution function
  43. symmetry
  44. symmetric probability distribution
  45. moment
  46. skewness
  47. kurtosis
  48. sampling distribution
  49. standard error
  50. joint probability distribution
  51. independent and identically distributed,iid
  52. central limit theorem,CLT
  53. data collection
  54. population
  55. sample,粵拼sem1 pou2*4
  56. sample size
  57. sampling
  58. representativeness
  59. random sampling
  60. systematic sampling
  61. reversion to the mean / regression to the mean
  62. statistic,留意呢隻字係可數嘅。
  63. order statistic
  64. sufficient statistic
  65. missing data
  66. between-subject design
  67. within-subject design
  68. repeated measures design
  69. independent variable,IV
  70. dependent variable,DV
  71. control variable
  72. operationalization
  73. time series
  74. survivorship bias
  75. observational study
  76. cross-sectional study
  77. longitudinal study
  78. cohort study
  79. survey methodology
  80. Likert scale
  81. self-report study
  82. opinion pool
  83. archival research
  84. experiment
  85. controlled
  86. manipulation
  87. experimental manipulation
  88. experimental design
  89. experimental group / treatment group
  90. control group
  91. randomized experiment
  92. factorial experiment
  93. natural experiment
  94. quasi-experiment
  95. clinical research
  96. clinical trial
  97. randomized control trial
  98. level of measurement
  99. nominal
  100. ordinal
  101. interval
  102. ratio
  103. continuous variable
  104. discrete variable
  105. discretization
  106. median split
  107. common-method variance
  108. Harman's test
  109. temporal resolution
  110. spatial resolution
  111. ceiling effect
  112. floor effect
  113. reliability
  114. inter-rater reliability / inter-rater agreement
  115. Cohen's kappa
  116. intra-rater reliability
  117. test-retest reliability
  118. internal consistency
  119. validity
  120. construct validity
  121. criterion validity
  122. discriminant validity
  123. content validity
  124. convergent validity
  125. face validity
  126. descriptive statistics
  127. central tendency
  128. mean
  129. arithmetic mean
  130. geometric mean
  131. harmonic mean
  132. median
  133. mode
  134. dispersion
  135. variance
  136. standard deviation
  137. percentile
  138. interquartile range,IQR
  139. coefficient of variation
  140. index of dispersion
  141. covariance matrix
  142. statistical graphics
  143. box plot
  144. 75th quartile
  145. 25th quartile
  146. scatter plot / scatter diagram
  147. standard score
  148. aggregate data
  149. sampling error
  150. accumulation of errors
  151. propagation of uncertainty
  152. count data
  153. Benford's law
  154. first-digit law
  155. inferential statistics
  156. hypothesis testing
  157. hypothesis
  158. null hypothesis
  159. alternative hypothesis
  160. one- and two-tailed tests
  161. Type I Error
  162. Type II Error
  163. statistical significance
  164. reject the null hypothesis
  165. statistical power
  166. point estimation
  167. prediction interval
  168. interval estimation
  169. confidence interval,CI
  170. causality / causation
  171. Granger causality
  172. multiple comparisons problem
  173. Bonferroni correction
  174. correlation
  175. not correlated
  176. Pearson correlation coefficient
  177. covariance
  178. correlation does not imply causation
  179. partial correlation
  180. intraclass correlation,ICC
  181. rank correlation
  182. Spearman's rank correlation coefficient
  183. τ rank correlation coefficient
  184. concordant
  185. discordant
  186. autocorrelation
  187. cross-correlation
  188. orthogonal
  189. Student's t-test
  190. independent samples t-test
  191. paired samples t-test / repeated-measure t-test
  192. analysis of variance,ANOVA
  193. one-way ANOVA
  194. repeated-measure ANOVA,rANOVA
  195. two-way ANOVA
  196. multivariate analysis of variance,MANOVA
  197. analysis of covariance,ANCOVA
  198. homoscedasticity
  199. heteroscedasticity
  200. Z-test
  201. F-test
  202. F-distribution
  203. nonparametric statistics
  204. Chi-squared test
  205. Chi-squared
  206. McNemar test
  207. Mann-Whitney U test
  208. effect size
  209. efficiency
  210. frequentist inference
  211. Bayesian inference
  212. prior
  213. prior probability
  214. posterior probability
  215. Bayesian theorem
  216. posterior belief
  217. estimation theory
  218. ordinary least square
  219. maximum likelihood estimation,MLE
  220. probability function
  221. eigenvalue
  222. eigenvector
  223. explained variation
  224. mediator variable
  225. full mediation
  226. partial mediation
  227. moderator variable
  228. moderation effect
  229. interaction term
  230. confounding variable / confounder
  231. suppressor variable
  232. degree of freedom / degrees of freedom
  233. Occam's razor
  234. sensitivity analysis
  235. generalization
  236. specialization
  237. Monte Carlo method
  238. factorization / factorisation
  239. robust statistics
  240. level of analysis
  241. meta-analysis
  242. statistical model
  243. statistical parameter
  244. univariate analysis
  245. multivariate analysis
  246. multivariate statistics
  247. statistical model specification
  248. goodness of fit / model fit
  249. fit indices
  250. multigroup analysis / multi-group analysis
  251. constraint
  252. mixture model
  253. statistical model selection
  254. regression model
  255. residual
  256. linear regression
  257. simple linear regression
  258. nonlinear
  259. multiple
  260. multivariate adaptive regression splines,MARS
  261. hinge function
  262. coefficient of determination
  263. multicollinearity
  264. variance inflation factor,VIF
  265. general linear
  266. logistic regression
  267. autoregression
  268. Poisson regression
  269. ordinary least squares,OLS
  270. residual sum of squares,簡稱 RSS
  271. stepwise
  272. intercept
  273. fixed effects
  274. random effects
  275. mixed
  276. nested
  277. hierarchical linear model,HLM
  278. multi-level analysis
  279. regression coefficient
  280. factor analysis
  281. factor
  282. observable
  283. latent variable
  284. latent variable model,LVM
  285. factor structure
  286. factor loading
  287. factor loading
  288. exploratory factor analysis,EFA
  289. confirmatory factor analysis,CFA
  290. principal component analysis,PCA
  291. Cronbach's alpha
  292. covariance
  293. tensor factorization / tensor decomposition
  294. structural equation modeling,SEM
  295. measurement model
  296. structural model
  297. measurement invariance
  298. path analysis
  299. modification indices
  300. cross-lagged panel model
  301. survival analysis
  302. survival function
  303. cluster analysis / clustering
  304. Markov chain
  305. independent component analysis,ICA
  306. point process
  307. point field
  308. linear discriminant analysis
  309. accuracy
  310. bootstrapping
  311. resampling
  312. bootstrap sample
  313. sampling with replacement
  314. K-fold cross-validation
  315. sensitivity and specificity
  316. True Positive Rate,TRP
  317. True Negative Rate,TNR
  318. False Positive Rate,FRP
  319. False Negative Rate,FNR
  320. training curve / learning curve
  321. overfitting
  322. model capacity
  323. algorithmic entropy
  324. Kolmogorov complexity
  325. Akaike information criterion,AIC
  326. likelihood function
  327. Bayesian information criterion,BIC
  328. perplexity
  329. interpretability

篇文引用咗以下呢啲文獻網頁

  1. Henk Tijms (2004). Understanding Probability. Cambridge Univ. Press.
  2. Moses, Lincoln E. (1986). Think and Explain with Statistics, Addison-Wesley. pp. 1-3.
  3. 3.0 3.1 Hays, William Lee, (1973). Statistics for the Social Sciences, Holt, Rinehart and Winston, p.xii.
  4. 4.0 4.1 4.2 4.3 4.4 William Feller, An Introduction to Probability Theory and Its Applications, (Vol 1), 3rd Ed, (1968), Wiley.
  5. Kolmogorov, Andrey (1950) [1933]. Foundations of the theory of probability. New York, USA: Chelsea Publishing Company.
  6. Papoulis, A. (1984). "Bernoulli Trials". Probability, Random Variables, and Stochastic Processes (2nd ed.). New York: McGraw-Hill. pp. 57-63.
  7. Emanuel Parzen (2015). Stochastic Processes. Courier Dover Publications. pp. 7, 8.
  8. Gagniuc, Paul A. (2017). Markov Chains: From Theory to Implementation and Experimentation. USA, NJ: John Wiley & Sons. pp. 1-256.
  9. Doyle, Peter G.; Snell, J. Laurie (1984). Random Walks and Electric Networks. Carus Mathematical Monographs. 22. Mathematical Association of America.
  10. Edwards, A.W.F (2002). Pascal's arithmetical triangle: the story of a mathematical idea (2nd ed.). JHU Press.
  11. Yao, Kai; Gao, Jinwu (2016). "Law of Large Numbers for Uncertain Random Variables". IEEE Transactions on Fuzzy Systems. 24 (3): 615-621.
  12. Billingsley, Patrick (1999). Convergence of probability measures (2nd ed.). John Wiley & Sons. pp. 1–28.
  13. Mahmoodian, Ebadollah S.; Rezaie, M.; Vatan, F. (March 1987). "Generalization of Venn Diagram". Eighteenth Annual Iranian Mathematics Conference. Tehran and Isfahan, Iran.
  14. 14.0 14.1 Miller, Scott; Childers, Donald (2012). Probability and Random Processes (Second ed.). Academic Press. p. 8. ISBN 978-0-12-386981-4. The sample space is the collection or set of 'all possible' distinct (collectively exhaustive and mutually exclusive) outcomes of an experiment."
  15. Olofsson (2005) p. 29.
  16. Olofsson (2005) p. 35.
  17. Dawid, A. P. (1979). "Conditional Independence in Statistical Theory". Journal of the Royal Statistical Society, Series B. 41 (1): 1-31.
  18. 18.0 18.1 Ash, Robert B. (2008). Basic probability theory (Dover ed.). Mineola, N.Y.: Dover Publications. pp. 66–69.
  19. 19.0 19.1 19.2 19.3 1941-, Çınlar, E. (Erhan) (2011). Probability and stochastics. New York: Springer. p. 51.
  20. Manikandan, S (1 January 2011). "Frequency distribution". Journal of Pharmacology & Pharmacotherapeutics. 2 (1): 54–55.
  21. Deisenroth,Faisal,Ong, Marc Peter,A Aldo, Cheng Soon (2019). Mathematics for Machine Learning. Cambridge University Press. p. 181.
  22. 22.0 22.1 Ali, Mir M. (1980). "Characterization of the Normal Distribution Among the Continuous Symmetric Spherical Class". Journal of the Royal Statistical Society. Series B (Methodological). 42 (2): 162–164.
  23. Spanos, Aris (1999). Probability Theory and Statistical Inference. New York: Cambridge University Press. pp. 109–130.
  24. 24.0 24.1 MacGillivray, HL (1992). "Shape properties of the g- and h- and Johnson families". Communications in Statistics - Theory and Methods. 21: 1244–1250.
  25. 25.0 25.1 Altman, Douglas G; Bland, J Martin (2005-10-15). "Standard deviations and standard errors". BMJ: British Medical Journal. 331 (7521): 903.
  26. Hazewinkel, Michiel, ed. (2001) [1994], "Joint distribution", Encyclopedia of Mathematics, Springer Science+Business Media B.V. / Kluwer Academic Publishers.
  27. 27.0 27.1 Dinov, Ivo; Christou, Nicolas; Sanchez, Juana (2008). "Central Limit Theorem: New SOCR Applet and Demonstration Activity". Journal of Statistics Education. ASA. 16 (2).
  28. Lescroël, A. L.; Ballard, G.; Grémillet, D.; Authier, M.; Ainley, D. G. (2014). Descamps, Sébastien (ed.). "Antarctic Climate Change: Extreme Events Disrupt Plastic Phenotypic Response in Adélie Penguins". PLoS ONE. 9 (1): e85291.
  29. 29.0 29.1 29.2 29.3 Mulholland, H., & Jones, C. R. (2013). Fundamentals of statistics. Springer.
  30. Hazra, A., & Gogtay, N. (2016). Biostatistics series module 5: Determining sample size. Indian journal of dermatology, 61(5), 496.
  31. 31.0 31.1 Clarkson, K. L., & Shor, P. W. (1989). Applications of random sampling in computational geometry, II. Discrete & Computational Geometry, 4(5), 387-421.
  32. Ken Black (2004). Business Statistics for Contemporary Decision Making (Fourth (Wiley Student Edition for India) ed.). Wiley-India.
  33. Defulio, Anthony (2012). "Quotation: Kahneman on Contingencies". Journal of the Experimental Analysis of Behavior. 97 (2): 182.
  34. Fisher, R.A. (1922). "On the mathematical foundations of theoretical statistics". Philosophical Transactions of the Royal Society A. 222 (594-604): 309-368.
  35. Messner SF (1992). "Exploring the Consequences of Erratic Data Reporting for Cross-National Research on Homicide". Journal of Quantitative Criminology. 8 (2): 155-173.
  36. 36.0 36.1 Between-Subjects vs. Within-Subjects Study Design.
  37. Patricia M. Shields and Nandhini Rangarajan. 2013. A Playbook for Research Methods: Integrating Conceptual Frameworks and Project Management. Stillwater, OK: New Forums Press.
  38. Mangel, Marc; Samaniego, Francisco (June 1984). "Abraham Wald's work on aircraft survivability". Journal of the American Statistical Association. 79 (386): 259-267.
  39. Rosenbaum, P.R. (2002). Observational Studies (2nd ed.). New York: Springer-Verlag.
  40. Song, J. W., & Chung, K. C. (2010). Observational studies: cohort and case-control studies. Plastic and reconstructive surgery, 126(6), 2234-2242.
  41. Abramson, J.J. and Abramson, Z.H. (1999). Survey Methods in Community Medicine: Epidemiological Research, Programme Evaluation, Clinical Trials (5th edition). London: Churchill Livingstone/Elsevier Health Sciences.
  42. Likert, Rensis (1932). "A Technique for the Measurement of Attitudes". Archives of Psychology. 140: 1–55.
  43. Robins, Richard; Fraley, Chris; Krueger, Robert (2007). Handbook of Research Methods in Personality Psychology. The Guilford Press. pp. 228.
  44. Asher, Herbert: Polling and the Public. What Every Citizen Should Know (4th ed. CQ Press, 1998)
  45. Ahuja, G. (2000). Collaboration networks, structural holes, and innovation: A longitudinal study (PDF). Administrative science quarterly, 45(3), 425-455.
  46. Zaheer, A., & Soda, G. (2009). Network evolution: The origins of structural holes (PDF). Administrative Science Quarterly, 54(1), 1-31.
  47. Dunning, Thad (2012). Natural experiments in the social sciences : a design-based approach. Cambridge: Cambridge University Press.
  48. Shadish, William R.; Cook, Thomas D.; Campbell, Donald T. (2002). Experimental and quasi-experimental designs for generalized causal inference (Nachdr. ed.). Boston: Houghton Mifflin.
  49. Elliott, M. R. (2003). Causality and how to model it (PDF). BT technology journal, 21(2), 120-125.
  50. Kirk, R. E. (2012). Experimental design. Handbook of Psychology, Second Edition, 2.
  51. Hinkelmann, Klaus; Kempthorne, Oscar (2008). Design and Analysis of Experiments, Volume I: Introduction to Experimental Design (2nd ed.). Wiley.
  52. Hacking, Ian (September 1988). "Telepathy: Origins of Randomization in Experimental Design". Isis. 79 (3): 427–451.
  53. Montgomery, Douglas C. (2013). Design and Analysis of Experiments (8th ed.). Hoboken, New Jersey: Wiley.
  54. 54.0 54.1 Dinardo, J. (2008). "natural experiments and quasi-natural experiments". The New Palgrave Dictionary of Economics. pp. 856–859.
  55. "Introduction to Clinical Research Informatics", Rachel Richesson, James Andrews
  56. Stevens, S. S. (7 June 1946). "On the Theory of Scales of Measurement". Science. 103 (2684): 677–680.
  57. Michell, J (1986). "Measurement scales and statistics: a clash of paradigms". Psychological Bulletin. 100 (3): 398–407.
  58. K.D. Joshi, Foundations of Discrete Mathematics, 1989, New Age International Limited, [1], page 7.
  59. 59.0 59.1 Iacobucci, D., Posavac, S. S., Kardes, F. R., Schneider, M. J., & Popovich, D. L. (2015). The median split: Robust, refined, and revived. Journal of Consumer Psychology, 25(4), 690-704.
  60. Podsakoff, P.M.; MacKenzie, S.B.; Lee, J.-Y.; Podsakoff, N.P. (October 2003). "Common method biases in behavioral research: A critical review of the literature and recommended remedies". Journal of Applied Psychology. 88 (5): 879–903.
  61. Lim, Christopher R.; Harris, Kristina; Dawson, Jill; Beard, David J.; Fitzpatrick, Ray; Price, Andrew J. (2015-07-01). "Floor and ceiling effects in the OHS: an analysis of the NHS PROMs data set". BMJ Open. 5 (7): e007765.
  62. Cramer, Duncan; Howitt, Dennis Laurence (2005). The SAGE Dictionary of Statistics: A Practical Resource for Students in the Social Sciences (Third ed.). SAGE. p. 21 (entry "ceiling effect").
  63. 63.0 63.1 Carmines, E. G., & Zeller, R. A. (1979). Reliability and validity assessment (Vol. 17). Sage publications.
  64. 64.0 64.1 American Educational Research Association, Psychological Association, & National Council on Measurement in Education. (1999). Standards for Educational and Psychological Testing. Washington, DC: American Educational Research Association.
  65. Cohen's Kappa. Towards Data Science.
  66. Cronbach, Lee J.; Meehl, Paul E. (1955). "Construct validity in psychological tests". Psychological Bulletin. 52 (4): 281-302.
  67. Campell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56, 81-105
  68. Gravetter, Frederick J.; Forzano, Lori-Ann B. (2012). Research Methods for the Behavioral Sciences (4th ed.). Belmont, Calif.: Wadsworth. p. 78.
  69. 69.0 69.1 Data, C. E., & Using Descriptive Statistics Bartz, A. E. (1988). Basic statistical concepts. New York: Macmillan. Devore, J., and Peck.
  70. NIST/SEMATECH e-Handbook of Statistical Methods. "1.3.6.4. Location and Scale Parameters". www.itl.nist.gov. U.S. Department of Commerce.
  71. Cox, D. R.; Lewis, P. A. W. (1966). The Statistical Analysis of Series of Events. London: Methuen.
  72. Benjamini, Y. (1988). "Opening the Box of a Boxplot". The American Statistician. 42 (4): 257-262.
  73. E. Kreyszig (1979). Advanced Engineering Mathematics (Fourth ed.). Wiley. p. 880, eq. 5.
  74. Hashimzade, Nigar; Myles, Gareth; Black, John (2017-01-19). A Dictionary of Economics. Oxford University Press. p. 4.
  75. Sarndal, Swenson, and Wretman (1992), Model Assisted Survey Sampling, Springer-Verlag.
  76. Building a Better Fuel Gage for Satellites. Machine Design.
  77. Arno Berger and Theodore P Hill, Benford's Law Strikes Back: No Simple Explanation in Sight for Mathematical Gem (PDF), (2011).
  78. statistical analysis.
  79. 79.0 79.1 Myers, Jerome L.; Well, Arnold D.; Lorch Jr., Robert F. (2010). "Developing fundamentals of hypothesis testing using the binomial distribution". Research design and statistical analysis (3rd ed.). New York, NY: Routledge. pp. 65–90.
  80. Adèr, H. J.; Mellenbergh, G. J. & Hand, D. J. (2007). Advising on research methods: A consultant's companion. Huizen, The Netherlands: Johannes van Kessel Publishing.
  81. Pillemer, D. B. (1991). "One-versus two-tailed hypothesis tests in contemporary educational research". Educational Researcher. 20 (9): 13–17.
  82. Rubin, D. B.; Little, R. J. A. (2002). Statistical analysis with missing data. New York: Wiley.
  83. Hoenig; Heisey (2001). "The Abuse of Power". The American Statistician. 55 (1): 19–24.
  84. 84.0 84.1 84.2 Dodge, Yadolah, ed. (1987). Statistical data analysis based on the L1-norm and related methods: Papers from the First International Conference held at Neuchâtel, August 31–September 4, 1987. North-Holland Publishing.
  85. Gillies, D. (2018). Causality, probability, and medicine. Routledge.
  86. Kazdin, A. E. (2007). Mediators and mechanisms of change in psychotherapy research. Annu. Rev. Clin. Psychol., 3, 1-27.
  87. Dayer, M. R., Mard-Soltani, M., Dayer, M. S., & Alavi, S. M. R. (2014). Causality relationships between coagulation factors in type 2 diabetes mellitus: path analysis approach. Medical journal of the Islamic Republic of Iran, 28, 59.
  88. Granger, C. W. J. (1969). "Investigating Causal Relations by Econometric Models and Cross-spectral Methods". Econometrica. 37 (3): 424–438.
  89. Miller, R.G. (1981). Simultaneous Statistical Inference 2nd Ed. Springer Verlag New York.
  90. Dunn, Olive Jean (1961). "Multiple Comparisons Among Means". Journal of the American Statistical Association. 56 (293): 52-64.
  91. 91.0 91.1 Cohen, J.; Cohen P.; West, S.G. & Aiken, L.S. (2002). Applied multiple regression/correlation analysis for the behavioral sciences (3rd ed.). Psychology Press.
  92. 92.0 92.1 Rodgers, J. L.; Nicewander, W. A. (1988). "Thirteen ways to look at the correlation coefficient". The American Statistician. 42 (1): 59–66.
  93. Rice, John (2007). Mathematical Statistics and Data Analysis. Belmont, CA: Brooks/Cole Cengage Learning. p. 138.
  94. Aldrich, John (1995). "Correlations Genuine and Spurious in Pearson and Yule" (PDF). Statistical Science. 10 (4): 364–376.
  95. Baba, Kunihiro; Ritei Shibata; Masaaki Sibuya (2004). "Partial correlation and conditional correlation as measures of conditional independence". Australian and New Zealand Journal of Statistics. 46 (4): 657–664.
  96. Koch, Gary G. (1982). "Intraclass correlation coefficient". In Samuel Kotz and Norman L. Johnson (ed.). Encyclopedia of Statistical Sciences. 4. New York: John Wiley & Sons. pp. 213–217.
  97. LeBreton, J. M., & Senter, J. L. (2008). Answers to 20 questions about interrater reliability and interrater agreement (PDF). Organizational research methods, 11(4), 815-852.
  98. Cureton, Edward E. (1956). "Rank-biserial correlation". Psychometrika. 21 (3): 287–290.
  99. Myers, Jerome L.; Well, Arnold D. (2003). Research Design and Statistical Analysis (2nd ed.). Lawrence Erlbaum. pp. 508.
  100. Kendall, M. (1938). "A New Measure of Rank Correlation". Biometrika. 30 (1–2): 81-89.
  101. Gubner, John A. (2006). Probability and Random Processes for Electrical and Computer Engineers. Cambridge University Press. p.388.
  102. Tahmasebi, Pejman; Hezarkhani, Ardeshir; Sahimi, Muhammad (2012). "Multiple-point geostatistical modeling based on the cross-correlation functions". Computational Geosciences. 16 (3): 779–797.
  103. Athanasios Papoulis; S. Unnikrishna Pillai (2002). Probability, Random Variables and Stochastic Processes. McGraw-Hill. p. 211.
  104. O'Mahony, M. (1986). Sensory Evaluation of Food: Statistical Methods and Procedures. CRC Press. p. 487. ISBN 0-82477337-3.
  105. 105.0 105.1 Derrick, B; Toher, D; White, P (2017). "How to compare the means of two samples that include paired observations and independent observations: A companion to Derrick, Russ, Toher and White (2017)". The Quantitative Methods for Psychology. 13 (2): 120–126.
  106. Howell, David (2002). Statistical Methods for Psychology. Duxbury. pp. 324–325.
  107. Gueorguieva; Krystal (2004). "Move Over ANOVA". Arch Gen Psychiatry. 61 (3): 310–7.
  108. Fujikoshi, Yasunori (1993). "Two-way ANOVA models with unbalanced data". Discrete Mathematics. 116 (1): 315–334.
  109. Warne, R. T. (2014). "A primer on multivariate analysis of variance (MANOVA) for behavioral scientists". Practical Assessment, Research & Evaluation. 19 (17): 1-10.
  110. Keppel, G. (1991). Design and analysis: A researcher's handbook (3rd ed.). Englewood Cliffs: Prentice-Hall, Inc.
  111. 111.0 111.1 McCulloch, J. Huston (1985). "On Heteroscedasticity". Econometrica. 53 (2): 483.
  112. Bagdonavicius, V., Kruopis, J., Nikulin, M.S. (2011). Non-parametric tests for complete data, ISTE & WILEY: London & Hoboken.
  113. Chi-Square Independence Test – What and Why?.
  114. McNemar's test using SPSS Statistics.
  115. Hettmansperger, T.P.; McKean, J.W. (1998). Robust nonparametric statistical methods. Kendall's Library of Statistics. Vol. 5 (First ed., rather than Taylor and Francis (2010) second ed.). London; New York: Edward Arnold; John Wiley and Sons, Inc. pp. xiv+467.
  116. Rosenthal, Robert, H. Cooper, and L. Hedges. "Parametric measures of effect size." The handbook of research synthesis, 621 (1994): 231–244.
  117. Everitt, Brian S. (2002). The Cambridge Dictionary of Statistics. Cambridge University Press. p. 128.
  118. Neyman, J. (1937) "Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability", Philosophical Transactions of the Royal Society of London A, 236, 333–380.
  119. 119.0 119.1 D.V. Lindley: Statistical Inference (1953) Journal of the Royal Statistical Society, Series B, 16: 30-76.
  120. Walter, E.; Pronzato, L. (1997). Identification of Parametric Models from Experimental Data. London, England: Springer-Verlag.
  121. The Basics of Structural Equation Modeling (PDF).
  122. A Gentle Introduction to Maximum Likelihood Estimation for Machine Learning.
  123. Rossi, Richard J. (2018). Mathematical Statistics : An Introduction to Likelihood Based Inference. New York: John Wiley & Sons. p. 227.
  124. Golub, Gene F.; van der Vorst, Henk A. (2000), "Eigenvalue computation in the 20th century", Journal of Computational and Applied Mathematics, 123 (1-2): 35-65.
  125. Rosenthal, G. & Rosenthal, J. (2011). Statistics and Data Interpretation for Social Work. Springer Publishing Company.
  126. MacKinnon, D. P. (2008). Introduction to Statistical Mediation Analysis. New York: Erlbaum.
  127. Baron, R. M. and Kenny, D. A. (1986) "The Moderator-Mediator Variable Distinction in Social Psychological Research – Conceptual, Strategic, and Statistical Considerations", Journal of Personality and Social Psychology, Vol. 51(6), pp. 1173–1182.
  128. Tofighi, D., & Thoemmes, F. (2014). Single-level and multilevel mediation analysis (PDF). The Journal of Early Adolescence, 34(1), 93-119.
  129. Aiken, L. S., West, S. G., & Reno, R. R. (1991). Multiple regression: Testing and interpreting interactions. Sage.
  130. Dardas, L. A., & Ahmad, M. M. (2015). For fathers raising children with autism, do coping strategies mediate or moderate the relationship between parenting stress and quality of life? (PDF). Research in developmental disabilities, 36, 620-629.
  131. Pearl, J., (2009). Simpson's Paradox, Confounding, and Collapsibility. In Causality: Models, Reasoning and Inference (2nd ed.). New York : Cambridge University Press.
  132. Horst, P. (1941). The prediction of personal adjustment. Social Science Research Council Bulletin, 48. New York, NY: Social Science Research Council.
  133. Eisenhauer, J. G. (2008). "Degrees of Freedom". Teaching Statistics. 30 (3): 75-78.
  134. Thabane, L., Mbuagbaw, L., Zhang, S., Samaan, Z., Marcucci, M., Ye, C., ... & Debono, V. B. (2013). A tutorial on sensitivity analyses in clinical trials: the what, why, when and how 互聯網檔案館歸檔,歸檔日期2020年5月26號,.. BMC medical research methodology, 13(1), 92.
  135. 135.0 135.1 Exploring generalization, specialization, and dependency in OOP. InfoWorld.
  136. Kroese, D. P.; Brereton, T.; Taimre, T.; Botev, Z. I. (2014). "Why the Monte Carlo method is so important today". WIREs Comput Stat. 6 (6): 386–392.
  137. Tensor Factorization for Graph Analysis in Python. Medium.
  138. Farcomeni, A.; Greco, L. (2013), Robust methods for data reduction, Boca Raton, FL: Chapman & Hall/CRC Press.
  139. Van Geert, P. (2009). Nonlinear complex dynamical systems in developmental psychology. In S. J. Guastello, M. Koopmans, & D. Pincus (Eds.), Chaos and complexity in psychology: The theory of nonlinear dynamical systems (pp. 242–281). Cambridge University Press.
  140. Cornell, J. E. & Mulrow, C. D. (1999). Meta-analysis. In: H. J. Adèr & G. J. Mellenbergh (Eds). Research Methodology in the social, behavioral and life sciences (pp. 285–323). London: Sage.
  141. Cox, D. R. (2006), Principles of Statistical Inference, Cambridge University Press. p. 178.
  142. 142.0 142.1 Similarities of Univariate & Multivariate Statistical Analysis.
  143. Cox, D. R. (2006), Principles of Statistical Inference, Cambridge University Press, p. 197.
  144. Huber-Carol, C.; Balakrishnan, N.; Nikulin, M. S.; Mesbah, M., eds. (2002), Goodness-of-Fit Tests and Model Validity, Springer
  145. Singh, R. (2009). Does my structural model represent the real phenomenon?: a review of the appropriate use of Structural Equation Modelling (SEM) model fit indices. The Marketing Review, 9(3), 199-212.
  146. Sarstedt, M. , Henseler, J. and Ringle, C. (2011), "Multi-group analysis in partial least squares (PLS) path modeling: alternative methods and empirical results", Advances in International Marketing, Vol. 22 No. 1, pp. 195-218.
  147. Takayama, Akira (1985). Mathematical Economics (2nd ed.). New York: Cambridge University Press. p. 61.
  148. Everitt, B.S.; Hand, D.J. (1981). Finite mixture distributions. Chapman & Hall.
  149. 149.0 149.1 149.2 Lindley, D.V. (1987). "Regression and correlation analysis," New Palgrave: A Dictionary of Economics, v. 4, pp. 120–23.
  150. Friedman, J. H. (1991). "Multivariate Adaptive Regression Splines". The Annals of Statistics. 19 (1): 1–67.
  151. Hughes, Ann; Grawoig, Dennis (1971). Statistics: A Foundation for Analysis. Reading: Addison-Wesley. pp. 344–348.
  152. Farrar, Donald E.; Glauber, Robert R. (1967). "Multicollinearity in Regression Analysis: The Problem Revisited". Review of Economics and Statistics. 49 (1): 92–107.
  153. Stine, R. A. (1995). Graphical interpretation of variance inflation factors 互聯網檔案館歸檔,歸檔日期2020年9月4號,. (PDF). The American Statistician, 49(1), 53-56.
  154. K. V. Mardia, J. T. Kent and J. M. Bibby (1979). Multivariate Analysis. Academic Press.
  155. Constant, T., & Levieux, G. (2019, May). Dynamic difficulty adjustment impact on players' confidence . In Proceedings of the 2019 CHI conference on human factors in computing systems (pp. 1-12).
  156. Cameron, A. C.; Trivedi, P. K. (1998). Regression analysis of count data. Cambridge University Press.
  157. Stopping stepwise: Why stepwise selection is bad and what you should use instead. Towards Data Science.
  158. Edwards, Harold M. (1995). Linear Algebra. Springer. p. 78.
  159. 159.0 159.1 159.2 Laird, Nan M.; Ware, James H. (1982). "Random-Effects Models for Longitudinal Data". Biometrics. 38 (4): 963–974.
  160. Inness, M., Turner, N., Barling, J., & Stride, C. B. (2010). Transformational leadership and employee safety performance: a within-person, between-jobs design. Journal of occupational health psychology, 15(3), 279,呢份管理學研究用咗嵌套模型,剖析(簡化講)轉工同管理者嘅領導能力點影響打工仔嘅某啲行為。
  161. Hofmann, D. A., Griffin, M. A., & Gavin, M. B. (2000). The application of hierarchical linear modeling to organizational research.
  162. Hofmann, D. A., & Gavin, M. B. (1998). Centering decisions in hierarchical linear models: Implications for research in organizations. Journal of Management, 24(5), 623-641.
  163. Child, Dennis (2006), The Essentials of Factor Analysis (3rd ed.), Continuum International.
  164. Polit DF Beck CT (2012). Nursing Research: Generating and Assessing Evidence for Nursing Practice, 9th ed. Philadelphia, USA: Wolters Klower Health, Lippincott Williams & Wilkins.
  165. Jolliffe, I. T. (1986). Principal Component Analysis. Springer Series in Statistics. Springer-Verlag.
  166. 166.0 166.1 Cho, E. (2016). Making reliability reliable: A systematic approach to reliability coefficients. Organizational Research Methods, 19(4), 651–682.
  167. Green, S. B., & Yang, Y. (2009). Commentary on coefficient alpha: A cautionary tale. Psychometrika, 74(1), 121–135.
  168. 168.0 168.1 Tensor Factorization for Graph Analysis in Python. Medium.
  169. Kaplan, D. (2008). Structural Equation Modeling: Foundations and Extensions (2nd ed.). SAGE. pp. 79-88.
  170. Vandenberg, Robert J.; Lance, Charles E. (2000). "A Review and Synthesis of the Measurement Invariance Literature: Suggestions, Practices, and Recommendations for Organizational Research". Organizational Research Methods. 3: 4–70.
  171. Pearl, Judea (May 2018). The Book of Why. New York: Basic Books. p. 6.
  172. Loehlin, J. C. (2004). Latent Variable Models: An Introduction to Factor, Path, and Structural Equation Analysis. Psychology Press.
  173. Ellen, Hamaker; Rebecca, Kuiper; Raoul, Grasman (March 2015). "A Critique of the Cross-Lagged Panel Model". Psychological Methods. 20 (1): 102–116.
  174. Mund, Marcus; Nestler, Steffen (September 2019). "Beyond the Cross-Lagged Panel Model: Next-generation statistical tools for analyzing interdependencies across the life course". Advances in Life Course Research. 41: 100249.
  175. Allart, T., Levieux, G., Pierfitte, M., Guilloux, A., & Natkin, S. (2016, September). Design influence on player retention: A method based on time varying survival analysis. In 2016 IEEE Conference on Computational Intelligence and Games (CIG) (pp. 1-8). IEEE.
  176. Collett, David (2003). Modelling Survival Data in Medical Research (Second ed.). Boca Raton: Chapman & Hall/CRC.
  177. Kleinbaum, David G.; Klein, Mitchel (2012), Survival analysis: A Self-learning text (Third ed.), Springer.
  178. Duran, B. S., & Odell, P. L. (2013). Cluster analysis: a survey (Vol. 100). Springer Science & Business Media.
  179. Frades, I., & Matthiesen, R. (2010). Overview on techniques in cluster analysis. Bioinformatics methods in clinical research, 81-107.
  180. Gagniuc, Paul A. (2017). Markov Chains: From Theory to Implementation and Experimentation. USA, NJ: John Wiley & Sons. pp. 1-235.
  181. Hyvärinen, Aapo (2013). "Independent component analysis: recent advances". Philosophical Transactions: Mathematical, Physical and Engineering Sciences. 371 (1984): 20110534.
  182. Baddeley, A., Gregori, P., Mateu, J., Stoica, R., and Stoyan, D., editors (2006). Case Studies in Spatial Point Pattern Modelling, Lecture Notes in Statistics No. 185. Springer, New York.
  183. Metrics to Evaluate your Machine Learning Algorithm. Towards Data Science.
  184. Various ways to evaluate a machine learning model’s performance. Towards Data Science.
  185. Kohavi, Ron (1995). "A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection". International Joint Conference on Artificial Intelligence.
  186. Rodriguez, J. D., Perez, A., & Lozano, J. A. (2009). Sensitivity analysis of k-fold cross validation in prediction error estimation. IEEE transactions on pattern analysis and machine intelligence, 32(3), 569-575.
  187. Altman D.G., Bland J.M. (June 1994). "Diagnostic tests. 1: Sensitivity and specificity". BMJ. 308 (6943): 1552.
  188. Pontius, Robert Gilmore; Si, Kangping (2014). "The total operating characteristic to measure diagnostic ability for multiple thresholds". International Journal of Geographical Information Science. 28 (3): 570-583.
  189. How to use Learning Curves to Diagnose Machine Learning Model Performance.
  190. Why my ML model is not working?. Towards Data Science.
  191. Kolmogorov, Andrey (1963). "On Tables of Random Numbers". Sankhyā Ser. A. 25: 369–375.
  192. Kolmogorov, Andrey (1998). "On Tables of Random Numbers". Theoretical Computer Science. 207 (2): 387–395.
  193. Taddy, Matt (2019). Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions. New York: McGraw-Hill. p. 90.
  194. Wit, Ernst; Edwin van den Heuvel; Jan-Willem Romeyn (2012). "'All models are wrong...': an introduction to model uncertainty". Statistica Neerlandica. 66 (3): 217–236.
  195. Two minutes NLP — Perplexity explained with simple probabilities. Medium.
  196. Perplexity Intuition (and its derivation). Medium.
  197. The Actual Difference Between Statistics and Machine Learning. Towards Data Science.

[編輯]