概率及統計學詞彙表

出自維基百科,自由嘅百科全書
跳去導覽 跳去搵嘢
統計學上常用嘅常態分佈(normal distribution;睇下面)

以下係概率論統計學上嘅主要詞彙一覽。概率論(probability theory)係數學嘅一個子領域,專門研究概率(又叫「機會率」)相關嘅問題:概率係一啲描述有隨機性嘅過程嘅結果嘅數值,所以對於思考不確定性(uncertainty)嚟講不可或缺[1],而統計學(statistics)就專門研究點樣喺各個科學領域當中搜集、分析同埋呈現數據,而實證嘅科學方法(scientific method)本質上就帶有不確定性-理論上,研究者永遠冇可能完全 100% 肯定自己手上嘅樣本可以完美噉反映宇宙嘅實況,即係話統計學嘅理論思考必然會用到概率論[2]

舉個例說明,有個生物學家,佢想研究吓獵食行為同啲狼身處地方嘅氣候之間有冇啦掕。喺呢份研究入面,佢需要分析「狼嘅獵食行為」同「啲狼身處嘅地方嘅氣候」呢兩個變數;佢所研究嘅總體(population;指有某啲共通點而俾人擺埋一齊研究嘅個體)係全世界古往今來嘅狼;但世上咁多隻狼,攞嗮佢哋嚟研究喺人力物力上唔可行,所以個生物學家就要做抽樣(sampling)-即係由全世界嘅狼當中抽一部份出嚟研究。呢個過程經已必然涉及「手上個樣本有幾大機會能夠代表到全世界嘅狼(而唔係一個例外)」等嘅問題[3]

因為概率論同統計學本質上就係可以用嚟「喺有不確定性嘅情況下,按過去經驗預測未來」嘅工具,所以呢個表入面嘅詞彙同概念喺研究點樣教人工智能(AI)學習嘅機械學習(machine learning)領域上都相當有用[3]

理論基礎[編輯]

睇埋:科學方法

概率論[編輯]

用一幅溫氏圖表示三件事件--之間嘅機會率要點樣用數學符號表達。
內文: 概率論

機會率(probability),粵文又有叫概率:指一件事件有幾可能係真,1 代表件事件實會發生,0 代表件事件絕對唔會發生;喺實際應用上,一般會用以下嘅數學符號表示唔同事件嘅機會率:

  • (或者 )代表「 發生嘅機會率」,
  • 代表「 都發生嘅機會率」(交集;intersection),而
  • 就代表「 或者 發生嘅機會率」(併集;union)[4]

機會率係統計學機械學習等領域上實要思考嘅一個課題:呢啲領域都涉及研究者由一個總體入面攞一個樣本出嚟,並且嘗試靠分析手上嘅樣本嚟增進自己對個總體嘅認識,但呢種做法本質上就有一種不確定性-難以保證個樣本實係代表到個總體,例如研究者想研究狼嘅體重,因為人力物力嘅限制,佢冇可能研究嗮古往今來所有嘅狼,所以佢就去搵 100 隻狼返嚟做研究,佢量度到呢個樣本嘅狼平均體重係 40 公斤,就最嚴格嘅邏輯基準嚟講,呢個數可能真係代表到全世界嘅狼,但又有可能全世界嘅狼嘅平均體重查實係 60 公斤,個研究者之所以搵到 40 公斤呢個數只係佢咁啱唔好彩抽到個代表唔到個總體嘅樣本-隨機性係統計學分析走唔甩嘅一部份[4]

  • 概率論(probability theory):將機會率同相關概念以形式化(用各種數學符號)嘅方法表達出嚟嘅一套理論框架[4]
  • 對立事件(complementary event):喺統計學同概率論上,「 嘅對立事件」( 或者 )係指「 冇發生」呢一件事件。
  • 互斥事件(mutually exclusive events):如果話「 係互斥事件」,即係話兩件事冇可能同時發生-
[5]
  • 非互斥事件(non-mutually exclusive events):如果 係非互斥事件,即係話兩件事有可能同時發生-
[5]
  • 條件機會率(conditional probability):指如果一件事件發生咗,另一件事件發生嘅機會率,「 發生咗, 嘅條件機會率」係
;呢個數值可以用以下呢條式計[6]
如果 係互斥事件,
  • 獨立(statistical independence):喺統計學同概率論上,如果話「 係獨立」嘅話,意思即係兩件事唔會影響對方發生嘅機會率,
,所以
呢條式表示,就算 發生咗, 發生嘅機會率依然係 ,反之亦然[7]
  • 溫氏圖(Venn diagram):一種常用嚟表達概率嘅圖表;圖入面會有若干個波波,每個波波代表一件事件,而兩個波波之間嘅相交空間代表嗰兩個波波代表嗰兩件事件嘅交集[8]
  • 隨機變數(random variable):指一個數值會隨住某啲隨機性現象而改變嘅變數

概率定理[編輯]

  • 概率連鎖法則chain rule):有兩件隨機事件
而如果要考慮嘅事件()有多過兩件:

概率分佈[編輯]

內文: 概率分佈

概率分佈(probability distribution):指一個表明某個變數嘅每個可能數值出現嘅機會率函數,當中 就係個概率分佈;呢個函數可以畫做一個表,x 軸代表個目標變數嘅數值,y 軸代表嗰個目標變數嘅每個數值出現嘅機會率;是但搵個變數 喺總體當中有一個概率分佈,表示 每個可能數值 出現嘅機會率,呢個分佈喺實際上係不可知嘅,研究者淨係有得攞樣本,量度樣本當中嘅概率分佈(喺個樣本入面, 嘅每個可能數值出現嘅機會率大約係幾多),並且靠噉嚟估計個總體分佈[9]

喺廿一世紀統計學上比較常用嚟模擬變數數值分佈嘅概率分佈有以下呢啲:

離散分佈[編輯]

離散概率分佈(discrete probability distribution):指所描述嘅變數 嘅可能數值係離散嘅概率分佈;「離散」嘅意思係話, 嘅可能數值嘅數量係有限嘅,兩個可能數值之間冇可能數值,例:數值一係 1 一係 0,冇得係 0.5(相比之下,一個非離散嘅變數數值 1 同 0 之間可以係 0.5 同 0.4 等數值,1 同 0.5 之間又有 0.6 同 0.75 等嘅數值)[10]

  • 概率質量函數(probability mass function,PMF):描述一個離散概率分佈嘅函數;一個離散概率分佈嘅 PMF 會講明嗰個概率分佈嘅每一個離散可能數值出現嘅機會率[10]
    ,所有可能性嘅機會率加埋係 1;
    ,每個可能性嘅機會率大過 0;
    for all other x,可能性以外嘅數值出現嘅機會率係 0。
  • 離散均勻分佈(discrete uniform distribution):每個可能離散數值出現嘅機會率都一樣,概率質量函數[10]
    ,當中 有幾多個可能數值。
  • 伯努利分佈(Bernoulli distribution):描述嘅變數 得兩個可能數值,數值係 1 嘅機會率係 ,數值係 0 嘅機會率係 ,其概率質量函數 [11]
    • 廣義伯努利分佈generalized Bernoulli distribution / multinoulli distribution):描述嘅變數 個離散可能數值,概率質量函數[12]
  • 二項分佈(binomial distribution):描述 次結果二元嘅試驗;想像有個結果係二元-得兩個可能結果(1 同 0)-嘅試驗,例如掟銀仔,做 咁多次,每次試驗嘅結果都有 咁多機會率係 1, 咁多機會率係 0,而每次試驗嘅結果都係獨立嘅(一次試驗嘅結果唔受其他試驗嘅結果影響)。概率質量函數 ,即係得出 咁多個 1 嘅機會率係[11]
    • 多項分佈(multinomial distribution):係二項分佈嘅廣義化,描述嘅試驗有 個可能結果,做 咁多次(想像掟一粒 面嘅骰仔 咁多次)。概率質量函數[13]
一個二項分佈嘅概率質量函數圖;x 軸係
  • 幾何分佈(geometric distribution):可以指兩個唔同嘅概率分佈,兩者都涉及一個結果二元嘅試驗[14]
    • 做咗個試驗 次,終於得到 1 次陽性結果,而之前嗰啲試驗結果冚唪唥都係陰性:
    • 代表要做幾多次陰性試驗,先可以得到一次陽性結果:
兩個幾何分佈嘅概率質量函數圖;x 軸係
  • 撥桑分佈(Poisson distribution):模擬嘅事件有已知嘅平均發生率,而每件事件嘅發生彼此之間獨立,發生嘅次數設做 概率質量函數[15]
    ,當中 係預期會發生嘅次數(唔一定係整數)。
撥桑分佈嘅概率質量函數畫做圖嘅樣

連續分佈[編輯]

連續概率分佈(continuous probability distribution):指所描述嘅變數 嘅可能數值係連續嘅;「連續」嘅意思係話, 嘅可能數值嘅數量係無限嘅,數值之間嘅差異理論上係斬幾細件都得嘅-數值 1 同 0 之間可以係 0.5 同 0.4 等數值,1 同 0.5 之間又有 0.6 同 0.75 等嘅數值... 如此類推[10]

  • 概率密度函數(probability density function,PDF):描述一個連續概率分佈嘅函數;一個連續概率分佈嘅 PDF 會講明嗰個概率分佈嘅每一個可能數值出現嘅機會率大約係幾多,[10]
  • 均勻分佈(continuous uniform distribution,簡稱 uniform distribution):喺 (最細可能數值)同 (最大可能數值)之間嘅每個可能數值 出現嘅機會率都一樣,概率密度函數[10]
  • 常態分佈(normal distribution):統計分析上最常用嘅概率分佈之一;喺常態分佈下,出現得最頻密嘅數值會係個平均數),而離平均數愈遠嘅數值就愈少會出現,常見可以用常態分佈模擬嘅變數有人類嘅身高-多數人嘅身高數值都傾向於平均數,愈極端嘅數值愈少出現,即係話好少有極高或者極矮嘅人。常態分佈嘅概率密度函數係( 係個分佈嘅標準差[9]
常態分佈畫做圖嘅樣;x 軸代表目標變數嘅數值,y 軸代表目標變數嘅每個數值出現嘅機會率
  • 對數正態分佈(log-normal distribution):指一個隨機變數嘅對數常態分佈;如果話 呢個隨機變數呈對數正態分佈嘅話,噉 呈常態分佈[16]
    ;當中 係個常態分佈嘅平均值,而 係個常態分佈嘅標準差
    概率密度函數係:[16]
  • 柏里圖分佈(Pareto distribution):常用嚟模擬人口隨時間增長嘅一個概率分佈[17]概率密度函數如下[18]
    當中 係指 嘅最細可能數值,而 係一個正嘅參數。
柏里圖分佈嘅 PDF 畫做圖嘅樣;當中 ,而圖入面唔同嘅線代表唔同 數值下嘅 PDF。
  • 指數分佈(exponential distribution):喺物理學上係常用嚟模擬一啲慢慢衰減嘅物理量函數,例如係核衰變噉;喺統計學上,呢個函數可以用嚟模擬一啲機會率()會隨住時間()過去慢慢下降嘅事件,指數分佈嘅概率密度函數如下[19]
指數分佈嘅 PDF 畫做圖嘅樣;圖入面唔同嘅線代表唔同 數值下嘅 PDF。

分佈概念[編輯]

身高間距 頻率 累計頻率
< 5.0 25 25
5.0 - 5.5 呎 35 60
5.5 - 6.0 呎 20 80
6.0 - 6.5 呎 20 100
  • 累計函數(cumulative distribution function):描述一個概率分佈之下 嘅累計值會點隨 變化嘅函數 表示「由個樣本嗰度隨機抽一個個體,個個體嘅 (叫呢個值做 )細過或者等如 」嘅機會率()。無論連續定離散嘅概率分佈都可以有相應嘅累計函數[21]
  • 對稱度(symmetry):一個概率分佈可以有嘅一個屬性,攞個概率分佈當中嘅一個 值,個分佈喺 左邊嗰部份同個分佈喺 右邊嗰部份形狀上愈相似,個概率分佈以 為中心嘅對稱度就愈高;喺實際應用上,量度一個概率分佈嘅對稱度嗰陣會用嘅 值通常會係個分佈嘅平均值[22]
    • 對稱概率分佈symmetric probability distribution):一個對稱概率分佈定義上係指符合下面呢條式嘅概率分佈,當中 係個分佈上嘅一點[22]
      所有實數
  • 動差(moment):泛指描述一個函數嘅形狀嘅指標數值[23]
    • 偏度(skewness):指個分佈有幾「歪埋一邊」;要評估一個分佈嘅偏度,一條可能嘅式如下:
      ;當中 係第 個個案嘅 值, 係個分佈嘅平均值,而 係個分佈嘅標準差;呢個數值愈大,表示個分佈偏度愈高[24]
    • 峰度(kurtosis):指個分佈有幾「扁」;要評估一個分佈嘅偏度,一條可能嘅式如下:
      ;當中 係第 個個案嘅 值, 係個分佈嘅平均值,而 係個分佈嘅標準差;呢個數值愈大,表示個分佈愈扁,(如果係常態分佈)比例上有愈多嘅個案處於極端值[24]
兩個有相當偏度嘅概率分佈
  • 獨立同分佈(independent and identically distributed,iid):係概率論同統計學上嘅一個概念;如果話一柞隨機性變數(或者事件)係「獨立同分佈」嘅話,意思係佢哋嘅概率分佈完全一樣(每次抽嗰陣個結果嘅概率分佈一樣),而且彼此之間獨立(抽一次嘅結果唔會受打前抽到嘅數值影響)[25]
  • 中央極限定理(central limit theorem,CLT):概率論同統計學上最重要嘅定理之一;根據 CLT,想像有個變數 ,只要三條條件成立:
    1. 個總體喺 上嘅變異數係有限,
    2. 每次抽樣都係獨立同分佈(independent and identically distributed)嘅,
    3. 而且個樣本夠大,
  • 聯合概率分佈(joint probability distribution):一個聯合概率分佈同時描述緊多過一個變數嘅分佈;一個兩變數聯合概率分佈會有打橫嘅 X 軸 Y 軸以及打戙嘅 Z 軸,總共三條軸,X 軸 Y 軸分別描述嗰兩個變數 嘅數值,而 X 軸同 Y 軸成嘅平面當中每一點嘅高度(Z 值)反映咗「 係呢個數值而且同時 係呢個數值」嘅機會率。當變數有多過兩個嗰陣同一道理[26]
一個兩變數聯合概率分佈

相關數學概念[編輯]

  • 特徵值(eigenvalue)同特徵向量(eigenvector):假想有一個非零向量 ,處於一個向量空間 當中, 作出一個線性嘅改變 (例如係同一個矩陣相乘),而 呢個改變等同將 乘以一個標量 ,即係話:
    • 就係一個同 呢個特徵向量相關嘅特徵值;喺應用上,特徵值可以用嚟反映一個逐步噉變化嘅系統[27]
係一個特徵向量, 同矩陣 相乘,而 呢個變化等同將佢同標量 相乘, 係佢嘅特徵值。

收集數據[編輯]

抽樣係由一個總體嗰度抽出一個樣本嘅過程;喺呢個個案入面,
內文: 收集數據

收集數據(data collection)係做統計分析必要嘅一個工序:用科學方法做研究係要由對現實嘅觀察當中歸納出一啲能夠描述現實嘅法則或者理論;而要對現實作出有系統性嘅觀察,就一定要攞數據(data)-用某啲符號(喺統計學上通常係數目字)記低現實世界嘅狀態[28]

  • 總體(population):指所有屬研究對象嘅個體;一份研究會嘗試搵出有關某啲研究對象嘅知識,會作出一啲描述呢啲對象嘅假說[29]
    • 例 1:研究假說係「嘅平均體重係幾多幾多」,研究對象係全世界嘅狼;
    • 例 2:研究假說係「人類可以記住一串 8 個位嘅數字平均記 4 個鐘頭」,研究對象係全世界嘅人類。
  • 樣本(sample):由總體抽出嚟、俾研究者攞嚟做量度 個個體(因為人力物力嘅限制,一份研究冇可能睇得嗮古往今來嘅所有研究對象)[29]
    • 例 1:由全世界嘅狼當中抽 100 隻嚟做研究,量度佢哋嘅體重;
    • 例 2:由全世界(過十億)人當中抽 100 個做研究,量度佢哋嘅記住串數字記到幾耐。
    • 樣本大細(sample size):樣本嘅個體數量,通常以 符號代表;一般認為假設第啲因素不變,樣本最好就有咁大得咁大[29]
  • 抽樣(sampling):由總體抽出樣本嘅過程[30]
    • 代表性(representativeness):指個樣本有幾代表到想研究嗰個總體,數學啲講係指個樣本喺研究緊嘅變數上嘅概率分佈有幾接近總體;例如家陣想研究嘅總體係「人類」,但個研究者貪方便淨係由大學生嗰度抽樣,搞到成個樣本得 19 至 26 歲嘅人類,代表唔到呢個年齡層以外嘅人類-樣本代表性不足[29]
    • 隨機抽樣(random sampling):由總體嗰度隨機噉抽 個個體做樣本[30]
    • 系統性抽樣systematic sampling):將總體入面嘅個案,按每個個案佢喺某個變數 上嘅數值排序(由細到大定由大到細都得),然後再每 個個體就將嗰個個體抽出嚟做樣本一部份;系統性抽樣能夠有效噉避免「抽出嚟個樣本喺變數 上唔夠代表性」呢個問題[31]
  • 缺失數據(missing data):指因為數據搜集嘅過程當中,因為受訪者對問題嘅遺漏、拒絕回答、又或者係啲調查員犯嘅疏忽等原因,而造成數據當中有啲位冇相應嘅數值。基本上做親統計分析個數據庫都梗會有啲缺失數據,而係做統計分析嘅過程當中,一件缺失咗嘅數據通常會用「99」或者類似嘅冇可能數值代表[32]
  • 倖存偏見(survivorship bias):指啲人搜集數據嗰陣,傾向淨係得到通過咗某啲甄選程序嘅個體,過唔到甄選程序嘅個體進入唔到數據庫,因而引起嘅數據偏向。例如喺二戰嗰時,有美軍嘅分析師試過研究戰機嘅裝甲,佢哋分析返空軍基地嘅戰機喺乜嘢部位俾敵人子彈打過(搜集數據),諗住俾敵人子彈打得多嘅部位就要加厚裝甲;結果發現,返到基地嘅戰機當中冇一架係駕駛艙俾敵人子彈打過嘅;噉唔係表示駕駛艙唔使加厚裝甲,而係因為駕駛艙俾敵人打中嘅戰機根本唔會返到基地-駕駛艙俾敵人打中嘅戰機過唔到「生還」呢個甄選程序,令最後得到嘅數據反映冇戰機嘅駕駛艙俾敵人打中[33]
  • 操作化(operationalization):指「定義要點樣量度一啲唔能夠直接量度得到嘅變數」嘅過程;例如係心理學研究成日都要應付一啲人腦入面嘅變數,呢啲變數好多時都難以直接量度,而個研究者要做嘅嘢包括定義好個變數,講明用某個直接量度得到嘅變數 代表想量度嗰一個變數(),以及佢點解認為 代表到 ,上述嘅過程就係所謂嘅操作化[34]
  • 時間序列(time series):係指一列若干個數據數值,而呢列數值當中每一個都掕住一個數值,表示嗰一個數據數值「喺時間上係第幾個發生嘅數值」。

收集方法[編輯]

  • 社會統計調查(survey methodology):社科上常用嘅一種收集數據方法,通過搵一柞社會大眾返嚟做受試者,對佢哋作出系統性嘅提問,並且分析有關研究嘅數據,用嚟描述或者解釋社會現象[35]
    • 李卡特量表(Likert scale):心理測量學上常用嘅一種社會統計調查方法,指每一條題目都成一句句子,而受試者要做嘅係睇每條題目,答自己有幾同意嗰句句子講嘅嘢;例:一個心理測驗量度一個人有幾外向,其中一條題目會係「我鍾意識新朋友」(一句句子,描述緊一樣同外向度有關嘅行為),而受試者要填一個 1 至 5 嘅數字,當中 1 分表示好唔同意呢句句子,5 分表示好同意[36]
  • 自我報告研究(self-report study):指靠人類受試者向研究者報告自己嘅行為嚟做嘅研究,通常係心理學社科領域先會做嘅。例如一個社會學研究者想研究一個人每個禮拜花幾多時間上網會點影響佢嘅社交生活,佢要量度每個受試者「每個禮拜花幾多時間上網」,就靠問受試者估計自己平均每個禮拜花幾多時間上網。自我報告研究嘅效度受到唔少學者爭議[37]
  • 研究設計:
    • 受試間設計(between-subject design):指份研究量度咗受試者喺柞變數上嘅數值,並且比較受試者之間喺變數上嘅差異[38]
    • 受試內設計(within-subject design),又有叫重複量數設計(repeated measures design):指份研究量度咗每位受試者喺若干個時間點當中嘅變數數值;例:一路睇住班受試者嘅食量,每日睇一次,連睇 10 日,噉個數據庫會每個受試者有 10 個數值,表示佢喺呢 10 日當中每一日嘅食量),等研究者可以分析一個變數點樣隨時間變化[38]

實驗[編輯]

內文: 實驗

實驗(experiment)泛指一啲做嚟目的係要驗證某啲假說嘅步驟。喺研究者做實驗嗰陣,佢要喺一個有返咁上下受控(controlled;指個研究者能夠量度同控制啲變數)嘅環境下做一啲操作(manipulation)。一個操作涉及個研究者特登控制某啲變數(自變數)嘅數值,再睇吓個操作會引致應變數有乜嘢變化,用意在於研究自變數同應變數嘅變化之間係咪有因果嘅關係[39]

  • 實驗設計(experimental design):指設計一個實驗嘅過程;喺做實驗之前,研究者一般會寫計劃書向自己所屬嘅院校提議個實驗,會喺計劃書入面詳述個實驗嘅設計[40]
  • 實驗分組:
    • 實驗組(experimental group / treatment group):指接受咗實驗操作嘅受試者。
    • 對照組(control group):指冇受實驗操作嘅受試者,研究者會對比實驗組同對照組,睇吓兩組受試者係咪有分別;如果有,噉就表示個操作真係有效。
    • 舉個例說明,想像有個研究者,佢想研究一隻新藥(自變數)係咪能夠提升人嘅專注力(應變數),於是佢就搵咗若干個受試者返嚟,將佢哋分做兩組,實驗組俾佢哋試隻藥,而對照組就食一隻已知唔會影響專注力嘅藥,然後俾兩組受試者做一啲要求專注力嘅作業(假設有咗明確方法量度專注力),比較兩組喺專注力上嘅表現係咪有分別,如果有,就表示隻藥真係有效[41]

量度[編輯]

內文: 量度
  • 量度層次(level of measurement):喺統計學入面對變數量度方法嘅一種分類法。喺做科學研究嗰陣時,科學家想做嘅嘢係要搵出變數同變數之間嘅關係,而要做呢樣嘢,佢哋好多時係首先要量度啲變數嘅數值,並且跟手做統計分析睇吓啲變數之間有乜嘢關係。量度層次嘅分類法係基於嗰個量度方法提供到幾多訊息嚟到劃分嘅,呢個分類法將量度方法分做四個級別[42][43]
層次 用得嘅邏輯數學運算 例子 點計中間趨勢 點計離散趨勢 定性抑或
定量
1
名目
nominal
二元名目:性別(男、女)、真實性(真、假)、出席狀況(出席、缺席)
多元名目:語言廣東話普通話英文等)...
眾數
定性
2
次序
ordinal
多元次序:服務評等(傑出、好、欠佳)、教育程度(小學、初中、高中、學士、碩士同博士等) 眾數中位數 分位數
定性
3
等距
interval

溫度年份緯度 眾數中位數平均數 分位數全距
定量
4
等比
ratio

價錢年齡身高絕對溫度、絕大多數嘅物理量 眾數中位數平均數 分位數全距標準差
定量
  • 連續性變數(continuous variable)同離散性變數(discrete variable):一個連續性變數嘅可能數值有無限咁多個,而離散性變數得若干個可能數值;例:真相得兩個可能數值(真同假),但溫度嘅可能數值嘅數量原則上有無限咁多個,攝氏 100 度、攝氏 100.01 度、攝氏 100.0001 度... 等等[44]
  • 共同方法變異(common-method variance):指因為量度方法(而唔係想量度嗰個變數)而起嘅變異數-想量度嘅變數會有一個(研究者想靠量度估計嘅)概率分佈,但實際量度到嘅數值嘅分佈可能同呢個真實分佈唔同,而呢個差異係因為量度架生嘅特性而起嘅;要檢驗一柞數據有冇共同方法變異嘅問題,最原始嘅做法係用哈曼測試(Harman's test)-即係用探索性因素分析(EFA;睇下面)嘗試由柞數據嗰度抽取一個因素出嚟,而如果呢個想像中嘅因素能夠解釋幾多嘅變異數[註 1][45]

信度同效度[編輯]

內文: 信度效度

信度(reliability)係常用嚟評估一個量度方法有幾好嘅指標,指對一個現象用嗰個方法進行重複觀察之後,係咪可以得到相同嘅數值;正路嚟講,如果一個量度方法係可信(reliable)嘅,噉無論何時何地何人用嗰個方法量度同一樣嘢,都理應會得到相同嘅數值[46][47]

  • 評分者間信度(inter-rater reliability):用嚟評估一個量度有幾受做量度嘅人影響;例如有一個俾教育家用嚟評估細路學習進度嘅方法,但做完研究發現,五位教育家分別噉用同一個方法評估同一班細路,五個得到完全唔同嘅數值,噉呢個量度方法嘅評分者間信度就低。
  • 重測試信度(test-retest reliability):用嚟評估一個量度方法有幾受時間影響;例如有一個俾心理學家用嚟量度智商嘅測驗,做研究,搵班受試者返嚟做個測驗,得到一柞分數 ,然後過咗一個月之後,搵返班受試者返嚟又做過,得到另一柞分數 ;一般認為智商冇乜可能會喺一個月之內改變嘅,如果 差異好大,就表示呢個測驗嘅重測試信度低。
  • 內部一致度(internal consistency):指一個有多條題目嘅量度方法有幾「係量度緊同一樣嘢」;例如有一個智商測驗,有 50 條題目,理論上,呢啲題目冚唪唥都係量度緊智商,所以彼此之間理應喺得分上有返咁上下正相關,但研究發現,嗰 50 條題目當中有 5 條零舍係同其餘嗰啲題目有負相關,噉心理學家就好可能會要求攞走嗰 5 條題目(佢哋似乎唔係量度緊智商,所以唔應該擺喺一個智商測驗入面),變成一個 45 條題目嘅測驗。

效度(validity)係另一個常用嚟評估一個量度方法有幾好嘅指標,指個方法有幾量度到佢理應要量度嗰樣嘢;一個有效嘅量度方法真係量度緊研究者想佢量度嗰個變數;例如如果一個方法信度高、但效度低,就表示個量度方法能夠準確噉量度某個變數,但佢所量度嗰個變數並唔係研究者想佢量度嗰個[46][47]

  • 建構效度(construct validity):指一個概念嘅量度有幾合乎理論上嘅定義;例如理論上,智商測驗係量度智能嘅,而智能理論一般認為,智能包含一個個體解難嘅能力,所以一個智商測驗理應會考驗受試者嘅解難能力;建構效度嘅評估一般都係比較理論化嘅[48]
  • 效標效度(criterion validity):通常用嚟評估心理測驗嘅效度嘅一個指標,指個測驗嘅分數同俾人認為代表要量度嗰個變數有幾強相關;例如一個設計嚟量度一個人有幾外向嘅心理測驗,研究者搵咗班受試者返實驗室做個測驗,知道每位受試者嘅分數,然後喺實驗室入面觀察每位受試者有幾常主動同人講嘢或者互動(呢啲行為反映外向程度),再做一個相關嘅分析,睇吓測驗分數係咪真係同受試者做外向行為嘅次數有正相關。
  • 分歧效度(discriminant validity):指一個量度方法有幾「唔量度到理應唔啦更嘅變數」;例如一個智商測驗理應係量度緊智商,而唔係身高,如果一個一個智商測驗入面其中一條題目同個人嘅身高有正相關而且同身高嘅相關強過同其餘題目嘅相關,噉就似乎表示呢條題目量度身高多過量度智商,分歧效度低。
  • 內容效度(content validity):指一個量度方法有幾能夠涵蓋嗮佢要量度嗰樣嘢嘅各個方面;例如智能一般包括邏輯語言等多種嘅認知能力,所以一個理想嘅智商測驗理應要量度嗮以上嘅各種認知能力。
  • 聚合效度(convergent validity):指一個量度方法有冇同一啲理論上同佢有相關嘅嘢有預期中嘅相關;例如智能理論上會同時影響一個人嘅邏輯能力同語言能力,所以邏輯能力同語言能力理論上應該會有返咁上下正相關[49]
  • 表面效度face validity):指一個量度方法就噉望落有幾合乎佢理應要量度嘅嘢,通常話「一個量度方法有表面效度」喺正式科研上唔會俾人接受[50]

描述統計學[編輯]

內文: 描述統計學

描述統計學(descriptive statistics)係指一啲量化噉描述一柞訊息嘅統計數值,包括咗[51]

集中趨勢[編輯]

內文: 集中趨勢

集中趨勢(central tendency)係指表示一個概率分佈嘅中間值嘅統計數值[51]

  • 平均數(mean):平均數()最常係指將啲個案嘅數值()加埋一齊,再除以個案數量():
  • 中位數(median):將啲個案嘅數值()由細到大或者由大到細排好序,再攞最中間嗰個數,嗰個數就中位數[註 2]
  • 眾數(mode):指出現得最多次嘅數值,通常只會喺個變數係離散嘅嗰陣先會用。

離散程度[編輯]

內文: 離散程度

離散程度(dispersion)係指描述一個概率分佈「有幾散」嘅統計數值[52]

  • 變異數(variance,):以下嘅數值:
    • 當中 係個案數量, 係第 個個案喺個變數上嘅值,而 係個樣本嘅平均值- 反映咗啲個案平均距離平均值幾遠。
  • 標準差(standard deviation,):變異數嘅開方
  • 全距(range):指樣本入面最大嘅 數值減最細嘅 數值。
  • 離散指數index of dispersion):一個概率分佈嘅離散指數 係指以下嘅數值:
    • 離散指數可以用嚟作為離散程度嘅一種標準化指標[53]
  • 協方差矩陣(covariance matrix):一種數據表達方法,用一個矩陣表達每對變數之間嘅協方差,例如下面嗰個矩陣就顯示 之間嘅協方差係 ,而對角線當中嘅係每個變數嘅變異數,例如下面嗰個矩陣就顯示 嘅變異數係
數據顯示嘅協方差矩陣

統計圖[編輯]

一幅箱形圖
內文: 統計圖

統計圖(statistical graphics)係指將數據以視覺化嘅方法表達出嚟嘅做法,用途主要在於令啲數字易睇啲,例子有棒形圖

  • 箱形圖(box plot):一幅箱形圖條 X 軸會一個離散嘅變數 ,Y 軸係一個連續嘅變數 嘅每個可能數值都會有一個四方形嘅「箱」,個箱會下面掕一條橫線上面掕一條橫線,個箱反映嘅嘢如下[54]
    • 個箱上面嗰條橫線反映最大嘅 值;
    • 個箱下面嗰條橫線反映最細嘅 值;
    • 個箱嘅上邊反映上四分位數(75th quartile),即係 值比較高嗰半橛嘅中位數
    • 個箱嘅下邊反映下四分位數(25th quartile),即係 值比較低嗰半橛嘅中位數
    • 個箱中間嗰條線反映所有個案夾埋中位數

拉雜詞彙[編輯]

  • 數數據count data):指數某件事發生咗幾多次嘅一種數據,數值只可以係正整數。

推論統計學[編輯]

內文: 推論統計學

推論統計學(inferential statistics)係指做數據分析,推論數據背後反映嘅概率分佈嘅過程。呢啲分析通常係由數據嘅個案嘅值嗰度計一啲指標出嚟,用呢啲指標評估(例如)某兩個變數之間係咪真係有關,或者個自變數係咪真係能夠對個應變數產生影響,甚至估計一個數學模型出嚟描述所研究嘅現象。廿一世紀嘅統計學上有好多種推論統計分析法,每種能夠處理嘅數據類型都唔同。數據科學(data science)等領域嘅專家一定要對呢啲唔同嘅分析法有所認識,知乜嘢時候應該用邊種分析法[55]

假說檢定[編輯]

內文: 假說檢定

假說檢定(hypothesis testing)係指喺推論統計學當中驗證一個假說係咪真嘅過程。一個做假說檢定嘅研究者所做嘅工序如下:

  1. 睇過有關佢所研究嗰樣嘢嘅文獻,
  2. 建基於已有嘅知識,作出一啲有關嗰樣嘢嘅新假說(「我睇過打前嘅研究,我認為有咗已知嘅嘢,我可以作出以下嘅判斷,而驗證呢個判斷係咪正確能夠帶嚟新知識」),
  3. 諗出一個驗證呢假說嘅程序,
  4. 用呢個程序攞數據,
  5. 對數據作出分析,
  6. 用分析結果判斷個假說係咪真確[56]
  • 假說(hypothesis):喺科學上係指一個仲未搵到證據支撐,但研究者有理由認為係真確嘅論述。
  • 虛無假說(null hypothesis;符號)同備擇假說(alternative hypothesis;符號):虛無假說係做一份研究嗰陣嘅預設立場,指「兩個量度嘅變數之間冇關係」呢句嘢,,而備擇假說係做一份研究嗰陣嘗試驗證嘅立場,指「兩個量度嘅變數之間有關係」呢句嘢,
    • 舉個例說明,假想有個認知科學家想驗證「年紀」同「記憶力」呢兩個變數之間嘅關係,於是佢就搵咗兩批人返嚟做佢嘅樣本,第一批人年紀喺 20 至 30 歲之間,第二批人年紀喺 50 至 60 歲之間,再用一啲測試量度呢兩批人嘅記憶力,設第一批人喺記憶力測試上嘅平均得分係 ,而第二批人喺同一柞測試上嘅平均得分係 ,噉呢份研究嘅虛無假說係 ,備擇假說係 ,當中後者係個認知科學家想證實嘅嘢[57]
  • 單側同雙側檢定(one- and two-tailed tests):單側檢定(one-tailed test)指個備擇假說講明咗 處於 邊一面,即係 或者 ,而雙側檢定(two-tailed tests)指個備擇假說冇講明 處於 邊一面,即係單純嘅 [58]
  • 統計顯著性(statistical significance):係做假說檢定嗰陣得到嘅一個數值;統計顯著性嘅數學符號係 ,表示「如果虛無假說係真,呢個結果出現嘅機會率」,
    例如如果 值係 0.05,表示「如果虛無假說係真,呢個結果出現嘅機會率得嗰 5%」-因為呢個緣故,研究者有理由相信虛無假說好有可能唔係真,而主張備擇假說(通常係佢想得到嗰個結果)比較有可能會係真,個研究者可以拒絕個虛無假說(reject the null hypothesis)[56]
  • 統計功效(statistical power):一個假說檢定過程會有嘅一個屬性;指「如果 係真確,個測試過程會成功拒絕到 」嘅機會率[59]

統計相關[編輯]

內文: 統計相關

相關(correlation)呢個詞喺統計學上嘅定義如下:如果話 呢兩個變數正相關(positive correlation),即係話 數值高嗰陣 數值都傾向高,而 數值低嗰陣 數值都傾向低;如果話 呢兩個變數成負相關(negative correlation),即係話 數值高嗰陣 數值傾向低,而 數值低嗰陣 數值就會傾向高;而如果話 呢兩個變數冇明顯相關(not correlated),即係話 嘅數值唔會點預測得到 嘅數值[60]

  • 皮亞遜積差相關係數(Pearson correlation coefficient):係常用嚟衡量兩個變數之間嘅相關嘅一個數值,條式如下[61]
    ,當中
    • 呢兩個變數之間嘅皮亞遜積差相關係數;
    • 係第 個個案嘅 數值;
    • 係第 個個案嘅 數值;
    • 係啲個案喺 上嘅平均值
    • 係啲個案喺 上嘅平均值;
    • 係啲個案喺 上嘅標準差
    • 係啲個案喺 上嘅標準差。
    • 皮亞遜積差相關係數俾嘅訊息只係「兩個變數大致上嘅相關」,但就算兩個變數之間嘅皮亞遜積差相關係數係 0,都唔等如兩個變數之間真係冇關,好似係以下嘅一柞圖噉,每幅圖上面嗰個數表示皮亞遜積差相關係數,每一點表示一個個案,X 軸係變數 ,Y 軸係變數 ;由圖中可見,有好多有趣嘅關係都會俾出數值係 0 嘅皮亞遜積差相關係數[61]
  • 協方差(covariance):皮亞遜積差相關係數條式個分子,即係[62]
Correlation examples2.svg
  • 相關唔蘊含因果(correlation does not imply causation):統計學上嘅一條重要原則,指緊就算兩個變數之間有相關,都唔表示兩個變數之間有因果關係;假想而家有兩個變數 之間有勁嘅相關(皮亞遜積差相關係數數值大),噉可以表示三個可能性-
    1. 引致
    2. 引致
    3. 有同一個原因。
    • 有唔少統計學嘅學生都以為兩個變數之間有相關表示咗兩者有因果關係,但呢個係一個錯誤嘅諗法,所以統計學界就有咗句噉嘅說話用嚟提醒學生要小心[63]
  • 局部相關(partial correlation):指喺第個或者第啲變數嘅影響冇咗嘅情況下,兩個變數之間嘅相關;想像有兩個變數 ,有 混淆變數(睇下面) 之間「喺 嘅影響受控制冇咗嗰陣」嘅局部相關 會係 之間嘅相關,當中 係指做線性迴歸分析 預測 嗰陣嘅誤差, 同一道理[64]
  • 等級相關(rank correlation):指要同佢哋計相關值嗰兩個變數係「等級」,即係每個個案喺嗰兩個變數上有「第一高」、「第二高」同「第三高」等嘅數值[65]
  • 自相關(autocorrelation):一個隨機過程嘅自相關係指嗰個過程喺唔同時間點嘅數值之間嘅皮亞遜積差相關係數;設 做一個有隨機性嘅過程, 設做是但一個時間點,而家將 呢個過程若干次, 代表個過程喺時間點 俾出嘅數值,噉呢個過程時間點 同時間點 之間嘅自相關 定義上係 之間嘅皮亞遜積差相關係數;自相關喺訊號處理上常用,可以用嚟量度一段訊號有幾接近完全隨機[66]

統計模型[編輯]

內文: 統計模型

統計模型(statistical model)係數學模型嘅一種。一個統計模型會帶有若干個假設,模擬一個產生數據(觀察到嘅嘢)嘅過程;然後一個研究者會收數據,並且用數據估計一個統計模型嘅參數數值,即係用數據估計世界嘅運作法則[67]

  • 參數(parameter):指一個能夠定義一個系統嘅數值。
  • 單變量分析(univariate analysis):指個分析模型得一個變數[68]
  • 多變量分析(multivariate analysis):指個分析模型有多過一個變數[68]
  • 適合度(goodness of fit / model fit):一個統計模型有幾能夠準確噉描述手上嘅數據,一般係愈高愈好[69]
    • 適合度指標(fit indices):指一啲用嚟衡量一個統計模型嘅適合度嘅指標數值;喺廿一世紀嘅統計學界有好多種適合度指標,用統計技術做研究嘅人會按照自己嘅情況選擇用乜嘢指標衡量手上嘅統計模型[70]
  • 多組分析(multigroup analysis / multi-group analysis):泛指「將受試者分做幾組,每組都由佢哋數據嗰度估個統計模型出嚟,並且比較唔同組喺個模型上有乜差異」;例如研究者認為變數 同變數 喺實驗組當中會成正比,而喺對照組當中會冇相關,於是就將數據分做兩份,每份對應其中一組受試者嘅數據,然後同兩組分別建立一個結構上相同嘅迴歸模型),睇吓呢兩組嘅 係咪有預期中嘅差異(即係喺實驗組當中係統計上顯著嘅正數,喺對照組當中統計上唔顯著);如果有,就能夠支持嗰位研究者嘅假說[71]。睇埋調節變數
  • 約束(constraint):指喺建立一個統計模型嗰陣,指定個模型一定要滿足某啲條件;例如喺做兩組嘅多組分析嗰陣,指定一個約束,要 呢兩個變數之間嗰段統計關係喺兩組之間一樣,而如果施加呢個約束會搞到個模型嘅適合度明顯變差,噉個研究者就有理由話兩組之間有差異(睇埋下面調節效應[72]

迴歸模型[編輯]

內文: 迴歸模型

迴歸模型(regression model)係常用嘅一種統計模型。一般迴歸模型有若干個自變數同一個應變數,兩者一般都屬於連續性嘅變數,然後個演算法就嘗試畫一條能夠表達自變數同應變數之間嘅關係嘅線[73]

例:,當中 係應變數, 係自變數, 係誤差。
  • 線性迴歸模型(linear regression model):最簡單嗰種迴歸模型;喺一個線性迴歸模型當中,個應變數係柞自變數線性組合[73]
  • 多重迴歸模型(multiple regression mdoel):指多過一個自變數嘅迴歸模型。
    例:,當中 係第 1 個自變數, 係第 2 個自變數, 係誤差。
  • 多變量適應性迴歸模型(multivariate adaptive regression splines,MARS):指以下嘅迴歸模型:
,當中
  • 係恆常嘅系數;
  • 每個 可以係
    • 常數 1、
    • 一個合頁函數(hinge function),即係 或者 [註 3]、或者
    • 兩個或者以上嘅合頁函數乘埋[74]
  • 多重共線性(multicollinearity):多重迴歸模型當中間中會出現嘅問題,指其中一個自變數嘅數值可以由其他自變數嘅線性噉預測,,而且準確度有返咁上下高;喺有多重共線性嘅情況下,個多重迴歸模型嘅系數(嗰柞 )嘅估計數值可能會隨模型或者數據嘅細少變化而有不穩定嘅變化;多重共線性仲可能會令人懷疑個迴歸模型嘅預測能力-原則上,如果將一個多重迴歸模型嘅 改變而第啲 數值不變,係會睇到 嘅數值會點隨住 變化嘅,但如果有多重共線性,就表示 數值變會令第啲 跟住變,「設其他 不變, 改變」呢樣嘢就會唔可行;因為噉,統計學界對於「要點樣處理多重共線性」有進行認真嘅探討[75]
  • 邏輯迴歸(logistic regression):個應變數係一個二元(得兩個可能數值)變數,自變數可以係連續可以係離散;可以用嚟按一柞個案當中每個喺柞自變數上嘅數值,將佢哋分類。可以睇吓 Sigmoid 函數
  • Sigmoid 函數:以下呢個函數
Sigmoid 函數畫做圖嘅樣
  • 普通最小二乘法(ordinary least squares,OLS):其中一種最常用嚟估計線性迴歸模型參數嘅數值嘅演算法;呢一類演算法會用啲步驟逐漸改變個迴歸模型啲參數,目標係要令殘差平方和(residual sum of squares,簡稱「RSS」)最小化(有關將某啲數值最大最小化嘅嘢,可以睇最佳化)。當中 RSS 係指將所有誤差值嘅平方加埋得出嘅數[73]
  • 逐步迴歸stepwise regression):一種可以用嚟估計線性迴歸模型參數嘅數值嘅演算法;指
    • 由一個冇自變數嘅迴歸模型開始,foreach 自變數,加個自變數入去,喺每一步都用某啲事先制定咗嘅法則講明要點決定加邊個自變數(前向;forward);
    • 由一個有齊嗮啲自變數嘅迴歸模型開始,foreach 自變數,攞個自變數走,睇吓個模型嘅預測力變成點,喺每一步都用某啲事先制定咗嘅法則講明要點決定攞走邊個自變數(反向;backward)。
    • 喺廿一世紀嘅統計學界,逐步迴歸廣受批評,所以唔多人用[77]
  • 等級線性模型(hierarchical linear model,HLM):一種做多層分析(multi-level analysis)嗰時好有用嘅統計分析方法;「多層分析」意思係指樣本入面有 個群組,而每個個體都屬於某一個群組,研究者有理由相信唔同群組彼此之間會有啲系統性嘅差異。例如一份管理學上嘅研究,想分析一間公司(樣本)入面嘅員工(個體),而每個員工都有佢所屬嘅工作團隊(樣本入面嘅群組),研究者有理由相信工作團隊之間嘅差異(例如係團隊領袖嘅領導能力)會影響佢想研究嘅現象,所以佢就做 HLM,用類似以下噉嘅數學方程式將唔同層面嘅變數擺入去同一條式入面[78]
    • 係一個喺層面 1 嘅應變數(細階 指個體,而細階 指個群體);
    • 係一個喺層面 1 嘅自變數
    • 係一個喺層面 2(群體層面)嘅自變數,佢嘅數值對於屬同一個群體嘅成員嚟講都係一樣嘅;
    • 係個(intercept);
    • 淨低嗰啲 迴歸系數(regression coefficient),反映咗佢掕住嗰個自變數有幾能夠預測個應變數嘅數值,而 係指誤差
    呢條式用文字解釋係噉: 嘅數值係受 呢兩個變數嘅數值影響嘅,而如果用呢個變數嘅數值去預測 嘅數值嘅話,誤差平均會係 。而家想像:
    • 係「工作團隊 當中員工 嘅工作表現」,
    • 係「工作團隊 當中員工 嘅身體健康」,而
    • 係「工作團隊 嘅領袖嘅領導能力」-
  • 跟手個研究者就去收數據,做統計分析,用數據估計 嘅數值。如果數據反映(例如)一個員工嘅身體健康比起佢所屬嘅團隊嘅領袖嘅領導能力更加能夠預測佢嘅工作表現(簡單啲講就係 )嘅話,噉佢就發現咗啲有用嘅嘢(對一個組織嚟講,對提高員工表現嚟講,確保員工健康比起領導能力更重要),可以將佢嘅研究結果喺期刊嗰度公佈。HLM 常見於管理學社科領域研究,因為呢啲領域成日會遇到「樣本入面有若干個次群體」嘅情況[79]
  • 結構公式模型(structural equation modeling,SEM):包含一系列用嚟搵出一柞變數之間嘅關係嘅數學模型演算法;一個結構公式模型會包含若干個變數,途中好多時會用因素分析(睇下面)減少變數嘅數量先,然後再用獨立嘅迴歸分析估計啲變數之間嘅關係[80]
    • 量度模型(measurement model):一個結構公式模型當中定義啲因素(睇下面因素分析)嗰部份。
    • 結構模型(structural model):一個結構公式模型當中講明因素之間嘅關係嗰部份。
    • 量度不變特性(measurement invariance):做多組分析(睇 multigroup analysis)嘅結構公式模型嗰陣會用到嘅概念;如果話一個量度(例如係智商測試等嘅心理測驗)具有量度不變特性,即係話喺分析緊嗰幾組之間個量度所度緊嘅概念並冇差異;舉個例說明,想像家陣有個心理學家,喺幾個唔同國家嗰度用一個心理測驗做咗份研究,但佢擔心唔同文化嘅人會對個心理測驗嘅問題有唔同理解,於是就做一個多組分析,每組係一個國家嘅受試者,再同每組都做一個因素分析(睇下面),睇吓唔同組喺因素結構上係咪一樣[81]
一個結構公式模型;描述智能同成績之間嘅關係。智能由幾個唔同嘅指標(柞 scale)反映,講明智能同呢啲指標之間嘅式(由智能去指標嘅箭咀)嘅就係量度模型,而講明智能同成績之間嘅關係嘅式(由智能去成績嘅箭咀)就係結構模型。箭咀上嘅數字反映段關係有幾強(睇埋迴歸分析)。
  • 通徑分析(path analysis):指一個描述若干個變數之間嘅方向性相關嘅模型;一個通徑分析會有若干個變數,並且指明每對變數之間有點樣嘅關係,例:由 嘅單向箭咀表示 可以作為一個預測 自變數(睇埋迴歸分析[82]
  • 關係
    • 線性關係(linear relationship):如果話兩個變數 成線性關係,即係話如果將兩個嘅數值畫做圖,會得出一條直線,條式會係[83]
      ,當中 係一個特定嘅參數,而 截距(intercept);

第啲模型[編輯]

一條馬可夫鏈;呢條鏈有兩個可能狀態 ;幅圖表示,如果而家狀態係 ,下一刻狀態變成 嘅機會率係 70%。
  • 馬可夫鏈(Markov chain):一種用嚟模擬一連串可能事件嘅隨機性數學模型。喺一條馬可夫鏈當中有若干個可能狀態,而每個狀態 都會有一串數字 表示世界由 呢個狀態變成另一個狀態嘅機會率;喺統計學上,一種簡單嘅做法係收數據,用數據估計 嘅數值,產生一個可以用嚟預測世界變化規律嘅模型[84]
  • 獨立成份分析(independent component analysis,ICA):常見於訊號處理,會將一個受多個變數影響嘅訊號 分做彼此之間獨立嘅子部份,即係將 變成 ,當中每個 都係某啲 線性組合;簡單講就係 foreach
    反映嗰個 有幾影響到 );
    • 當中啲 之間要盡可能彼此獨立[85]

因素分析[編輯]

因素嘅想像圖;家陣研究者想量度 呢個睇唔到嘅因素(例如智能),於是就俾受試者做個測驗,有 咁多條題目,... ,當中每條題目都有個誤差值 以及 簡單講係反映嗰條題目嘅得分同 有幾強相關)。
內文: 因素分析

因素分析(factor analysis)係一系列用嚟將大量變數轉化成少量因素(factor)嘅統計方法。因素分析有好多種做,不過做法一般都係由若干個直接觀察到嘅變數嗰度推想一個能夠解釋呢啲變數嘅變化嘅因素出嚟,而最後得出呢個因素能夠一定程度上反映嗰柞變數嘅變化。舉個例說明:

  1. 想像家陣手上個數據庫有若干個被觀察咗(observed)嘅隨機變數 ,而呢柞變數嘅平均值係
  2. 想像有 冇被觀察到(latent;數值冇直接被紀錄落去數據庫嗰度)嘅隨機變數 (呢柞 係所謂嘅因素)[註 4]
  3. 喺做因素分析前, 嘅數值係未知,而因素分析嘅目的就係要搵出以下呢啲式當中嘅參數:
;當中
係參數;
誤差,平均值係 0,而變異數係一個有限數值,唔同 變異數數值可以唔同。

假想 嘅數值好大(即係 數量多),研究者覺得吓吓都要用嗮柞 做運算好撈絞;而又假想 ,如果研究者搵到上述柞式嘅參數數值,佢就能夠用柞 嘅數值總結成個數據庫,做到「用數量少啲嘅變數嚟做分析」嘅效果[86]

  • 因素分析可以分做兩大類[87]
    • 探索性因素分析(exploratory factor analysis,EFA):指研究者冇作出任何事先假設嘅因素分析,研究者會由手上嘅數據嗰度估計因素嘅數量同每個變數條 式係點;
    • 確定性因素分析(confirmatory factor analysis,CFA):指研究者分析前經已有個模型喺度;個模型會描述「因素有幾多個」以及「每個變數係邊幾個因素嘅函數」等嘅資訊,然後分析方法要做嘅係嘗試計出一啲量度「個模型有幾準確噉描述數據嘅實際情況」嘅指標。
  • 主成份分析(principal component analysis,PCA):因素分析嘅一種;想像有柞個案,佢哋每個喺兩個變數上都有其數值(附圖),跟住可以畫兩條線(附圖嗰兩個箭咀),兩條線分別都可以用一條包含 嘅算式表達,當中由圖當中可以清楚睇到,長箭咀嗰條線成功噉捕捉更多嘅變異數-亦即係話長箭咀嗰條線所代表嗰個「成份」(component)比較能夠用嚟分辨啲個案,所以比較「重要」。喺最簡單嗰種情況下,一個做主成份分析嘅演算法大致上係噉[88]
    1. 攞數據;
    2. 畫條線出嚟,條線有條式,而條式包含數據當中有嘅變數
    3. 計出沿呢條線嘅變異數有幾多;
    4. 改變吓條線嘅參數
    5. 再計出沿條新線嘅變異數有幾多;
    6. 一路做步驟 4 同 5,做嗮所有指定咗嘅可能性,最後俾具有最大變異數嗰條線做個演算法嘅輸出。
主成分分析嘅圖解;幅圖每一點代表一個個案,兩個箭咀代表兩個成份,長啲嗰個箭咀係比較重要嗰個成份。
  • 卡隆巴系數(Cronbach's alpha,):心理測量學上成日用嚟衡量一個心理測驗信度(睇上面)嘅數值。想像家陣有個心理測驗,有 咁多條題目,而呢 條題目冚唪唥都係量度緊一個因素(例如 10 條題目量度邏輯能力),研究者搵人做個測驗攞到數據之後,個測驗嘅卡隆巴系數()條式如下[89][90]
    ,當中
    係指每對題目之間嘅協方差(covariance)嘅平均值
    指「啲題目嘅變異數(variance)嘅總和」加埋「題目之間嘅協方差總和」;即係話
    (有關呢啲數學符號嘅意思,可以睇吓加總);
  • 如果卡隆巴系數數值大(接近 1)嘅話,就表示呢柞題目嘅變異數主要源自佢哋之間嘅協方差,簡單講就係表示「呢柞題目之間嘅變異數主要係由佢哋之間嘅相關引起嘅」而唔係源於佢哋各自獨立嘅變異-所以如果一柞題目嘅卡隆巴系數數值大,研究者就更有理由相信呢柞題目係量度緊同一個隱藏因素[89]

統計詮釋[編輯]

  • 頻率學派推論(frequentist inference):一種舊時嘅統計學詮釋方法;根據呢種理解,推論統計嘅作用在於測試「一件事有冇發生」;一個頻率學派嘅研究者做嘅嘢係將個實驗重複若干次,再睇吓喺呢 次實驗當中,有幾多次得出撐個假說嘅結果。呢種做法俾人詬病,話用佢得到嘅結果會受實驗嘅重複次數影響[91]
  • 貝葉斯推論(Bayesian inference):一種喺廿世紀取代咗頻率學派推斷嘅統計學詮釋方法;根據呢種理解,一個研究者喺做實驗之前會有一個原先預期(prior)嘅模型,然後佢會做實驗攞數據,再按呢啲數據更改自己手上嘅模型,打後再做實驗,不斷更新個模型。即係用返貝葉斯定理(Bayesian theorem)嘅思考方法想像[92]
,當中
  • 指(研究者相信)手上模型係真確嘅機會率;
  • 指「如果手上模型係真確,會得出呢個實驗結果()」嘅機會率;
  • 指「有咗個實驗結果,手上模型係真確」嘅機會率(事後信念;posterior belief)。
呢個過程可以想像成「心目中嘅概率分佈嘅不斷變化」-想像一個觀察者,佢完全唔知「撳 A 呢個掣會發生乜事」(喺佢心目中,所有可能性嘅機會率都一樣,成一個均勻分佈),喺撳咗一次,觀察到撳咗個掣會有盞燈閃之後,佢就會改變佢心目中嗰個概率分佈,知道「會有盞燈閃」嘅機會率大過「天會跌落嚟」嘅,即係對「撳 A 呢個掣會發生乜事」嘅認識多咗[92]

相關概念[編輯]

  • 最大似然估計(maximum likelihood estimation,MLE):廿一世紀初最常用嗰種用嚟估計模型參數數值嘅做法;最大似然估計會先搵出一個機會率函數,呢個函數會表示「觀察到手上數據嘅機會率」同「模型參數」()之間嘅關係,,然後段演算法就可以用數學方法,搵出能夠令「觀察到手上數據嘅機會率」最大化嘅模型參數數值[93]
  • 可解釋變異(explained variation):指一個數據庫入面嘅個案間差異(以離散程度計算)有幾多可以由手上嗰個統計模型解釋;可解釋變異可以用多個指標衡量[94]
  • 中介變數(mediator variable):如果有三個變數,,當中 能夠影響 ,而 跟住會影響 ,噉 就係 之間嘅中介變數;要用迴歸分析分析中介效應(mediation effect)最簡單嘅有三個步驟[95][96]
  1. 用迴歸分析睇吓 係咪能夠預測 ;即係睇吓 當中嘅 係咪顯著
  2. 用迴歸分析睇吓 係咪能夠預測 ;即係睇吓 當中嘅 係咪顯著
  3. 用迴歸分析睇吓 係咪能夠預測 ;即係睇吓 當中嘅 係咪顯著,以及 絕對值係咪細過 。如果 數值係 0,但 係顯著,呢個模型就係一個完全中介(full mediation)嘅模型,而如果 絕對值細過 但依然顯著,噉呢個模型就係一個局部中介(partial mediation)嘅模型。
中介效應嘅圖解
  • 調節變數(moderator variable):指一個「調節」另外兩個變數之間嘅關係嘅變數(調節效應;moderation effect),用迴歸分析諗嘅話:
    • 當中 應變數自變數,而 係一個調節變數-,表示 數值對 嘅影響視乎 嘅數值[60]
    • 要睇吓一個變數係咪調節變數,一個可能嘅做法簡單講如下:首先將個自變數()同想知佢係咪調節變數嘅變數()做自變數,同個應變數做迴歸分析;然後第二步再做多個迴歸分析,今次淨係用互動項(interaction term;即係 )做自變數,如果迴歸分析結果顯示 都係統計上顯著,噉就表示真係有一個調節性效應存在[97][98]
  • 混淆變數(confounding variable / confounder):指一個同時會對自變數同應變數產生影響嘅變數,搞到研究者唔能夠肯定(如果搵到)自變數同應變數之間嘅關係係咪因為兩者真係有關,定係因為個混淆變數嘅影響;想像家陣研究者做一份研究,想知道 呢兩個變數之間嘅關係,佢做統計分析之後,發現 之間有顯著正相關,不過評鑑佢份研究嘅學者就指出,有一個變數 係之前嘅研究發現咗係會對 有正影響嘅,而呢份研究冇量度到 ,所以個結果就未必係因為 之間真係有關; 喺呢個情況下就係一個混淆變數[99]
  • 敏感度分析(sensitivity analysis):有陣時喺得到統計模型之後會做嘅一樣嘢;用統計分析製作模型嘅過程當中往往假設咗好多嘢,但呢啲假設未必完全受人接納(例如好多時分析者都假設個變數係跟常態分佈);做敏感度分析意思就係睇吓如果嗰啲假設唔成立(變數唔係跟常態分佈),個模型仲成唔成立,如果就算冇咗嗰個假設都仲係搵到同一樣嘅結果嘅話,個分析者就更加有信心覺得個模型係掂嘅[100]
  • 廣義狹義化:
    • 廣義化(generalization):指「攞多個唔同個案,搵出呢柞個案嘅共通點,用呢啲共通點形成一個概念」嘅過程。例:烏鴉青蛙同埋鯊魚(一柞個案)都有「有脊椎」等嘅特徵(共通點),呢啲共通點結合埋,就成為「脊椎動物」呢個概念[101]
    • 狹義化(specialization)係指「攞一啲普遍性嘅知識嚟分析一個特殊情況」嘅過程,例如係攞住講重力嘅理論(一個普遍噉描述萬物嘅理論)嚟分析一個蘋果自由下墜(好多嘢都可以受重力影響,所以蘋果嘅自由下墜只係其中一個個案)[101]
  • 時頻域
  • 心理建構(psychological construct):喺心理測量學上指一柞頗此之間相關、同樣體現緊某啲心理特性嘅行為,例如「答啱數學問題」同「答啱語言問題」都係智能嘅體現。

最佳化[編輯]

內文: 最佳化

最佳化(optmization)喺統計學同機械學習上泛指一柞將一個特定嘅函數或者變數最大化或者最小化嘅工作,通常係指將一個量度統計模型嘅表現嘅指標最大化或者最小化,例如將個模型「做預測嘅準確度」最大化或者將個模型「做預測嗰陣嘅犯錯率」最小化等等[103]

  • 損失函數(loss function),又有叫成本函數(cost function):指一個能夠「攞一件事件或者若干個變數嘅數值、並且計出代表呢件事件會造成幾大損失或者成本」嘅函數,喺最佳化上指一個表示「如果模型參數係噉嘅數值,做預測嗰陣嘅誤差會係咁多咁多」等資訊嘅函數[104]
  • 爬山演算法(hill climbing)係一種常用嚟做最佳化嘅演算法:想像一個統計模型,有兩個參數,,而家用某個指標 量度個統計模型嘅表現,而呢個指標係數值愈細代表個模型愈理想嘅,例如係個模型嘅犯錯率(睇下圖)。家陣 有某啲數值,所以個模型喺幅圖入面有個座標位置,而喺學習嘅每一步,個演算法可以加減 嘅數值,個模型有 4-2 個參數 x 2 個可能改變方向-個前進方向,所以個演算法可以計四個數值 ,當中 係移去第 個方向會得到嘅 值,個演算法會按某啲準則決定要移去邊個方向(決定點樣改變兩個參數)-一條簡單嘅準則可以係「揀 值最細嘅方向」。多個兩個參數嘅情況可以用同一道理想像[105]
爬山演算法嘅圖解;X 軸同 Y 軸係個模型嗰兩個參數,Z 軸(上下)表示一個量度模型表現嘅指標;演算法嘅目標係要將 最小化。

梯度下降法[編輯]

內文: 梯度下降法
  • 梯度下降法(gradient descent)係另一種常用嚟做最佳化嘅演算法。梯度下降法同爬山演算法相似,分別在於梯度下降法用嘅係斜率:喺每一步當中,一個梯度下降法啲參數移去邊一面唔係最決於邊一面嘅 數值低啲,而係取決於邊一面嘅 值嘅斜率高啲,諗住如果某一面嘅 數值跌得快,移去過一面就會最快噉令 數值下降[106]梯度上升法(gradient ascent)係指用同樣嘅手法搵最大值。以下係用 Python 寫嘅一段梯度下降法碼:
next_x = 6  # We start the search at x=6
gamma = 0.01  # Step size multiplier
precision = 0.00001  # Desired precision of result
max_iters = 10000  # Maximum number of iterations

# Derivative function
def df(x):
    return 4 * x ** 3 - 9 * x ** 2


for _ in range(max_iters):
    current_x = next_x
    next_x = current_x - gamma * df(current_x) # 睇吓個斜率係點。

    step = next_x - current_x
    if abs(step) <= precision:
        break

print("Minimum at ", next_x)

# The output for the above will be something like
# "Minimum at 2.2499646074278457"
  • 隨機梯度下降法(stochastic gradient descent,SGD):指個梯度下降法演算法唔係靠睇嗮成個數據庫嘅數據計出現時嗰點周圍嘅斜率(梯度),而係靠由數據庫嗰度抽一個樣本出嚟,用個樣本嘅數據計梯度;呢種做法喺個數據庫好大嗰陣可以用嚟減低部電腦所受嘅負荷[107]
  • 動量(momentum):同力學上所講嘅動量唔同,機械學習上所講嘅動量指個演算法喺最佳化每一步更新模型參數嗰陣,會記住之前嗰幾次更新嘅改變數值(),而今次嘅更新嘅改變值 會係 嘅函數,,即係例如[108]
    ,當中 係估計嘅梯度, 係一個 0 至 1 之間嘅數值,決定打前嘅改變數值對而家呢次更新有幾大影響。
  • 平均法(averaging):喺做完若干步(經過嘅總步數係 )最佳化之後,將個參數變成最佳化中途得到嘅數值嘅平均值,即係話[109]
  • 地區性最細(local minimum)同地區性最大(local maximum):用爬山演算法成日要面對嘅問題;想像好似下圖噉,個模型有一個參數 ,而指標 係數值愈低愈好嘅,例如犯錯率;而家陣個演算法係按簡單嘅法則「試吓改變 嘅數值,然後將 移去 比較低嗰邊,如果兩邊嘅 都高過而家嘅,就用而家個 值做模型參數嘅最後數值」,if (z(p - 1) > z(p)) AND (z(p + 1) > z(p)), then output p,噉一個可能嘅結果係,個演算法會俾出一個地區性最細做 output,呢個 output 值喺佢周圍範圍內係最細值,但查實仲有更細嘅可能數值[110]。睇埋函數最高點與最低點
  • (step):喺爬山演算法上,一「步」係指個演算法會一嘢將參數數值變幾多,例如一個爬山演算法可能每次都將 數值 ±1(步數係 1),而另一個爬山演算法每次都將 數值 ±5(步數係 5)。又有啲爬山演算法會選擇中途改變步數,例如喺頭 10 步都每步 ±5 而喺跟住嗰 10 步每步 ±4... 如此類推。喺實用上,將步數設做大嘅數值或者中途改變步數可以一定程度上幫手應付地區性最細同地區性最大嘅問題[111]
p
Error rate
ideal value
local minimum
X 軸表示個模型嘅參數,而 Y 軸表示量度個模型「有幾好」嘅指標 ;一個理想嘅學習演算法會將啲參數變成 ideal value(指標數值最低化)嘅數值。

模擬退火[編輯]

內文: 模擬退火
  • 模擬退火(simulated annealing):爬山演算法嘅一個變種;喺每步當中,最簡單嘅模擬退火演算法會考慮周圍嘅可能 值嘅 值,foreach 呢啲 值,將佢個 ±s,當中 s 係一個隨機俾嘅數值(溫度值),然後個演算法會再按邊個 嘅(±s 後) 數值比較接近理想數值,決定參數要變成邊個可能 值-噉做嘅話,個演算法唔會咁易企喺一個地區性最細或者地區性最大嗰度唔郁,但因為 比較近理想數值嘅 會比較大機會被選中,所以經過好多步之後,個演算法最後得出嗰個 值好有可能會係 值理想嘅[112]。一段用模擬退火嘅虛擬碼如下[113]
 Input:
   ProblemSize,
   iteration, // 重複幾多次
   max_temp, // 最大溫度值
 Output:
   S_best // 最佳嘅參數值
 
 Initialize:
   S_current = CreateInitialSolution(ProblemSize); // 將現時參數值設做隨機數值。
   S_best = S_current; // 暫時當最佳參數值係現時數值。
 
 for (i = 1 to iteration)
   S_i = CreateNeighborSolution(S_current); // 搵 S_current 周圍嘅參數值。
   current_temp = CalculateTemperature(i, max_temp); //「現時溫度」由 i 同 max_temp 話事。
   if Cost(S_i) < Cost(S_current) // 如果 S_i 嘅指標值靚過 S_current 嘅...
     S_current = S_i;
     if Cost(S_i) < Cost(S_best) // 如果 S_i 嘅指標值靚過 S_best 嘅...
       S_best = S_i;
     end
   else if (Exp[((Cost(S_current) - Cost(S_i)) / current_temp]) > rand()
   // 當中 rand() 係一個隨機產生嘅數值;隨住 current_temp 變細,呢個 elseif 發生嘅機會率會愈嚟愈細。
     S_current = S_i;
 end
 
 return S_best; // 最後就將 S_best 俾出嚟做輸出。
模擬退火嘅一個示範;Y 軸係需要最大化嗰個指標,X 軸係參數,隨住溫度值慢慢下降,參數值漸趨穩定。幅圖有好多地區性最大,所以用單純嘅爬山演算法好可能會搞唔掂。

機械學習[編輯]

內文: 機械學習

機械學習(machine learning,簡稱「ML」)係人工智能嘅一個子領域,專門研究點樣設計一啲特殊嘅演算法嚟去教電腦喺唔使個用家開口俾明文指示嘅情況下,學識有效噉樣做一啲特定嘅作業。機械學習成日會用統計學嘅技術,典型做法如下[114][115]:p. 2

  1. 編寫一個程式,教部電腦點樣由數據嗰度建立一個統計模型嚟描述佢對啲變數之間嘅關係嘅知識;
  2. 搵啲樣本數據(即係所謂嘅「訓練數據」)返嚟,俾個程式處理吓啲數據入面嘅個案,等部電腦按個程式建立一個數學模型;跟住
  3. 喺將來再撞到同類個案嗰時,部電腦就會曉按佢個程式,用建立咗嗰個模型,對呢啲之前未見過嘅個案作出預測-個設計者唔使明文噉教部電腦點樣應對呢啲前所未見嘅個案,部電腦都會有能力一定程度上應對。

喺最簡單嘅監督式學習裏面,個程式會計吓,用佢個數學模型()計嘅「預想輸出」同實際嘅輸出差幾遠,按照呢個誤差調較自己個數學模型嘅參數(),。呢個過程用虛擬碼表達係[115]

讀取事前處理完嘅數據

建立一個數學模型 y要預測嘅變數寫成 x用嚟做預測嘅變數嘅函數

逐個逐個噉讀取數據入面嘅個案for 每一個個案
    按照個數學模型同個個案嘅 x 計出預想嘅 y 
    計吓預想中嘅 y 個數據所顯示嗰個個案嘅實際 y 差幾遠
    按呢個誤差計吓個模型要點樣改

# 如果一切順利,讀取嗮所有數據之後,最後嗰個數學模型會能夠做有返噉上下準嘅預測。

ML 理論[編輯]

睇埋:運算學習論
  • 學習(learning):最廣義上指一個具有認知能力嘅系統(人等有智能嘅動物同人工智能呀噉)按經驗調整自己內部嘅世界觀或者行為嘅過程,簡單嘅例子有一個人喺隻手俾個煮食爐辣親一次之後,下次會識唔好搵手掂個爐;比較複雜嘅例子有一個人喺度練射籃,佢每次射籃都做一啲動作,嘗試入波,然後佢會見到「做呢啲動作嘅結果」(入定唔入),按照結果判斷個動作係咪一個好(能夠幫佢達到目的)嘅行動,並且調整自己嘅下一個動作;學習嘅過程會涉及個認知系統內部嘅參數)起變化,令到輸入(刺激)同輸出(行為)之間嘅關係改變[116]
  • 運算學習論(computational learning theory):專門研究機械學習演算法嘅表現嘅電腦科學子領域[117]
    • 概念(concept):指若干個個案嘅抽象化,例如一個人腦睇咗好多件相似嘅物件,嗰柞物件件件都唔同樣,不過佢發覺嗰啲物件冚唪唥都有樹幹等嘅特徵,於是佢個腦就產生咗「」嘅概念。家陣想像
      • 呢個包含咗 件需要將佢哋分類嘅物件(例:當中有啲係樹有啲唔係),個認知系統要將呢啲物件分辨邊啲係樹邊啲唔係-output 有 1(係)同 0(唔係)兩個可能值;一個概念 嘅一個子集,分類後 會包含所有 output 值係 1 嘅 (所有屬於樹嘅個案),而 當中唔屬 output 值係 0(所有唔屬於樹嘅個案)[118]
  • N-gram:指一串符號,,當中嘅一連 n 個符號;想像有串 100 個符號(LLLRLRRRLL...),一個 3-gram 演算法會考慮每串連續三個符號係乜嘢樣(LLL, LLR, LRL...;123, 234, 345...),再按打前嗰兩個符號嘅規律計算下一個符號最有可能係乜,例:打前嗰兩個符號係 LL,而根據已有數據,已知兩個符號係 LL,下一個符號最有可能會係乜[119]。精確啲講,即係話一個 n-gram 模型會用 嘅數值預測 ,計算:
  • 等級 N-gram(hierarchical N-gram):指個演算法包含幾個唔同嘅 N-gram 演算法[121]
 有若干個 N-gram 演算法;
 有某啲機制決定幾時用邊個演算法。
  • 窗大細(window size):泛指一個會「睇一串時間上先後嘅數據」嘅演算法所睇嘅一串數據有幾長;例如一個用 N-gram 做法嘅演算法可能係會睇之前嗰 50 個符號做判斷,噉呢個演算法嘅窗大細就係 50。一個 ML 演算法嘅表現同佢嘅窗大細好多時唔係單純嘅正比或者反比[122]
  • 假說(hypothesis):指一個可以由個演算法產生出嚟嘅可能模型[123]
  • 假說空間(hypothesis space):指一個演算法嘅假說嘅;假說空間嘅豐富度(richness)反映咗個演算法嘅能耐,例如有兩個用嚟做迴歸分析(regression)嘅機械學習演算法,A 同 B,A 淨係曉處理線性嘅迴歸模型,而 B 曉處理線性同非線性嘅關係(B 嘅假說空間比較豐富),假設第啲因素不變,B 嘅能耐高過 A [123]
  • Python:廿一世紀初常用嚟做機械學習嘅一種程式語言,有好多可以俾用家操控陣列陳述式[124]
  • 超參數(hyperparameter):指喺機械學習過程當中由設計者設定嘅參數,相對於由機械學習演算法決定嘅模型參數數值。
  • 特徵提取(feature extraction):係指由數據數值嗰度計一啲新數值出嚟,而新數值可以內含有用嘅資訊,例如一個人工神經網絡由輸入層嗰 12 粒細胞嘅啟動程度值(數據數值)計跟住嗰層隱藏層嗰 8 粒細胞嘅啟動程度值(新數值),就係一個特徵提取過程[125]

事前數據處理[編輯]

一個典型嘅數據庫;當中每一個直行代表一個變數,每一個橫行代表一個個案,個數據庫會有每個個案喺各變數上嘅數值。
內文: 事前數據處理

事前數據處理(data preprocessing)係攞到數據之後要做嘅第一個步驟。喺搜集數據嘅過程之後,個研究者手上會有一個數據庫,個數據庫嘅數據包含咗每一個個案喺每個變數上嘅數值。現實嘅搜集數據過程都係唔完全受控嘅,所以搜集到嘅數據幾乎梗會出啲錯,例如係某幾個個案喺某個變數上嘅數值量度唔到(即係所謂嘅缺失數據)或者有啲擺明冇可能嘅數值(例:有個個案喺「年齡」呢個變數嘅數值係負數),等等。呢啲噉嘅數據直接攞去分析嘅話好多時會搞到個程式出錯,所以做機械學習嘅人喺開始俾個程式做學習之前往往會做啲事前處理先[126][127]

  • 陣列(array):指由若干件相同類型嘅數據所組成嘅數據結構,例如係 實數或者係 字串等等。一個陣列可以有多個一個維度,而喺現實應用上,通常一個分析者會用一個二維嘅陣列表示要分析嘅數據[註 5],例:
  • 呢個陣列喺 C 程式語言當中係 int a[3][3] = {{3, 6, 2}, {0, 1, -4}, {2, -1, 0}}; [128]
  • 缺失數據(missing data):指因為數據搜集嘅過程當中,因為受訪者對問題嘅遺漏、拒絕回答、又或者係啲調查員犯嘅疏忽等原因,而造成數據當中有啲位冇相應嘅數值。基本上做親機械學習個數據庫都梗會有啲缺失數據,而係做機械學習嘅程式語言當中,一件缺失咗嘅數據通常會用 NaNPython)或者類似嘅字眼代表[129]
  • 平均中間化(mean centering):應付多重共線性(睇上面)嘅一種方法;指 foreach 個案,將嗰個個案喺個變數上嘅數值,減個變數嘅平均值,令到成個數據庫喺嗰個變數嘅平均值變成 0 [130]
  • 特徵選擇(feature selection):係指「由手上嘅變數當中揀選一個子集嘅出嚟,建立有用嘅模型」嘅過程;噉做係因為喺實際應用上,數據庫往往有好多個變數,當中淨係其中一啲變數會有用[131]

學習範式[編輯]

喺建立咗一個數學模型之後,個程式就要以某啲方法慢慢噉改變個模型啲參數-係迴歸模型或者支援向量機嘅話,就要執條線嘅式嗰啲系數;係人工神經網絡嘅話,就要執啲神經細胞之間嘅權重值... 等等,目的係最後達致一個能夠準確噉做預測同決策嘅模型-就好似人類同第啲動物嘅學習過程噉樣。喺機械學習上,呢個過程可以用好多演算法做,而呢啲演算法可以分幾大類[132][133]

  • 監督式學習(supervised learning):指個數據庫有講明乜嘢係預想嘅 output,要個演算法以做到「合乎預想 output」為目標。
  • 非監督式學習(unsupervised learning):指個數據庫冇講明乜嘢係預想嘅 output
  • 強化學習(reinforcement learning):指俾個演算法自行同(現實或者虛擬嘅)世界互動,並且按互動嘅結果改變自身個模型嘅參數。
  • 遺傳演算法(genetic algorithm,簡稱「GA」):一種建基於物競天擇嘅一種學習方法;根據物競天擇上,一個族群內部嘅生物個體(例如一群人類)彼此之間或多或少噉喺遺傳上有差異,呢啲差異會引致佢哋喺表現型(包括外表、行為、同體質等)上有個體差異,當中佢哋有啲生存同繁殖會比較叻,所以就更加有機會將自己啲遺傳基因傳俾下一代;假設環境唔變,個族群就會一代一代噉喺遺傳上有變異,變到愈發適合喺嗰個環境生存同繁衍。遺傳演算法就係受呢個理論啟發嘅一種演算法,做法如下[134][135]
    1. 整一大柞同類嘅數學模型出嚟,當中每個啲參數都有唔同;
    2. 叫每個數學模型做若干次嘅預測,每個按佢做預測陣時嘅準確度得返個分數 ,分數愈高表示佢表現愈好;
    3. 揀選分數 最高嗰柞模型,將其餘嘅模型淘汰;
    4. 做「繁殖」嘅過程-用最高分嗰柞模型做「父母」,生產下一代嘅模型。啲仔喺參數上會似佢哋嘅父母(「每個仔嘅每粒參數」都係「佢父母嘅同位參數」嘅函數);
    5. 再做過上述過程,重複若干代;
    6. 如果一切順利,若干代之後手上嘅模型會係一啲預估估得啱嘅模型。

模型評估[編輯]

喺做完推論統計或者機械學習過程之後,就要評估吓最後得出嗰個模型好定唔好。要評一個模型係咪「好」,有以下指標使得[136][137]

  • 準確度(accuracy):最常用嚟評估模型嘅指標;即係喺做完分析或者學習之後,要個模型睇一啲佢之前未見過嘅個案,同埋要佢對嗰啲個案進行預測。譬如一個訓練嚟預測股價嘅機械學習程式噉,要評估佢嘅準確度,最好方法就係要佢預估吓一啲股價、係佢之前未見過嘅時間點嘅。如果個程式做嘅嘢係將個案分做離散(discrete)嘅類,準確度可以用以下嘅式計[138]
    係估啱咗幾多個個案;
    係個案嘅總數。
    • 自助抽樣法(bootstrapping);設個數據入面嘅個案數量係 n;個演算法會由啲數據度隨機抽一個個案出嚟,將個個案放入自助樣本(bootstrap sample),跟住再擺返第個個案入去抽過(即係所謂嘅邊替換邊抽樣 sampling with replacement),重複 n 次。最尾得出一個(可能有重複嘅)自助樣本,用個自助樣本做過測試。
    • K 次交叉驗證(K-fold cross-validation):隨機噉將數據嘅個案劏做 K 份(喺實際應用上,K 一個常見數值係 10);然後攞其中一份做測試,其餘啲份做學習-跟住逐份逐份過呢個過程。同一道理,都要使用某啲指標量度準確度[139]
  • 靈敏度同特異度(sensitivity and specificity):包括咗四個數值:
    • 歸啱咗啲陽性個案嘅真陽性率(True Positive Rate,TRP)
    • 歸啱咗啲陰性個案嘅真陰性率(True Negative Rate,TNR),同埋
    • 歸錯咗啲陽性個案嘅假陽性率(False Positive Rate,FRP)
    • 歸錯咗啲陰性個案嘅假陰性率(False Negative Rate,FNR)。
    • 亦都有啲設計者嫌呢啲數字淨係顯示到比例,所以喺寫論文同報告嗰陣會將啲比例嘅分子分母都報埋出嚟[140][141]
  • 訓練曲線(training curve / learning curve):指一條以「個機械學習程式表現有幾好」做 Y 軸、「總共讀取咗嘅個案數量」做 X 軸。訓練曲線喺機械學習研究上可以用嚟比較唔同嘅機械學習演算法嘅功效、用嚟睇吓個模型用乜嘢參數值比較好、或者係個程式有冇過適(overfitting)嘅問題等等[142]
  • 模型能耐(model capacity):一個機械學習模型 嘅能耐指佢能夠學解幾複雜嘅問題;要判斷一個模型嘅能耐一個可能方法係,用 個唔同複雜度嘅數學模型, 代表第 個呢啲模型,用每個 分別產生一柞數據,然後 foreach 模型出嘅數據,測試吓 有幾能夠學識對嗰個模型嘅輸出做準確預測-如果 能耐高,噉佢理應會無論 幾複雜都做到準確預測[143]
  • 複雜度
    • 演算法熵(algorithmic entropy),又有叫柯氏複雜性(Kolmogorov complexity):理論電腦科學同相關領域上用嚟量度一件物件嘅複雜度嘅一個指標,一件物件嘅演算法熵係指要產生嗰件物件嘅程式嘅最短可能長度[144][145]
      演算法熵以攞嚟比較唔同物件嘅複雜度。舉兩個簡單嘅例子說明,想像以下呢兩串符號:
      abababababababababababababababab(串 1)
      4c1j5b2p0cv4w1x8rx2y39umgw5q85s7(串 2)
      • 呢兩串符號長度一樣,但喺複雜度上唔同:串 1 可以描述為「將『ab』寫 16 次」,即係 write ab 16 times 噉嘅-段碼淨係用咗 17 個符號;相比之下,串 2 冇乜明顯嘅規律,唔能夠用一句嘢簡單噉描述嗮,所以要部電腦死記住 write 4c1j5b2p0cv4w1x8rx2y39umgw5q85s7 嘅碼-段碼有成 38 個符號。所以如果用演算法熵做準則嘅話,串 1 簡單過串 2。
  • A/B 測試(A/B testing):指比較兩種機械學習技巧,通常係比較一種已有技巧同一種新技巧。喺最簡單嘅情況下,研究者會攞兩個技巧做機械學習,然後比較吓兩者(喺各指標上)嘅表現[146]
  • 可詮釋性(interpretability):對於統計模型嚟講好重要嘅一種性質,指個模型有幾能夠俾人類理解所描述嘅現象背後嘅運作原理,呢個特性亦都係統計學同機械學習嘅主要分界;舉個例說明,家陣用統計分析整咗一個迴歸模型出嚟,個模型反映兩個變數之間成簡單嘅正比關係,呢個模型由人類嘅角度嚟睇相當易理解;相比之下,一個人工神經網絡就算能夠做到準確預測,個網絡「到底係用乜嘢邏輯做預測」呢點對人類嚟講依然係冇可能理解嘅。即係話,統計學嘅目的係由數據搵出可詮釋嘅模型,等人類能夠了解所研究嘅現象,而機械學習最重視嘅係做準確預測,會願意為咗做預測嗰陣嘅準確性同效率犧牲可詮釋性[147]

應用[編輯]

智商測驗入面成日都會有,考受試者辨別規律能力嘅題目;原則上,呢條題目嘅答啱率理應同智能正相關

統計學同機械學習上嘅知識有以下嘅應用價值:

  • 心理測量學(psychometrics):心理學嘅一個子領域,專研究點用統計學方法整一啲用嚟測量人嘅心智特徵(智能性格等)嘅心理測驗;呢啲心理測驗會俾心理學家用嚴謹嘅方法評定佢哋嘅信度(睇上面)同效度(睇上面),評定完覺得掂先會俾人採用[148][149]
  • 統計分類(statistical classification):指用統計方法將若干件物件分類,例如可以睇吓聚類分析[150]
  • 異常檢測(anomaly detection)
  • 推薦系統(recommendation system)
  • 電腦視覺(computer vision)
  • 人工情感智能(artificial emotional intelligence)
  • 數據探勘(data mining)
  • 擬亂數產生(pseudorandom number generation):指啲人嘗試用電腦產生一啲類似隨機(隨機嘅程度可以用統計學方法衡量)嘅數。呢一個課題喺密碼設計(睇密碼學)上好緊要,因為完全隨機嘅數字串係最難預測嘅,攞嚟做密碼最安全。但喺現實世界當中,電腦產生嘅嗰啲所謂隨機數字唔係真係隨機嘅,例如有好多電腦程式會噉樣做:個程式內置咗一條複雜嘅方程式,當用家要求佢產生一個隨機數字嗰陣,個程式會攞嗰一刻嘅時間做條方程式嘅輸入,再俾返所計出嚟嗰個數做輸出。如果條方程式夠複雜,佢所產生嘅數列望落會好似隨機嘅噉,但實際上呢串數字依然係跟住一啲決定性嘅法則運行嘅,做唔到真正嘅隨機[151]
  • 統計分類(statistical classification):指用機械學習將若干件物件分類;簡單例子有一個人工神經網絡,會攞描述件物件嘅特徵嘅數值做 input,並且俾出一個「呢件物件屬唔屬呢類物件」嘅二元數值做 output [152]
  • 偏好學習(preference learning):機械學習嘅一個子領域,研究點樣按觀察到嘅偏好相關資訊做預測。舉個簡單例子說明,想像一個用監督式學習人工神經網絡,以一件產品嘅特徵做 input,用家俾幾多分做 output,研究者搵一個數據庫(一柞數據,已知過往每件產品嘅特性同用家評分)做學習,令個網絡學識預測未來嘅產品會有點嘅用家評分。呢種技術喺產品設計上有用[153]
  • 自然語言處理(natural language processing):泛指教電腦處理自然語言嘅做法,可以用機械學習嚟做,例如係不斷噉俾個程式睇句子,並且將句子其中一個字遮住,然後要個程式估遮住咗嗰個字係乜,用佢估啱定估錯作為「正確」定「錯誤」嘅訊號做一個監督式學習[154]
  • 降維(dimension reduction):指減少手上考慮嘅隨機變數嘅數量嘅過程。常用嘅方法有用主成份分析睇吓邊個變數最能夠預測想預測嘅現象,再攞走預測力弱嘅變數[155]

註釋[編輯]

  1. 哈曼測試到咗 2020 年經已唔再俾人認為係一種可靠嘅做法。
  2. 如果個案數量係雙數,令到有兩個數喺中間,噉就攞嗰兩個數嘅平均數。
  3. 如果 ,否則
  4. 」意思係「 呢個入面」。
  5. Python 等機械學習上常用嘅程式語言會有好多陳述式專門俾用家做分割、結合以及用簡單法則更改陣列等嘅作業。「用簡單法則更改」嘅例子有「foreach 個個案,if 個個案嘅歲數大過 30,then 將個個案移走」-表示個研究者想淨係分析 30 歲或以下嘅後生仔女嘅數據。

睇埋[編輯]

參考文獻[編輯]

[編輯]

  1. Henk Tijms (2004). Understanding Probability. Cambridge Univ. Press.
  2. Moses, Lincoln E. (1986). Think and Explain with Statistics, Addison-Wesley. pp. 1–3.
  3. 3.0 3.1 Hays, William Lee, (1973). Statistics for the Social Sciences, Holt, Rinehart and Winston, p.xii.
  4. 4.0 4.1 4.2 William Feller, An Introduction to Probability Theory and Its Applications, (Vol 1), 3rd Ed, (1968), Wiley.
  5. 5.0 5.1 Miller, Scott; Childers, Donald (2012). Probability and Random Processes (Second ed.). Academic Press. p. 8. ISBN 978-0-12-386981-4. The sample space is the collection or set of 'all possible' distinct (collectively exhaustive and mutually exclusive) outcomes of an experiment."
  6. Olofsson (2005) p. 29.
  7. Olofsson (2005) p. 35.
  8. Mahmoodian, Ebadollah S.; Rezaie, M.; Vatan, F. (March 1987). "Generalization of Venn Diagram". Eighteenth Annual Iranian Mathematics Conference. Tehran and Isfahan, Iran.
  9. 9.0 9.1 Ash, Robert B. (2008). Basic probability theory (Dover ed.). Mineola, N.Y.: Dover Publications. pp. 66–69.
  10. 10.0 10.1 10.2 10.3 10.4 10.5 1941-, Çınlar, E. (Erhan) (2011). Probability and stochastics. New York: Springer. p. 51.
  11. 11.0 11.1 Bertsekas, Dimitri P. (2002). Introduction to Probability. Tsitsiklis, John N., Τσιτσικλής, Γιάννης Ν. Belmont, Mass.: Athena Scientific.
  12. Murphy, K. P. (2012). Machine learning: a probabilistic perspective, p. 35. MIT press.
  13. Ostrovski, Vladimir (May 2017). "Testing equivalence of multinomial distributions". Statistics & Probability Letters. 124: 77–82.
  14. Gallager, R.; van Voorhis, D. (March 1975). "Optimal source codes for geometrically distributed integer alphabets (Corresp.)". IEEE Transactions on Information Theory. 21 (2): 228–230.
  15. Haight, Frank A. (1967), Handbook of the Poisson Distribution, New York, NY, USA: John Wiley & Sons.
  16. 16.0 16.1 Johnson, Norman L.; Kotz, Samuel; Balakrishnan, N. (1994), "14: Lognormal Distributions", Continuous univariate distributions. Vol. 1, Wiley Series in Probability and Mathematical Statistics: Applied Probability and Statistics (2nd ed.), New York: John Wiley & Sons.
  17. Reed, William J.; et al. (2004). "The Double Pareto-Lognormal Distribution – A New Parametric Model for Size Distributions". Communications in Statistics – Theory and Methods. 33 (8): 1733–53.
  18. VAN MONTFORT, M.A.J. (1986). "The Generalized Pareto distribution applied to rainfall depths". Hydrological Sciences Journal. 31 (2): 151–162.
  19. Elfessi, Abdulaziz; Reineke, David M. (2001). "A Bayesian Look at Classical Estimation: The Exponential Distribution". Journal of Statistics Education. 9 (1).
  20. Manikandan, S (1 January 2011). "Frequency distribution". Journal of Pharmacology & Pharmacotherapeutics. 2 (1): 54–55.
  21. Deisenroth,Faisal,Ong, Marc Peter,A Aldo, Cheng Soon (2019). Mathematics for Machine Learning. Cambridge University Press. p. 181.
  22. 22.0 22.1 Ali, Mir M. (1980). "Characterization of the Normal Distribution Among the Continuous Symmetric Spherical Class". Journal of the Royal Statistical Society. Series B (Methodological). 42 (2): 162–164.
  23. Spanos, Aris (1999). Probability Theory and Statistical Inference. New York: Cambridge University Press. pp. 109–130.
  24. 24.0 24.1 MacGillivray, HL (1992). "Shape properties of the g- and h- and Johnson families". Communications in Statistics - Theory and Methods. 21: 1244–1250.
  25. 25.0 25.1 Dinov, Ivo; Christou, Nicolas; Sanchez, Juana (2008). "Central Limit Theorem: New SOCR Applet and Demonstration Activity". Journal of Statistics Education. ASA. 16 (2).
  26. Hazewinkel, Michiel, ed. (2001) [1994], "Joint distribution", Encyclopedia of Mathematics, Springer Science+Business Media B.V. / Kluwer Academic Publishers.
  27. Golub, Gene F.; van der Vorst, Henk A. (2000), "Eigenvalue computation in the 20th century", Journal of Computational and Applied Mathematics, 123 (1–2): 35–65.
  28. Lescroël, A. L.; Ballard, G.; Grémillet, D.; Authier, M.; Ainley, D. G. (2014). Descamps, Sébastien (ed.). "Antarctic Climate Change: Extreme Events Disrupt Plastic Phenotypic Response in Adélie Penguins". PLoS ONE. 9 (1): e85291.
  29. 29.0 29.1 29.2 29.3 Mulholland, H., & Jones, C. R. (2013). Fundamentals of statistics. Springer.
  30. 30.0 30.1 Clarkson, K. L., & Shor, P. W. (1989). Applications of random sampling in computational geometry, II. Discrete & Computational Geometry, 4(5), 387-421.
  31. Ken Black (2004). Business Statistics for Contemporary Decision Making (Fourth (Wiley Student Edition for India) ed.). Wiley-India.
  32. Messner SF (1992). "Exploring the Consequences of Erratic Data Reporting for Cross-National Research on Homicide". Journal of Quantitative Criminology. 8 (2): 155–173.
  33. Mangel, Marc; Samaniego, Francisco (June 1984). "Abraham Wald's work on aircraft survivability". Journal of the American Statistical Association. 79 (386): 259–267.
  34. Patricia M. Shields and Nandhini Rangarajan. 2013. A Playbook for Research Methods: Integrating Conceptual Frameworks and Project Management. Stillwater, OK: New Forums Press.
  35. Abramson, J.J. and Abramson, Z.H. (1999). Survey Methods in Community Medicine: Epidemiological Research, Programme Evaluation, Clinical Trials (5th edition). London: Churchill Livingstone/Elsevier Health Sciences.
  36. Likert, Rensis (1932). "A Technique for the Measurement of Attitudes". Archives of Psychology. 140: 1–55.
  37. Robins, Richard; Fraley, Chris; Krueger, Robert (2007). Handbook of Research Methods in Personality Psychology. The Guilford Press. pp. 228.
  38. 38.0 38.1 Between-Subjects vs. Within-Subjects Study Design.
  39. Dunning, Thad (2012). Natural experiments in the social sciences : a design-based approach. Cambridge: Cambridge University Press.
  40. Kirk, R. E. (2012). Experimental design. Handbook of Psychology, Second Edition, 2.
  41. Hinkelmann, Klaus; Kempthorne, Oscar (2008). Design and Analysis of Experiments, Volume I: Introduction to Experimental Design (2nd ed.). Wiley.
  42. Stevens, S. S. (7 June 1946). "On the Theory of Scales of Measurement". Science. 103 (2684): 677–680.
  43. Michell, J (1986). "Measurement scales and statistics: a clash of paradigms". Psychological Bulletin. 100 (3): 398–407.
  44. K.D. Joshi, Foundations of Discrete Mathematics, 1989, New Age International Limited, [1], page 7.
  45. Podsakoff, P.M.; MacKenzie, S.B.; Lee, J.-Y.; Podsakoff, N.P. (October 2003). "Common method biases in behavioral research: A critical review of the literature and recommended remedies". Journal of Applied Psychology. 88 (5): 879–903.
  46. 46.0 46.1 Carmines, E. G., & Zeller, R. A. (1979). Reliability and validity assessment (Vol. 17). Sage publications.
  47. 47.0 47.1 American Educational Research Association, Psychological Association, & National Council on Measurement in Education. (1999). Standards for Educational and Psychological Testing. Washington, DC: American Educational Research Association.
  48. Cronbach, Lee J.; Meehl, Paul E. (1955). "Construct validity in psychological tests". Psychological Bulletin. 52 (4): 281–302.
  49. Campell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56, 81-105
  50. Gravetter, Frederick J.; Forzano, Lori-Ann B. (2012). Research Methods for the Behavioral Sciences (4th ed.). Belmont, Calif.: Wadsworth. p. 78.
  51. 51.0 51.1 Data, C. E., & Using Descriptive Statistics Bartz, A. E. (1988). Basic statistical concepts. New York: Macmillan. Devore, J., and Peck.
  52. NIST/SEMATECH e-Handbook of Statistical Methods. "1.3.6.4. Location and Scale Parameters". www.itl.nist.gov. U.S. Department of Commerce.
  53. Cox, D. R.; Lewis, P. A. W. (1966). The Statistical Analysis of Series of Events. London: Methuen.
  54. Benjamini, Y. (1988). "Opening the Box of a Boxplot". The American Statistician. 42 (4): 257–262.
  55. statistical analysis.
  56. 56.0 56.1 Myers, Jerome L.; Well, Arnold D.; Lorch Jr., Robert F. (2010). "Developing fundamentals of hypothesis testing using the binomial distribution". Research design and statistical analysis (3rd ed.). New York, NY: Routledge. pp. 65–90.
  57. Adèr, H. J.; Mellenbergh, G. J. & Hand, D. J. (2007). Advising on research methods: A consultant's companion. Huizen, The Netherlands: Johannes van Kessel Publishing.
  58. Pillemer, D. B. (1991). "One-versus two-tailed hypothesis tests in contemporary educational research". Educational Researcher. 20 (9): 13–17.
  59. Hoenig; Heisey (2001). "The Abuse of Power". The American Statistician. 55 (1): 19–24.
  60. 60.0 60.1 Cohen, J.; Cohen P.; West, S.G. & Aiken, L.S. (2002). Applied multiple regression/correlation analysis for the behavioral sciences (3rd ed.). Psychology Press.
  61. 61.0 61.1 Rodgers, J. L.; Nicewander, W. A. (1988). "Thirteen ways to look at the correlation coefficient". The American Statistician. 42 (1): 59–66.
  62. Rice, John (2007). Mathematical Statistics and Data Analysis. Belmont, CA: Brooks/Cole Cengage Learning. p. 138.
  63. Aldrich, John (1995). "Correlations Genuine and Spurious in Pearson and Yule" (PDF). Statistical Science. 10 (4): 364–376.
  64. Baba, Kunihiro; Ritei Shibata; Masaaki Sibuya (2004). "Partial correlation and conditional correlation as measures of conditional independence". Australian and New Zealand Journal of Statistics. 46 (4): 657–664.
  65. Cureton, Edward E. (1956). "Rank-biserial correlation". Psychometrika. 21 (3): 287–290.
  66. Gubner, John A. (2006). Probability and Random Processes for Electrical and Computer Engineers. Cambridge University Press. p.388.
  67. Cox, D. R. (2006), Principles of Statistical Inference, Cambridge University Press. p. 178.
  68. 68.0 68.1 Similarities of Univariate & Multivariate Statistical Analysis.
  69. Huber-Carol, C.; Balakrishnan, N.; Nikulin, M. S.; Mesbah, M., eds. (2002), Goodness-of-Fit Tests and Model Validity, Springer
  70. Singh, R. (2009). Does my structural model represent the real phenomenon?: a review of the appropriate use of Structural Equation Modelling (SEM) model fit indices. The Marketing Review, 9(3), 199-212.
  71. Sarstedt, M. , Henseler, J. and Ringle, C. (2011), "Multi-group analysis in partial least squares (PLS) path modeling: alternative methods and empirical results", Advances in International Marketing, Vol. 22 No. 1, pp. 195-218.
  72. Takayama, Akira (1985). Mathematical Economics (2nd ed.). New York: Cambridge University Press. p. 61.
  73. 73.0 73.1 73.2 Lindley, D.V. (1987). "Regression and correlation analysis," New Palgrave: A Dictionary of Economics, v. 4, pp. 120–23.
  74. Friedman, J. H. (1991). "Multivariate Adaptive Regression Splines". The Annals of Statistics. 19 (1): 1–67.
  75. Farrar, Donald E.; Glauber, Robert R. (1967). "Multicollinearity in Regression Analysis: The Problem Revisited". Review of Economics and Statistics. 49 (1): 92–107.
  76. Stine, R. A. (1995). Graphical interpretation of variance inflation factors (PDF). The American Statistician, 49(1), 53-56.
  77. Stopping stepwise: Why stepwise selection is bad and what you should use instead. Towards Data Science.
  78. Hofmann, D. A., Griffin, M. A., & Gavin, M. B. (2000). The application of hierarchical linear modeling to organizational research.
  79. Hofmann, D. A., & Gavin, M. B. (1998). Centering decisions in hierarchical linear models: Implications for research in organizations. Journal of Management, 24(5), 623-641.
  80. Kaplan, D. (2008). Structural Equation Modeling: Foundations and Extensions (2nd ed.). SAGE. pp. 79-88.
  81. Vandenberg, Robert J.; Lance, Charles E. (2000). "A Review and Synthesis of the Measurement Invariance Literature: Suggestions, Practices, and Recommendations for Organizational Research". Organizational Research Methods. 3: 4–70.
  82. Pearl, Judea (May 2018). The Book of Why. New York: Basic Books. p. 6.
  83. Edwards, Harold M. (1995). Linear Algebra. Springer. p. 78.
  84. Gagniuc, Paul A. (2017). Markov Chains: From Theory to Implementation and Experimentation. USA, NJ: John Wiley & Sons. pp. 1–235.
  85. Hyvärinen, Aapo (2013). "Independent component analysis: recent advances". Philosophical Transactions: Mathematical, Physical and Engineering Sciences. 371 (1984): 20110534.
  86. Child, Dennis (2006), The Essentials of Factor Analysis (3rd ed.), Continuum International.
  87. Polit DF Beck CT (2012). Nursing Research: Generating and Assessing Evidence for Nursing Practice, 9th ed. Philadelphia, USA: Wolters Klower Health, Lippincott Williams & Wilkins.
  88. Jolliffe, I. T. (1986). Principal Component Analysis. Springer Series in Statistics. Springer-Verlag.
  89. 89.0 89.1 Cho, E. (2016). Making reliability reliable: A systematic approach to reliability coefficients. Organizational Research Methods, 19(4), 651–682.
  90. Green, S. B., & Yang, Y. (2009). Commentary on coefficient alpha: A cautionary tale. Psychometrika, 74(1), 121–135.
  91. Neyman, J. (1937) "Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability", Philosophical Transactions of the Royal Society of London A, 236, 333–380.
  92. 92.0 92.1 D.V. Lindley: Statistical Inference (1953) Journal of the Royal Statistical Society, Series B, 16: 30-76.
  93. Rossi, Richard J. (2018). Mathematical Statistics : An Introduction to Likelihood Based Inference. New York: John Wiley & Sons. p. 227.
  94. Rosenthal, G. & Rosenthal, J. (2011). Statistics and Data Interpretation for Social Work. Springer Publishing Company.
  95. MacKinnon, D. P. (2008). Introduction to Statistical Mediation Analysis. New York: Erlbaum.
  96. Baron, R. M. and Kenny, D. A. (1986) "The Moderator-Mediator Variable Distinction in Social Psychological Research – Conceptual, Strategic, and Statistical Considerations", Journal of Personality and Social Psychology, Vol. 51(6), pp. 1173–1182.
  97. Aiken, L. S., West, S. G., & Reno, R. R. (1991). Multiple regression: Testing and interpreting interactions. Sage.
  98. Dardas, L. A., & Ahmad, M. M. (2015). For fathers raising children with autism, do coping strategies mediate or moderate the relationship between parenting stress and quality of life? (PDF). Research in developmental disabilities, 36, 620-629.
  99. Pearl, J., (2009). Simpson's Paradox, Confounding, and Collapsibility. In Causality: Models, Reasoning and Inference (2nd ed.). New York : Cambridge University Press.
  100. Thabane, L., Mbuagbaw, L., Zhang, S., Samaan, Z., Marcucci, M., Ye, C., ... & Debono, V. B. (2013). A tutorial on sensitivity analyses in clinical trials: the what, why, when and how. BMC medical research methodology, 13(1), 92.
  101. 101.0 101.1 Exploring generalization, specialization, and dependency in OOP. InfoWorld.
  102. 102.0 102.1 Lee, Y. W.; Cheatham, T. P., Jr.; Wiesner, J. B. (1950). "Application of Correlation Analysis to the Detection of Periodic Signals in Noise". Proceedings of the IRE. 38 (10): 1165–1171.
  103. Gill, P. E.; Murray, W.; Wright, M. H. (1982). Practical Optimization. London: Academic Press.
  104. Horowitz, Ann R. (1987). "Loss functions and public policy". Journal of Macroeconomics. 9 (4): 489–504.
  105. Russell, Stuart J.; Norvig, Peter (2003), Artificial Intelligence: A Modern Approach (2nd ed.), Upper Saddle River, New Jersey: Prentice Hall, pp. 111–114.
  106. Hill Climbing Algorithms (and gradient descent variants) IRL.
  107. addy, Matt (2019). "Stochastic Gradient Descent". Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions. New York: McGraw-Hill. pp. 303–307.
  108. Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (8 October 1986). "Learning representations by back-propagating errors". Nature. 323 (6088): 533–536.
  109. Polyak, Boris T.; Juditsky, Anatoli B. (1992). "Acceleration of stochastic approximation by averaging". SIAM J. Control Optim. 30 (4): 838–855.
  110. Local Maxima and Minima, and, Absolute Maxima and Minima.
  111. Nolle, L. (2006). On a hill-climbing algorithm with adaptive step size: towards a control parameter-less black-box optimisation algorithm. In Computational Intelligence, Theory and Applications (pp. 587-595). Springer, Berlin, Heidelberg.
  112. Kirkpatrick, S.; Gelatt Jr, C. D.; Vecchi, M. P. (1983). "Optimization by Simulated Annealing". Science. 220 (4598): 671–680.
  113. Simulated Annealing. Clever Algorithms: Nature-Inspired Programming Recipes.
  114. The definition "without being explicitly programmed" is often attributed to Arthur Samuel, who coined the term "machine learning" in 1959, but the phrase is not found verbatim in this publication, and may be a paraphrase that appeared later. Confer "Paraphrasing Arthur Samuel (1959), the question is: How can computers learn to solve problems without being explicitly programmed?" in Koza, John R.; Bennett, Forrest H.; Andre, David; Keane, Martin A. (1996). Automated Design of Both the Topology and Sizing of Analog Electrical Circuits Using Genetic Programming. Artificial Intelligence in Design '96. Springer, Dordrecht. pp. 151–170.
  115. 115.0 115.1 Bishop, C. M. (2006), Pattern Recognition and Machine Learning, Springer.
  116. Daniel L. Schacter; Daniel T. Gilbert; Daniel M. Wegner (2011) [2009]. Psychology, 2nd edition. Worth Publishers. p. 264.
  117. Angluin, D. 1992. Computational learning theory: Survey and selected bibliography. In Proceedings of the Twenty-Fourth Annual ACM Symposium on Theory of Computing (May 1992), pages 351–369.
  118. COMPUTATIONAL LEARNING THEORY.
  119. Millington, I. (2019). AI for Games. CRC Press. p. 582 - 584.
  120. Brown, P. F., Desouza, P. V., Mercer, R. L., Pietra, V. J. D., & Lai, J. C. (1992). Class-based n-gram models of natural language. Computational linguistics, 18(4), 467-479.
  121. Millington, I. (2019). AI for Games. CRC Press. p. 588 - 589.
  122. Millington, I. (2019). AI for Games. CRC Press. p. 586 - 587.
  123. 123.0 123.1 Encyclopedia of Machine Learning, H (PDF).
  124. Why Is Python So Good for AI, Machine Learning and Deep Learning?.
  125. Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (September 2020). "Optimization of data-driven filterbank for automatic speaker verification". Digital Signal Processing. 104.
  126. Pyle, D., 1999. Data Preparation for Data Mining. Morgan Kaufmann Publishers, Los Altos, California.
  127. Chicco D (December 2017). "Ten quick tips for machine learning in computational biology". BioData Mining. 10 (35): 1–17.
  128. Garcia, Ronald; Lumsdaine, Andrew (2005). "MultiArray: a C++ library for generic programming with arrays". Software: Practice and Experience. 35 (2): 159–188.
  129. Messner SF (1992). "Exploring the Consequences of Erratic Data Reporting for Cross-National Research on Homicide". Journal of Quantitative Criminology. 8 (2): 155–173.
  130. Iacobucci, D., Schneider, M. J., Popovich, D. L., & Bakamitsos, G. A. (2016). Mean centering helps alleviate "micro" but not "macro" multicollinearity. Behavior research methods, 48(4), 1308-1317.
  131. Intro to User Analytics. Gamasutra.
  132. Ojha, Varun Kumar; Abraham, Ajith; Snášel, Václav (2017-04-01). "Metaheuristic design of feedforward neural networks: A review of two decades of research". Engineering Applications of Artificial Intelligence. 60: 97–116.
  133. Ting Qin, et al. "A learning algorithm of CMAC based on RLS." Neural Processing Letters 19.1 (2004): 49–61.
  134. Goldberg, David E.; Holland, John H. (1988). "Genetic algorithms and machine learning". Machine Learning. 3 (2): 95–99.
  135. Michie, D.; Spiegelhalter, D. J.; Taylor, C. C. (1994). "Machine Learning, Neural and Statistical Classification". Ellis Horwood Series in Artificial Intelligence.
  136. Metrics to Evaluate your Machine Learning Algorithm. Towards Data Science.
  137. Various ways to evaluate a machine learning model’s performance. Towards Data Science.
  138. Kohavi, Ron (1995). "A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection". International Joint Conference on Artificial Intelligence.
  139. Rodriguez, J. D., Perez, A., & Lozano, J. A. (2009). Sensitivity analysis of k-fold cross validation in prediction error estimation. IEEE transactions on pattern analysis and machine intelligence, 32(3), 569-575.
  140. Altman DG, Bland JM (June 1994). "Diagnostic tests. 1: Sensitivity and specificity". BMJ. 308 (6943): 1552.
  141. Pontius, Robert Gilmore; Si, Kangping (2014). "The total operating characteristic to measure diagnostic ability for multiple thresholds". International Journal of Geographical Information Science. 28 (3): 570–583.
  142. How to use Learning Curves to Diagnose Machine Learning Model Performance.
  143. Why my ML model is not working?. Towards Data Science.
  144. Kolmogorov, Andrey (1963). "On Tables of Random Numbers". Sankhyā Ser. A. 25: 369–375.
  145. Kolmogorov, Andrey (1998). "On Tables of Random Numbers". Theoretical Computer Science. 207 (2): 387–395.
  146. Kohavi, Ron; Longbotham, Roger (2017). "Online Controlled Experiments and A/B Tests". In Sammut, Claude; Webb, Geoff (eds.). Encyclopedia of Machine Learning and Data Mining. Springer.
  147. The Actual Difference Between Statistics and Machine Learning. Towards Data Science.
  148. Robert F. DeVellis (2016). Scale Development: Theory and Applications. SAGE Publications.
  149. Jackson, C. J. (2009). Jackson-5 scales of revised Reinforcement Sensitivity Theory (r-RST) and their application to dysfunctional real world outcomes. Journal of Research in Personality, 43(4), 556-569.
  150. Peter Mills (2011). "Efficient statistical classification of satellite measurements". International Journal of Remote Sensing. 32 (21): 6109–6132.
  151. Gentle J.E. (2003), Random Number Generation and Monte Carlo Methods, Springer.
  152. Peter Mills (2011). "Efficient statistical classification of satellite measurements". International Journal of Remote Sensing. 32 (21): 6109–6132.
  153. G. N. annakakis. Preference Learning for Affective Modeling. In Proceedings of the Int. Conf. on Affective Computing and Intelligent Interaction, pages 126–131, Amsterdam, The Netherlands, September 2009. IEEE.
  154. Incredible evolution journey of NLP models !!. DataToBiz.
  155. Boehmke, Brad; Greenwell, Brandon M. (2019). "Dimension Reduction". Hands-On Machine Learning with R. Chapman & Hall. pp. 343–396.

[編輯]