心理測量學

出自維基百科,自由嘅百科全書
跳去導覽 跳去搵嘢
智商測驗入面成日都會有,考受試者辨別規律能力嘅題目;原則上,呢條題目嘅答啱率理應同智能有正相關

心理測量學粵拼sam1 lei5 caak1 loeng4 hok6英文psychometrics),粵文又叫心理統計學,係心理學一個子領域,專門研究點樣設計心理測驗(psychological test)以及心理測驗背後嘅理論:喺嚴格嘅心理學上,「心理測驗」定義係指攞嚟量度心理變數嘅架生,即係用嚟量度智能性格等嘅嘢嘅架生冚唪唥都屬心理測量學嘅範疇[1][2];同一般坊間嗰啲心理測驗唔同嘅係,心理測量學上嘅心理測驗會俾心理學家用嚴謹嘅方法評定佢哋嘅信度(reliability)同效度(validity)-信度指用嗰個方法對一樣嘅現象進行重複觀察之後係咪可以得到相同嘅結果,而效度係指個方法有幾量度到佢理應要量度嗰樣嘢-評定完覺得掂先會俾人採用[3][4]

舉個簡單例子說明,想像以下嘅研究:研究者想整一個可以攞嚟做社科研究嘅心理測驗,呢個心理測驗係要量度一個人有幾容易(量度性格)嘅;佢整咗個心理測驗嗰 40 條題目,搵若干位受試者返嚟答個測驗啲問題,跟住要受試者玩隻電子遊戲,再做主成份分析(PCA)等嘅統計分析,睇吓心理測驗話佢哋容易驚嗰啲受試者係咪真係比較容易(喺隻遊戲入面)一遇到危險就走佬-「一遇到危險就驚同走佬」嘅行為係個測驗理應要量度嘅嘢,所以份研究係喺度評估個心理測驗嘅效度[5]

心理測量學設計嘅架生相當有用:呢啲架生喺第啲心理學子領域上可以用嚟量度想研究嘅變數[6],又有各種嘅應用價值,例如智商測驗(IQ test)喺教育上就可以用嚟評估一個學生應該要點教[7]。因為噉,心理測量學俾好多人認為係心理學嘅一個重要貢獻[1]

基礎[編輯]

量度[編輯]

人與人之間喺行為、認知同情緒等嘅心理特性上有個體差異。
內文: 量度

心理測量學建基於兩點:

  • 「人與人之間喺行為認知情緒等嘅心理特性上有個體差異」呢個不證自明嘅事實;而且
  • 心理測量學相信呢啲差異係有可能客觀量度嘅。

社科當中,量度(measurement)可以定義為「按照某啲規則,將數值加落去物件或者事件之上」(英文原文:The assignment of numerals to objects or events according to some rule),用嚟描述件物件或者事件嘅某啲特性,即係例如物理學上一個溫度計會對每一個佢量度到嘅熱度俾一個相應嘅數值(溫度),心理測量上嘅量度(心理測驗)同一道理會用數值描述心理變數嘅每個可能數值,例如係用智商(IQ)數值嚟描述一個個體嘅智能(intelligence)[8]

層次[編輯]

內文: 量度層次

量度層次(level of measurements)係量度上嘅一個重要概念,意思係指量度可以分做四大層次[8][9]

  • 名目(nominal),指一啲淨係俾到「類別」呢種資訊嘅量度方法,冇得比較大細,更加唔可以攞嚟做算術上嘅運算,例:語言廣東話普通話英文等);
  • 次序(ordinal),喺名目量度之上,冇得計,但有一定嘅順序或者大細,例:一場運動比賽之中選手嘅名次(第一、第二、第三等等);
  • 等距(interval),喺次序量度之上,冇得計,但量度到嘅數值有一個恆定嘅計量單位,即係話數值之間嘅差距可以比較大細(例:0.5 同 0.6 之間嘅距離等同 0.6 同 0.7 之間嘅距離),所以可以計加減,例:攝氏溫度-「攝氏 100 度同 50 度之間嘅差距等如攝氏 50 同 0 度之間嘅差距」係一句有意義嘅嘢;同埋
  • 等比(ratio),喺等距量度之上,有一個特定嘅零值,做到乘除嘅運算,例:攝氏溫度就算個數值係 0 都唔等如「冇熱度」,相反「蘋果嘅數量」(假設研究者對「蘋果」呢個詞有明確定義)就係一個等比量度,因為「0 個蘋果」真係表示「冇蘋果」,攝氏 100 度唔係真係攝氏 50 度兩倍咁熱-前者同絕對零度嘅差距並唔等如後者同絕對零度嘅差距嘅兩倍,而「兩斤蘋果」真係等如「一斤蘋果」嘅兩倍咁多咁重。

一般嚟講,研究者會想自己用嘅量度方法嘅層次有咁高(接近等比)得咁高[8]

詞源[編輯]

心理測量學嘅英文名「psychometrics」係「psycho-」同「metrics」嘅結合,前者源自古希臘文當中嘅「psykho-」,意思係「心靈」或者「精神」噉解,而後者係指「用嚟做量度嘅系統」-所以「psychometrics」呢個字可以理解為「量度心靈同精神嘅特性」嘅學問,直譯就係「心理測量學」[10]

重要概念[編輯]

睇埋:統計學

古典測試理論[編輯]

內文: 古典測試理論

古典測試理論(classical test theory)係描述量度過程嘅一個基本理論:古典測試理論主張,每當一個研究者想量度一個受試者喺心理變數 上嘅數值嗰陣,個受試者喺變數 上都有一個真分數(true score,),不過量度嘅過程梗會有啲帶有隨機性誤差(error,),例如係受試者答智商測驗嘅其中一條題目嗰時分咗吓心,搞到佢本來答到嘅題目變成答錯咗,所以觀察分數(observed score,)就會係[11][12]

而根據古典測試理論,一個量度方法嘅信度(reliability,)可以由以下嘅數值反映:

當中

  • 係指 變異數(variance;簡單講就係啲個體喺 上嘅數值分得有幾散)。
  • 係指 嘅變異數。

可以睇埋將古典測試理論廣義化項目反應理論(item response theory)-項目反應理論係一系列嘅數學模型,會好似古典測試理論噉,將心理測驗上嘅分數表達成心理測驗量度緊嘅嘢嘅函數,解釋潛在特徵(latent trait)同實際觀察到嘅數據(心理測驗上嘅分數)之間嘅關係[13]

因素分析[編輯]

因素嘅想像圖;家陣研究者想量度 呢個睇唔到嘅因素(例如智能),於是就俾受試者做個測驗,有 咁多條題目,... ,當中每條題目都有個誤差值 以及 簡單講係反映嗰條題目嘅得分同 有幾強相關)。
內文: 因素分析

因素分析(factor analysis)係一系列用嚟將大量變數轉化成少量因素(factor)嘅統計方法。因素分析有好多種做,不過做法一般都係由若干個直接觀察到嘅變數嗰度推想一個能夠解釋呢啲變數嘅變化嘅因素出嚟,而最後得出呢個因素能夠一定程度上反映嗰柞變數嘅變化[14]。舉個基於古典測試理論嘅例子說明:

  1. 想像家陣手上個數據庫有若干個被觀察咗(observed)嘅隨機變數 ,而呢柞變數嘅平均值係
  2. 想像有 冇被觀察到(latent;數值冇直接被紀錄落去數據庫嗰度)嘅隨機變數 (呢柞 係所謂嘅因素)[註 1]
  3. 喺做因素分析前, 嘅數值係未知,而因素分析嘅目的就係要搵出以下呢啲式當中嘅參數:
[註 2];當中
係參數;
誤差,平均值係 0,而變異數係一個有限數值,唔同 變異數數值可以唔同[15]

因素分析喺心理測量學上極之常用:一個心理測驗會有若干條題目,而設計個測驗嘅人一般會嘗試用統計模型模擬個測驗嘅因素結構(factor structure);舉個例說明,而家有一個智商測驗,測驗有 50 條題目,當中頭 25 條題目量度邏輯能力,而尾嗰 25 條題目量度語言能力,即係話呢個測驗理論上有兩個因素-邏輯能力同語言能力;而頭嗰 25 條題目理論上應該會係邏輯能力()嘅函數而非語言能力()嘅函數-由量度邏輯能力嗰 25 條題目當中是但攞一條嘅分數 嚟睇,,而 ,當中 係數值有方法估計嘅系數(coefficient)[註 3][16][17]

卡隆巴系數[編輯]

內文: 卡隆巴系數

卡隆巴系數(Cronbach's alpha,)係心理測量學上成日用嚟衡量一個心理測驗嘅信度(睇下面)嘅數值。想像家陣有個心理測驗,有 咁多條題目,而呢 條題目冚唪唥都係量度緊一個因素(例如 10 條題目量度邏輯能力),研究者搵人做個測驗攞到數據之後,個測驗嘅卡隆巴系數()條式如下[18][19]

,當中
係指每對題目之間嘅協方差(covariance)嘅平均值
指「啲題目嘅變異數(variance)嘅總和」加埋「題目之間嘅協方差總和」;即係話
(有關呢啲數學符號嘅意思,可以睇吓加總);

如果卡隆巴系數數值大(接近 1)嘅話,就表示呢柞題目嘅變異數主要源自佢哋之間嘅協方差,簡單講就係表示「呢柞題目之間嘅變異數主要係由佢哋之間嘅相關引起嘅」而唔係源於佢哋各自獨立嘅變異-所以如果一柞題目嘅卡隆巴系數數值大,研究者就更有理由相信呢柞題目係量度緊同一個隱藏因素[18]。喺實際應用上,一般數值超過 0.65 嘅卡隆巴系數算係「可以當呢柞變數係量度同一個隱藏因素」,而高過 0.8 嘅就會當係量度同一個隱藏因素[18]。有關變異數同相關等嘅概念,可以睇吓基本嘅統計學

例子
附表 1 嘅協方差矩陣

舉個簡單例子說明,家陣有個心理測驗得四條題目,,四條題目都預佢哋量度緊同一個因素,而附表 1 係攞咗數據之後得到嘅協方差矩陣(covariance matrix)-協方差矩陣係一種數據表達方法,用一個矩陣表達每對變數之間嘅協方差,例如附表 1 嗰個矩陣就顯示 之間嘅協方差係 ,而對角線當中嘅係每個變數嘅變異數,例如附表就顯示 嘅變異數係 。用附表 1 嗰個矩陣嘅數據計嘅話,呢個四條題目嘅心理測驗嘅卡隆巴系數係:

適合度[編輯]

內文: 適合度

適合度(goodness of fit / model fit)喺統計學上係指一個統計模型有幾合乎觀察到嘅數據:用返頭先嗰個 50 條題目兩個因素嘅智商測驗嚟做例子,喺設計好啲題目之後,個設計者就要收數據(搵受試者做個測驗),收完做因素分析,睇吓啲受試者喺個測驗上嘅得分係咪真係好似佢預想嘅噉,望落似係由兩個隱藏因素話事-要睇吓「個測驗有兩個因素,當中頭嗰 25 條題目反映第一個因素,尾嗰 25 條題目反映第二個因素」呢一個統計模型嘅適合度如何[20]適合度指標(fit indices)就係指一啲用嚟衡量一個統計模型嘅適合度嘅指標數值;廿一世紀嘅統計學界有好多種適合度指標,而用統計技術做研究嘅人會按照自己嘅情況選擇用乜嘢指標衡量手上嘅統計模型[21]

心理測驗[編輯]

一個人填緊份問卷;問卷調查係俾人做心理測驗嘅常見方法。
內文: 心理測驗

基本設計流程[編輯]

設計一個心理測驗(psychological test)嘅基本步驟如下[22][23]

  • 定義要量度嘅建構(construct;指一柞頗此之間相關嘅行為,例如「答啱數學問題」同「答啱語言問題」都係智能嘅體現),然後基於已知嘅理論,諗吓呢個建構可以點樣量度;一般心理學同社科上都會係俾一柞題目受試者答。
  • 實際攞數據-搵班受試者返嚟,要佢哋答個測驗嘅問題;攞到數據之後就做因素分析同計卡隆巴系數(睇上面),睇吓受試者喺啲題目上嘅得分係咪真係好似預想中嘅噉;即係例如整一個智商測試(量度智能嘅心理測驗),攞完數據之後做因素分析,睇吓啲得分係咪真係成預想中「測試邏輯能力嘅題目分數成一個因素、測試語言能力嘅題目分數成一個因素...」噉嘅因素結構。
  • 按照呢啲統計分析嘅結果,執靚個測驗佢,例如如果有某啲題目唔靚、統計分析發現佢唔能夠被歸做任何一個因素,噉就將條題目由個測驗嗰度攞走。
  • 用各種方法評估個測驗嘅信度效度(睇下面)。
  • 如果個測驗達標(卡隆巴系數夠靚,而且過到嗮其他信度同效度測試... 等等),噉就攞去發表。

評估方法[編輯]

廿一世紀心理測量學嘅兩個重要概念係信度效度:信度同效度係兩種用嚟衡量一種量度方法掂唔掂嘅基準;喺設計一個心理測驗嗰陣,研究者實要用各種方法評估個測驗嘅信度同效度-心理測量學者做嘅研究基本上多數都係噉,用各種方法評估個心理測驗嘅信度同效度[1][24]

信度[編輯]

內文: 信度

信度(reliability)指用一個量度方法對一個現象用嗰個方法進行重複觀察之後,係咪可以得到相同嘅數值;正路嚟講,如果一個量度方法係可信(reliable)嘅,噉無論何時何地何人用嗰個方法量度同一樣嘢,都理應會得到相同嘅數值[2][3]。常用嘅信度指標有以下呢啲:

  • 評分者間信度(inter-rater reliability):用嚟評估一個量度有幾受做量度嘅人影響;例如有一個俾教育家用嚟評估細路學習進度嘅方法,但做完研究發現,五位教育家分別噉用同一個方法評估同一班細路,五個得到完全唔同嘅數值,噉呢個量度方法嘅評分者間信度就低[25]
  • 重測試信度(test-retest reliability):用嚟評估一個量度方法有幾受時間影響;例如有一個俾心理學家用嚟量度智商嘅測驗,做研究,搵班受試者返嚟做個測驗,得到一柞分數 ,然後過咗一個月之後,搵返班受試者返嚟又做過,得到另一柞分數 ;一般認為智商冇乜可能會喺一個月之內改變嘅,如果 差異好大,就表示呢個測驗嘅重測試信度低。
  • 內部一致度(internal consistency):指一個有多條題目嘅量度方法有幾「係量度緊同一樣嘢」;例如有一個智商測驗,有 50 條題目,理論上,呢啲題目冚唪唥都係量度緊智商,所以彼此之間理應喺得分上有返咁上下正相關,但研究發現,嗰 50 條題目當中有 5 條零舍係同其餘嗰啲題目有負相關,噉心理學家就好可能會要求攞走嗰 5 條題目(佢哋似乎唔係量度緊智商,所以唔應該擺喺一個智商測驗入面),變成一個 45 條題目嘅測驗。睇返卡隆巴系數

... 等等。

效度[編輯]

內文: 效度

效度(validity)指一個量度方法有幾量度到佢理應要量度嗰樣嘢;一個有效嘅量度方法真係量度緊研究者想佢量度嗰個變數;例如如果一個方法信度高、但效度低,就表示個量度方法能夠準確噉量度某個變數,但佢所量度嗰個變數並唔係研究者想佢量度嗰個[2][3]。常用嘅效度指標有以下呢啲:

  • 建構效度(construct validity):指一個概念嘅量度有幾合乎理論上嘅定義;例如理論上,智商測驗係量度智能嘅,而智能理論一般認為,智能包含一個個體解難嘅能力,所以一個智商測驗理應會考驗受試者嘅解難能力;建構效度嘅評估一般都係比較理論化嘅[26]
  • 效標效度(criterion validity):通常用嚟評估心理測驗嘅效度嘅一個指標,指個測驗嘅分數同俾人認為代表要量度嗰個變數有幾強相關;例如一個設計嚟量度一個人有幾外向嘅心理測驗,研究者搵咗班受試者返實驗室做個測驗,知道每位受試者嘅分數,然後喺實驗室入面觀察每位受試者有幾常主動同人講嘢或者互動(呢啲行為反映外向程度),再做一個相關嘅分析,睇吓測驗分數係咪真係同受試者做外向行為嘅次數有正相關。
  • 分歧效度(discriminant validity):指一個量度方法有幾「唔量度到理應唔啦更嘅變數」;例如一個智商測驗理應係量度緊智商,而唔係身高,如果一個一個智商測驗入面其中一條題目同個人嘅身高有正相關而且同身高嘅相關強過同其餘題目嘅相關,噉就似乎表示呢條題目量度身高多過量度智商,分歧效度低。
  • 內容效度(content validity):指一個量度方法有幾能夠涵蓋嗮佢要量度嗰樣嘢嘅各個方面;例如智能一般包括邏輯語言等多種嘅認知能力,所以一個理想嘅智商測驗理應要量度嗮以上嘅各種認知能力。
  • 聚合效度(convergent validity):指一個量度方法有冇同一啲理論上同佢有相關嘅嘢有預期中嘅相關;例如智能理論上會同時影響一個人嘅邏輯能力同語言能力,所以邏輯能力同語言能力理論上應該會有返咁上下正相關[27]
  • 表面效度face validity):指一個量度方法就噉望落有幾合乎佢理應要量度嘅嘢,通常話「一個量度方法有表面效度」喺正式科研上唔會俾人接受[28]

... 等等。

比喻[編輯]

喺心理測量學上,學者好多時會用射箭比喻信度同效度。箭靶嘅中心代表想量度嘅變數,射中代表量度得到個變數[29]

  • 信度同效度都低可以比喻為射嘅箭乜都射唔中-件量度俾唔到可靠嘅數值,更加唔好話量度到啲乜嘢有用嘅嘢;
  • 信度高但效度低可以比喻為射嘅箭準確噉次次都射中同一個點,但射唔中中心點-件量度架生俾到可靠嘅數值,但根本唔係量度緊研究者想量度嗰樣嘢;
  • 信度同效度兼備可以比喻為射嘅箭準確噉次次射中個靶嘅中心點-件量度架生俾到可靠嘅數值,而且正係量度緊想量度嗰樣嘢。

智商測驗[編輯]

心理測量學上常用嘅常態分佈;呢條線用 0 代表平均嘅數值。
內文: 智商測驗

智商測驗(IQ test)係量度智能(intelligence)嘅心理測驗。喺嚴格嘅認知科學上,智能嘅定義有些少含糊,包括思考、對邏輯嘅運用、理解自我意識理性計劃創意解難等等嘅認知功能都俾人認定係量度智能嘅重要指標。而喺最廣義上嚟講,智能可以定義為「一個智能體感知同推斷資訊(information)、將呢啲資訊儲起同化為知識、並且運用知識適應環境嘅能力」[30][31]。廿世紀同廿一世紀初嘅智商測驗一般做法係,要求受試者答若干條考驗各種認知功能嘅題目,並且靠搵出受試者喺呢啲題目上嘅分數(智商),表示每一位受試者嘅智能有幾高[32][33]

一條簡單嘅智商測驗題目如下[32][33]

 喺呢個數列入面嘅下一個數字應該係乜?
 37, 34, 31, 28,
 // 一般嚟講,正確答案係 25,因為呢個數列係「每個數字係之前嗰個減 3

因為一般認為「能夠搵出事物之間嘅法則」係智能嘅體現,所以「答啱呢條題目」嘅行為可以反映「智能」呢一個心理建構[34]

實證嘅智商研究帶出咗一般智能因素g-factor)嘅概念:研究表明,一個個體喺唔同認知作業上嘅表現有明顯嘅正相關-即係話喺某個認知功能上勁過平均嘅人,傾向(但唔一定)會喺第啲認知功能上都勁過平均,而喺某個認知功能上弱過平均嘅人,傾向(但唔一定)會喺第啲認知功能上都弱過平均;於是有心理學家提出,一個心靈會具有一個「一般智能因素」,呢個因素獨力主宰住一個認知系統喺認知能力上嘅普遍表現。而及後嘅心理測量研究發現,人與人之間嘅唔同認知能力差異平均大約有成 40 至 50% 嘅都係源自一般智能因素上嘅差異嘅。呢柞研究確立咗個諗法-人心靈當中的確有某個因素單獨反映個人「有幾聰明」嘅[35][36]

智商嘅概念仲同鐘形曲線(bell curve)息息相關。鐘形曲線係統計學上常用嘅一個概念,指一條反映常態分佈(normal distribution)嘅曲線:是但攞一個變數 嚟睇,如果話 係跟常態分佈,意思係話出現得最頻密嘅 數值會係個平均數),而離平均數愈遠嘅數值就愈少會出現;常見可以用常態分佈模擬嘅變數有人嘅智商-多數人嘅智商數值都傾向於平均數(100),而愈極端嘅數值(極高或者極低)就愈少出現。而如果將一個常態分佈畫做圖,當中 X 軸表示 嘅每個可能數值,而 Y 軸表示嗰個數值嘅出現頻率,就會形成一條鐘噉形嘅線[37]

性格測驗[編輯]

一份用李卡特量表嘅問卷
內文: 性格測驗

性格測驗(personality test)係指量度性格嘅心理測驗。喺嚴格心理學上,性格係指一個個體特有(即係同第啲個體唔同)嘅行為情緒或者認知特性:想像一個人,佢可以想像成一個會由刺激俾反應嘅系統,而人係有個體差異嘅生物物種;就算接收嘅刺激完全一樣,唔同人都可能會有唔同反應[38][39],例如外向度高嘅人喺見到新朋友(刺激)嗰陣,比較有可能會作出「主動行埋去結識」嘅反應,而外向度低嘅人喺同一個情況下會「主動行埋去結識」嘅機會就比較低[40]

廿世紀性格測驗嘅常見做法係用李卡特量表(Likert scale),指每一條題目都係一句句子,而受試者要做嘅係睇每條題目,用數字答自己有幾同意嗰句句子講嘅嘢[41]。例如量度一個人有幾容易嘅李卡特式性格測驗望落會似係噉嘅[5]

 If approached by a suspicious stranger, I run away.(翻譯:「如果有個可疑嘅陌生人行埋嚟,我會走佬。」)
 If the fire alarm rings, I immediately rush out of the building.(翻譯:「如果火警鐘響,我會即刻跑出去棟建築物外面。」)
 每一條題目受試者都係要填一個 1 至 5 嘅數字,當中 1 分表示好唔同意嗰句句子,5 分表示好同意,3 分表示中立。
 ...

假設多數受試者都係願意同有能力俾準確資訊嘅話,呢個性格測驗上嘅分數理應會一定程度上噉反映[註 4]一個人幾容易驚。呢類性格測驗雖然話唔係完全靠得住,但經已相當有用-例如有個能夠「多數時候都準確噉量度」到外向度嘅問卷,而研究又發現外向度喺某啲情況下能夠預測一個員工嘅工作表現,噉呢個問卷就會喺管理上就有可能可以攞嚟幫手度請員工上嘅考量[42]

唔靠自我報告[編輯]

睇埋:自我報告研究

廿世紀嘅心理測量學好依賴受試者答問題:廿世紀嘅智商測驗同性格測驗都需要俾人量度佢心理特性嗰個人答研究者問嘅問題,而研究者會用受試者喺呢啲問題上嘅得分評估佢;呢種方法被指有漏洞-要受試者答問題係假設咗受試者願意同有能力同研究者合作,呢個假設喺一般情況下能夠大致成立,但如果研究者想研究嘅係(例如)人嘅反社會行為(anti-social behavior;指傷害其他人或者忽視其他人利益嘅行為),研究者就有理由相信受試者會因為唔想俾人知佢哋做嘅衰嘢而唔老實作答[43]。因為噉,廿一世紀嘅心理測量學界開始多咗嘗試用唔使靠受試者作答嘅方法做心理測量[44][45]

喺社科上,非自我報告測驗可以係靠受過訓嘅研究員做觀察(observation)。舉個簡單例子,想像一個教育心理學家,研究者想量度「學生喺課堂上花幾多時間做老師要佢哋做嘅作業」,佢可以首先定義好乜嘢係「做緊老師要佢哋做嘅作業」,然後請研究員幫手去課室實際觀察學生嘅行為,數住每個受觀察嘅學生「花幾多時間做老師要佢哋做嘅作業」-喺成個過程入面,研究者做到量度啲學生(受試者)嘅行為(心理特性),而且由始至終都冇要求啲學生答研究者嘅問題[46][47]

非人嘅心理測量[編輯]

強化學習嘅抽象圖解;任何智能體(agent)嘅學習都可以想像成「係噉作出行動、行動影響環境、環境由觀察器(interpreter)睇到、而觀察器話俾個智能體知行動嘅結果係點」嘅過程。

動物[編輯]

睇埋:動物認知

實證嘅研究表明咗,喺人以外嘅動物當中都有「同一物種嘅個體之間有個體差異」嘅現象,而呢啲個體差異都有可能會影響一隻動物嘅適應能力:想像而家擺五隻老鼠喺一個箱入面,然後研究員播放嘅叫聲俾佢哋聽;正常嘅老鼠會出現戰鬥定逃走反應(fight-or-flight response),但唔同嘅個體會有差異-有啲老鼠喺聽到貓叫聲會即刻走佬,有啲要喺貓叫聲大啲嗰陣先會走佬... 等等[48],因為噉,心理測量學界就有咗個諗頭,想將心理測量呢家嘢廣義化(generalize)去人以外嘅動物嗰度[49]

動物認知(animal cognition)嘅研究有思考點樣將智商測試廣義化去非人動物嗰度:比較心理學等嘅領域會有興趣比較唔同物種嘅行為,所以會想(例如)諗出一套可以喺任何動物物種身上使用嘅智能量度方法,用嚟比較唔同動物物種嘅智能;不過,人以外嘅動物唔會曉好似人噉答問題,所以呢類研究一般會採用行為量度嘅方法,使用操作制約(operant conditioning)嘅方法,睇吓動物喺有充足動機嘅情況下,能唔能夠學識解決複雜嘅問題,例如係擺隻動物喺一個實驗室入面,俾個掣同一盞燈佢哋,佢哋要喺每次盞燈著嗰陣都即刻撳個掣先會有嘢食(嘢食係動機),靠好似噉嘅方法評估動物嘅學習能力;如果用返一般智能因素嘅邏輯嚟思考嘅話,一隻動物喺唔同學習作業上嘅表現(以「成功過關攞到嘢食」嘅機會率量度)理應會有統計相關[50][51],而呢一個假說喺多個物種當中經已得到實證嘅研究支撐[52][註 5][53]

機械[編輯]

睇埋:通用心理測量

人工智能(artificial intelligence,AI)泛指由機械所展示嘅智能,相對於人同第啲動物所展示嘅自然智能(natural intelligence)。人工智能相關嘅研究會嘗試教機械做推理知識表示計劃學習自然語言處理以及郁同操控物體等嘅作業,呢啲研究嘅其中一個終極目標係想創造出強人工智能(strong AI)-即係能夠展現出同人無異嘅智能嘅 AI [54]。有廿一世紀初嘅人工智能領域嘅科學家提出咗通用心理測量(universal psychometrics)嘅諗頭,指可以用嚟量度任何智能體(包括人嘅心靈同人工智能等)嘅認知特性嘅測量方法[55]

以下嘅概念都被指可以攞嚟做通用心理測量嘅指標:

  • 圖靈測試(Turing test):即係攞個人工智能同一個人類受試者,再加一個人類評判,睇吓評判喺睇唔到兩個受試者嘅情況下,能唔能夠用對答嘅型式分辨邊一個係人邊一個係人工智能。一般認為,如果一個人工智能做到以假亂真,就算係達到同人類智能無異。原則上,圖靈測試可以攞嚟比較兩個人或者兩隻動物都得[56]
  • 強化學習(reinforcement learning):即係要個人工智能程式係噉同佢周圍嘅環境互動(個環境可以係現場,又可以係一個模擬嘅環境)-喺每個時間點 ,程式會產生一個用數字表示嘅動作(例如 0 代表「企喺度唔郁」同 1 代表「向前行」呀噉),而跟住佢周圍個環境會俾回輸(feedback)-簡單講就係話返俾個程式聽,佢個動作啱唔啱(例如個地下有個窿,「向前行」會跌得好痛)。而個程式跟手會用機械學習演算法改變自己嘅行為[57]。原則上,「攞個受試者喺一個環境入面,睇吓佢點樣學識適應個環境」喺人同第啲動物身上都可以做[55]
  • 複雜度(complexity)嘅預測:例如擺一隻動物喺一個實驗室入面,有 個掣俾佢撳,而呢 個掣會首先以一啲特定規律閃,閃完之後,隻動物就要撳「按嗰個規律,下一個會閃嘅掣」先可以有嘢食-即係話隻動物需要了解啲掣閃嘅規律同預測下一個會閃嘅掣係乜;規律嘅複雜度可以由實驗者輕易噉控制同量化(可以睇吓柯氏複雜度;Kolmogorov complexity),而類似噉嘅測試喺人同人工智能身上都有可能做[58]

... 等等。

歷史背景[編輯]

法蘭西斯·高爾頓嘅相,19 世紀中
睇埋:心理學史

心理測量學呢個領域背景源於 19 世紀嘅英國德國[59]

英國情況[編輯]

睇埋:進化論

喺英國嘅心理測量學研究係受查理斯·達爾文(Charles Darwin)嘅研究啟發嘅。喺 1859 年,達爾文出版咗佢嗰本名作《物種起源》(On the Origin of Species),喺書入面提出物競天擇(natural selection)嘅概念,指出喺一個族群嘅生物當中會有個體差異,因為(例如)強壯啲或者聰明啲而比較擅長生存繁殖嘅個體會比較大機會能夠將自己身上(令擁有者強壯聰明)嘅基因(gene)傳俾下一代,於是個生物族群嘅基因庫(gene pool;指個族群當中有嘅基因)就會一代代噉有變化-即係個族群會進化(evolve)[60][61]。物競天擇呢個諗頭包含「同一個生物物種內部會有個體差異(individual difference)」,而呢點刺激咗同達爾文同年代嘅心理學家法蘭西斯·高爾頓(Francis Galton;亦係達爾文嘅表弟)嘅思考,令高爾頓開始諗人同人之間嘅個體差異,以及係呢啲差異要點量度[59]

高爾頓佢做研究並且寫書分享佢嘅研究所得。佢指出,人與人之間喺智能體能等方面有個體差異,而呢點令佢哋當中有啲比較適合生存同繁殖,而佢所研究嘅某啲變數,例如係反應時間,成為咗現代心理學研究上嘅重要工具;佢仲作出咗多項嘗試,想製作出能夠有效噉量度智能嘅架生-係現代智商測試(IQ test)嘅先驅,吸引咗第啲心理學家仿傚同幫手擴充佢嘅研究,而高爾頓亦都因而俾人稱為「心理測量學之父」[59][62]

德國情況[編輯]

睇埋:心理物理學

另一方面,心理物理學(psychophysics)研究喺 19 世紀嘅德國進行得如火如荼。心理物理學係心理學嘅一個子領域,專門研究刺激嘅物理性質(例如係亮度頻率呀噉)會點樣影響呢啲刺激所造成嘅感受同體驗,例如一個心理物理學家會嘗試要佢嘅受試者聽幾個頻率唔同嘅聲,並且睇吓個受試者對呢幾個聲嘅體驗以及俾嘅反應有乜嘢唔同[63]。心理物理學上嘅研究引起咗「心理體驗係有可能客觀噉量度」嘅諗法,而且心理物理學上嘅理論仲有啟發心理測量方面嘅諗頭,例如有心理測量學研究者認為量度受試者對唔同物理特性嘅刺激嘅反應(心理物理學用嘅分析方法)可以幫手做心理測量[59]

常用統計分析[編輯]

睇埋:概率及統計學詞彙表

註釋[編輯]

  1. 」意思係「 呢個入面」。
  2. 即係好似古典測試理論所講嘅噉,觀察分數由真分數同誤差決定。
  3. 可以睇吓迴歸分析(regression analysis)。
  4. 原則上,好似人類呢啲噉嘅複雜系統本質上就永遠會有不確定性喺度,所以任何嘅心理測量架生頂櫳只會做到「多數時候啱用」,而唔會做到「喺所有個案當中啱用」。
  5. 不過研究指,有一啲物種嘅智能比較「分塊化」(modular),意思即係話呢啲物種嘅個體喺唔同認知作業上嘅表現嘅相關弱,好可能表示佢哋嘅認知系統冇咁似人噉,由一個統一嘅認知能力(g)控制。

睇埋[編輯]

參考文獻[編輯]

人工智能文獻[編輯]

[編輯]

  1. 1.0 1.1 1.2 Furr, R. M. (2017). Psychometrics: an introduction. Sage Publications.
  2. 2.0 2.1 2.2 Carmines, E. G., & Zeller, R. A. (1979). Reliability and validity assessment (Vol. 17). Sage publications.
  3. 3.0 3.1 3.2 American Educational Research Association, Psychological Association, & National Council on Measurement in Education. (1999). Standards for Educational and Psychological Testing. Washington, DC: American Educational Research Association.
  4. Robert F. DeVellis (2016). Scale Development: Theory and Applications. SAGE Publications.
  5. 5.0 5.1 Jackson, C. J. (2009). Jackson-5 scales of revised Reinforcement Sensitivity Theory (r-RST) and their application to dysfunctional real world outcomes (PDF). Journal of Research in Personality, 43(4), 556-569.
  6. Meier, S. T., & Davis, S. R. (1990). Trends in reporting psychometric properties of scales used in counseling psychology research. Journal of Counseling Psychology, 37(1), 113.
  7. Resnick, L. B. (1979). The future of IQ testing in education. Intelligence, 3(3), 241-253.
  8. 8.0 8.1 8.2 Stevens, S. S. (1946). On the theory of scales of measurement. Science, New Series, Vol. 103, No. 2684 (Jun. 7, 1946), pp. 677-680.
  9. Kirch, Wilhelm, ed. (2008). "Level of Measurement". Encyclopedia of Public Health. Springer. pp. 851–852.
  10. Psychometric. Online Etymology Dictionary.
  11. Novick, M.R. (1966). The axioms and principal results of classical test theory Journal of Mathematical Psychology Volume 3, Issue 1, February 1966, Pages 1-18
  12. Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. Holt, Rinehart and Winston, 6277 Sea Harbor Drive, Orlando, FL 32887.
  13. Embretson, Susan E.; Reise, Steven P. (2000). Item Response Theory for Psychologists. Psychology Press.
  14. Thompson, B.R. (2004). Exploratory and Confirmatory Factor Analysis: Understanding Concepts and Applications. American Psychological Association.
  15. Child, Dennis (2006), The Essentials of Factor Analysis (3rd ed.), Continuum International.
  16. Mayes, S. D., Calhoun, S. L., Bixler, E. O., & Zimmerman, D. N. (2009). IQ and neuropsychological predictors of academic achievement. Learning and Individual Differences, 19(2), 238-241.
  17. Kline, P. (2014). An easy guide to factor analysis. Routledge.
  18. 18.0 18.1 18.2 Cho, E. (2016). Making reliability reliable: A systematic approach to reliability coefficients. Organizational Research Methods, 19(4), 651–682.
  19. Green, S. B., & Yang, Y. (2009). Commentary on coefficient alpha: A cautionary tale. Psychometrika, 74(1), 121–135.
  20. Singh, R. (2009). Does my structural model represent the real phenomenon?: a review of the appropriate use of Structural Equation Modelling (SEM) model fit indices. The Marketing Review, 9(3), 199-212.
  21. Singh, R. (2009). Does my structural model represent the real phenomenon?: a review of the appropriate use of Structural Equation Modelling (SEM) model fit indices. The Marketing Review, 9(3), 199-212.
  22. Churchill, G. A., Jr. (1979). A paradigm for developing better measures of marketing constructs (PDF). Journal of Marketing Research, 16, 64-73.
  23. Kumar, V., & Nayak, J. K. (2018). Destination personality: Scale development and validation. Journal of Hospitality & Tourism Research, 42(1), 3-25.
  24. Nunnally, J.C. (1978). Psychometric theory (2nd ed.). New York: McGraw-Hill.
  25. McHugh, M. L. (2012). Interrater reliability: the kappa statistic. Biochemia medica: Biochemia medica, 22(3), 276-282.
  26. Cronbach, Lee J.; Meehl, Paul E. (1955). "Construct validity in psychological tests". Psychological Bulletin. 52 (4): 281–302.
  27. Campell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56, 81-105
  28. Gravetter, Frederick J.; Forzano, Lori-Ann B. (2012). Research Methods for the Behavioral Sciences (4th ed.). Belmont, Calif.: Wadsworth. p. 78.
  29. Souza, A. C. D., Alexandre, N. M. C., & Guirardello, E. D. B. (2017). Psychometric properties in instruments evaluation of reliability and validity. Epidemiologia e Serviços de Saúde, 26, 649-659.
  30. Wechsler, D. (1944). The measurement of adult intelligence. Baltimore: Williams & Wilkins.
  31. Kanazawa, S. (2004). General intelligence as a domain-specific adaptation. Psychological review, 111(2), 512.
  32. 32.0 32.1 Daniel, M. H. (1997). Intelligence testing: Status and trends. American psychologist, 52(10), 1038.
  33. 33.0 33.1 Snyderman, M., & Rothman, S. (1987). Survey of expert opinion on intelligence and aptitude testing. American Psychologist, 42(2), 137.
  34. What Do IQ Tests Test?: Interview with Psychologist W. Joel Schneider. Scientific American.
  35. Sternberg, R. J., & Grigorenko, E. L. (Eds.). (2002). The general factor of intelligence: How general is it?. Psychology Press.
  36. Colom, R., Jung, R. E., & Haier, R. J. (2006). Distributed brain sites for the g-factor of intelligence. Neuroimage, 31(3), 1359-1365.
  37. Ash, Robert B. (2008). Basic probability theory (Dover ed.). Mineola, N.Y.: Dover Publications. pp. 66–69.
  38. Corr, Philip J.; Matthews, Gerald (2009). The Cambridge handbook of personality psychology (1. publ. ed.). Cambridge: Cambridge University Press.
  39. John, O. P., Robins, R. W., & Pervin, L. A. (Eds.). (2010). Handbook of personality: Theory and research. Guilford Press.
  40. Eysenck, H. J. (Ed.). (2012). A model for personality. Springer Science & Business Media.
  41. Likert, Rensis (1932). "A Technique for the Measurement of Attitudes". Archives of Psychology. 140: 1–55.
  42. Blickle, G., Meurs, J. A., Wihler, A., Ewen, C., Merkl, R., & Missfeld, T. (2015). Extraversion and job performance: How context relevance and bandwidth specificity create a non-linear, positive, and asymptotic relationship. Journal of vocational behavior, 87, 80-88.
  43. Bennett, R. J., & Robinson, S. L. (2000). Development of a measure of workplace deviance. Journal of Applied Psychology, 85, 349 –360.
  44. Bing, M. N., LeBreton, J. M., Davison, H. K., Migetz, D. Z., & James, L. R. (2007). Integrating implicit and explicit social cognitions for enhanced personality assessment: A general framework for choosing measurement and statistical methods. Organizational Research Methods, 10, 346 –389
  45. Stone, E. F., & Stone, D. L. (1990). Privacy in organizations: Theoretical issues, research findings, and protection mechanisms. Research in Personnel and Human Resource Management, 8, 349–411.
  46. Hintze, J. M., & Matthews, W. J. (2004). The generalizability of systematic direct observations across time and setting: A preliminary investigation of the psychometrics of behavioral observation. School Psychology Review, 33(2), 258-270.
  47. Duff, P. A., & Van Lier, L. E. O. (1997). Approaches to Observation in Classroom Research; Observation From an Ecological Perspective. Tesol Quarterly, 31(4), 783-787.
  48. Smith, B. R., & Blumstein, D. T. (2008). Fitness consequences of personality: a meta-analysis. Behavioral Ecology, 19(2), 448-455.
  49. Shaw, R. C., & Schmelz, M. (2017). Cognitive test batteries in animal cognition research: evaluating the past, present and future of comparative psychometrics (PDF). Animal cognition, 20(6), 1003-1018.
  50. Boogert, N. J., Giraldeau, L. A., & Lefebvre, L. (2008). Song complexity correlates with learning ability in zebra finch males. Animal Behaviour, 76(5), 1735-1741.
  51. Locurto, C., Fortin, E., & Sullivan, R. (2003). The structure of individual differences in heterogeneous stock mice across problem types and motivational systems. Genes, Brain and Behavior, 2(1), 40-55.
  52. Galsworthy, M. J., Paya-Cano, J. L., Liu, L., Monleon, S., Gregoryan, G., Fernandes, C., ... & Plomin, R. (2005). Assessing reliability, heritability and general cognitive ability in a battery of cognitive tasks for laboratory mice. Behavior genetics, 35(5), 675-692.
  53. Amici, F., Barney, B., Johnson, V. E., Call, J., & Aureli, F. (2012). A modular mind? A test using individual data from seven primate species. PloS one, 7(12), e51918.
  54. Hutter, Marcus (2005). Universal Artificial Intelligence. Berlin: Springer.
  55. 55.0 55.1 Hernández-Orallo, J., Dowe, D. L., & Hernández-Lloreda, M. V. (2014). Universal psychometrics: Measuring cognitive abilities in the machine kingdom. Cognitive Systems Research, 27, 50-74.
  56. Saygin, A. P., Cicekli, I., & Akman, V. (2000). Turing test: 50 years later. Minds and machines, 10(4), 463-518.
  57. Dominic, S.; Das, R.; Whitley, D.; Anderson, C. (July 1991). "Genetic reinforcement learning for neural networks". IJCNN-91-Seattle International Joint Conference on Neural Networks. Seattle, Washington, USA: IEEE.
  58. Hernandez-Orallo, J. (2000). Beyond the Turing test (PDF). Journal of Logic, Language and Information, 9(4), 447-466.
  59. 59.0 59.1 59.2 59.3 Kaplan, R.M., & Saccuzzo, D.P. (2010). Psychological Testing: Principles, Applications, and Issues. (8th ed.). Belmont, CA: Wadsworth, Cengage Learning.
  60. Futuyma, Douglas J. Evolution. Sunderland, Massachusetts: Sinauer Associates, Inc. 2005.
  61. Kimura, Motoo. The neutral theory of molecular evolution: a review of recent evidence. The Japanese Journal of Human Genetics (Mishima, Japan: Genetics Society of Japan). 1991, 66 (4): 367–386.
  62. Cattell, J. M. (1928). Early psychological laboratories. Science, 67(1744), 543-548.
  63. Gescheider, G. (1997). Psychophysics: the fundamentals. Somatosensory & Motor Research. 14 (3rd ed.). pp. 181-188.

[編輯]