心理統計學

出自維基百科,自由嘅百科全書
Jump to navigation Jump to search
智商測驗入面成日都會有,考受試者辨別規律能力嘅題目;原則上,呢條題目嘅答啱率理應同智商有正相關

心理統計學粵拼sam1 lei5 tung2 gai3 hok6英文psychometrics)係心理學統計學嘅一個交界領域,專門研究點樣設計心理測驗同心理測驗背後嘅理論:喺學術上,「心理測驗」定義係泛指任何攞嚟量度心理行為變數嘅架生,即係用嚟量度智能態度性格等嘅嘢嘅架生冚唪唥都屬心理統計學嘅範疇[1][2]。同一般坊間嗰啲心理測驗唔同嘅係,心理統計學上嘅心理測驗會俾心理學家用嚴謹嘅方法評定佢哋嘅信度(reliability)同效度(validity)-傳統上,信度同效度係心理統計學上嘅兩大指標,信度係指用嗰個方法對同一個現象進行重複觀察之後,係咪可以得到相同嘅數值,而效度係指個方法有幾量度到佢理應要量度嗰樣嘢[3][4]

舉個例說明,想像以下嘅研究:研究者想整一個可以攞嚟做社科研究嘅心理測驗,呢個心理測驗係要量度一個人對恐懼幾敏感嘅(個測驗可以用嚟做有關性格點樣影響人生成就等嘅研究);佢整咗個心理測驗嗰 40 條題目,搵若干位受試者返嚟做個測驗,而望每一個受試者,又搵佢嘅一個朋友,叫個朋友用個測驗評估吓嗰一位受試者;打後做主成份分析等嘅多個統計分析,睇吓:

  • 每條題目由受試者填嘅分數同由佢朋友評嘅分數係咪有返咁上下強嘅正相關-如果受試者自己俾自己嘅分數同由朋友評嘅分數傾向好唔同,就反映個測驗有問題,因為個測驗嘅目的係要客觀噉評定一個人嘅性格(評分者間信度[5]
  • 每條題目嘅分數係咪同第啲心理測驗嘅有想像中嘅關係,例:有另外一個之前驗證咗嘅心理測驗,係量度一個人有傾向逃避問題嘅,研究者認為呢兩個概念理應會有相關,所以要班受試者答埋嗰個測驗,睇吓兩個測驗係咪一如預期中噉有相關(效標效度);
  • 仲可以做行為量度,睇吓個心理測驗係咪真係預測到實際行為,例:搵班受試者,要佢哋做個心理測驗,跟住要佢哋玩一隻電子遊戲,再量度吓心理測驗話佢對恐懼敏感嘅受試者係咪真係比較容易一遇到危險就走佬(都係效標效度)... 等等[6]

心理統計學所設計嘅架生相當有用:呢啲架生喺第啲心理學子領域上可以用嚟做科研[6][7],又有各種嘅應用價值,例如智商測驗教育上就可以用嚟評估一個學生應該要點教[8]。因為噉,心理統計學俾好多人認為係心理學嘅一個重要貢獻[1][2]

信度同效度[編輯]

廿一世紀心理統計學嘅兩大基礎概念係信度同效度:信度同效度係兩種用嚟衡量一種量度方法掂唔掂嘅基準;喺設計一啲心理量度架生嗰陣,研究者實會首先用各種方法評估個架生嘅信度同效度-心理統計學者做嘅研究基本上多數都係噉,用各種方法評估心理量度架生嘅信度同效度[1][2]

信度[編輯]

內文: 信度

信度(reliability)指對一個現象用嗰個方法進行重複觀察之後,係咪可以得到相同嘅數值;正路嚟講,如果一個量度方法係可信(reliable)嘅,噉無論何時何地何人用嗰個方法量度同一樣嘢,都理應會得到相同嘅數值[3][4]

  • 評分者間信度(inter-rater reliability):用嚟評估一個量度有幾受做量度嘅人影響;例如有一個俾教育家用嚟評估細路學習進度嘅方法,但做完研究發現,五位教育家分別噉用同一個方法評估同一班細路,五個得到完全唔同嘅數值,噉呢個量度方法嘅評分者間信度就低。
  • 重測試信度(test-retest reliability):用嚟評估一個量度方法有幾受時間影響;例如有一個俾心理學家用嚟量度智商嘅測驗,做研究,搵班受試者返嚟做個測驗,得到一柞分數 ,然後過咗一個月之後,搵返班受試者返嚟又做過,得到另一柞分數 ;一般認為智商冇乜可能會喺一個月之內改變嘅,如果 差異好大,就表示呢個測驗嘅重測試信度低。
  • 內部一致度(internal consistency):指一個有多條題目嘅量度方法有幾「係量度緊同一樣嘢」;例如有一個智商測驗,有 50 條題目,理論上,呢啲題目冚唪唥都係量度緊智商,所以彼此之間理應喺得分上有返咁上下正相關,但研究發現,嗰 50 條題目當中有 5 條零舍係同其餘嗰啲題目有負相關,噉心理學家就好可能會要求攞走嗰 5 條題目(佢哋似乎唔係量度緊智商,所以唔應該擺喺一個智商測驗入面),變成一個 45 條題目嘅測驗。

效度[編輯]

內文: 效度

效度(validity)指個方法有幾量度到佢理應要量度嗰樣嘢;一個有效嘅量度方法真係量度緊研究者想佢量度嗰個變數;例如如果一個方法信度高、但效度低,就表示個量度方法能夠準確噉量度某個變數,但佢所量度嗰個變數並唔係研究者想佢量度嗰個[3][4]

  • 建構效度(construct validity):指一個概念嘅量度有幾合乎理論上嘅定義;例如理論上,智商測驗係量度智能嘅,而智能理論一般認為,智能包含一個個體解難嘅能力,所以一個智商測驗理應會考驗受試者嘅解難能力;建構效度嘅評估一般都係比較理論化嘅[9]
  • 效標效度(criterion validity):通常用嚟評估心理測驗嘅效度嘅一個指標,指個測驗嘅分數同俾人認為代表要量度嗰個變數有幾強相關;例如一個設計嚟量度一個人有幾外向嘅心理測驗,研究者搵咗班受試者返實驗室做個測驗,知道每位受試者嘅分數,然後喺實驗室入面觀察每位受試者有幾常主動同人講嘢或者互動(呢啲行為反映外向程度),再做一個相關嘅分析,睇吓測驗分數係咪真係同受試者做外向行為嘅次數有正相關。
  • 分歧效度(discriminant validity):指一個量度方法有幾「唔量度到理應唔啦更嘅變數」;例如一個智商測驗理應係量度緊智商,而唔係身高,如果一個一個智商測驗入面其中一條題目同個人嘅身高有正相關而且同身高嘅相關強過同其餘題目嘅相關,噉就似乎表示呢條題目量度身高多過量度智商,分歧效度低。
  • 內容效度(content validity):指一個量度方法有幾能夠涵蓋嗮佢要量度嗰樣嘢嘅各個方面;例如智能一般包括邏輯語言等多種嘅認知能力,所以一個理想嘅智商測驗理應要量度嗮以上嘅各種認知能力。
  • 表面效度face validity):指一個量度方法就噉望落有幾合乎佢理應要量度嘅嘢,通常話「一個量度方法有表面效度」喺正式科研上唔會俾人接受[10]

射箭比喻[編輯]

喺心理統計學上,學者好多時會用射箭比喻信度同效度。箭靶嘅中心代表想量度嘅變數,射中代表量度得到個變數[11]

  • 信度同效度都低可以比喻為射嘅箭乜都射唔中-件量度俾唔到可靠嘅數值,更加唔好話量度到啲乜嘢有用嘅嘢;
  • 信度高但效度低可以比喻為射嘅箭準確噉次次都射中同一個點,但射唔中中心點-件量度架生俾到可靠嘅數值,但根本唔係量度緊研究者想量度嗰樣嘢;
  • 信度同效度兼備可以比喻為射嘅箭準確噉次次射中個靶嘅中心點-件量度架生俾到可靠嘅數值,而且正係量度緊想量度嗰樣嘢。

睇埋[編輯]

[編輯]

  1. 1.0 1.1 1.2 Furr, R. M. (2017). Psychometrics: an introduction. Sage Publications.
  2. 2.0 2.1 2.2 Robert F. DeVellis (2016). Scale Development: Theory and Applications. SAGE Publications.
  3. 3.0 3.1 3.2 Carmines, E. G., & Zeller, R. A. (1979). Reliability and validity assessment (Vol. 17). Sage publications.
  4. 4.0 4.1 4.2 American Educational Research Association, Psychological Association, & National Council on Measurement in Education. (1999). Standards for Educational and Psychological Testing. Washington, DC: American Educational Research Association.
  5. McHugh, M. L. (2012). Interrater reliability: the kappa statistic. Biochemia medica: Biochemia medica, 22(3), 276-282.
  6. 6.0 6.1 Jackson, C. J. (2009). Jackson-5 scales of revised Reinforcement Sensitivity Theory (r-RST) and their application to dysfunctional real world outcomes. Journal of Research in Personality, 43(4), 556-569.
  7. Meier, S. T., & Davis, S. R. (1990). Trends in reporting psychometric properties of scales used in counseling psychology research. Journal of Counseling Psychology, 37(1), 113.
  8. Resnick, L. B. (1979). The future of IQ testing in education. Intelligence, 3(3), 241-253.
  9. Cronbach, Lee J.; Meehl, Paul E. (1955). "Construct validity in psychological tests". Psychological Bulletin. 52 (4): 281–302.
  10. Gravetter, Frederick J.; Forzano, Lori-Ann B. (2012). Research Methods for the Behavioral Sciences (4th ed.). Belmont, Calif.: Wadsworth. p. 78.
  11. Souza, A. C. D., Alexandre, N. M. C., & Guirardello, E. D. B. (2017). Psychometric properties in instruments evaluation of reliability and validity. Epidemiologia e Serviços de Saúde, 26, 649-659.

參考文獻[編輯]

  • Andrich, D. & Luo, G. (1993). "A hyperbolic cosine model for unfolding dichotomous single-stimulus responses" (PDF). Applied Psychological Measurement. 17 (3): 253–276. CiteSeerX 10.1.1.1003.8107.
  • Robert F. DeVellis (2016). Scale Development: Theory and Applications. SAGE Publications. ISBN 978-1-5063-4158-3.
  • Borsboom, Denny (2005). Measuring the Mind: Conceptual Issues in Contemporary Psychometrics. Cambridge: Cambridge University Press. ISBN 978-0-521-84463-5. Lay summary (28 June 2010).
  • Leslie A. Miller; Robert L. Lovler (2015). Foundations of Psychological Testing: A Practical Approach. SAGE Publications. ISBN 978-1-4833-6927-3.
  • Roderick P. McDonald (2013). Test Theory: A Unified Treatment. Psychology Press. ISBN 978-1-135-67530-1.
  • Paul Kline (2000). The Handbook of Psychological Testing. Psychology Press. ISBN 978-0-415-21158-1.
  • Rush AJ Jr; First MB; Blacker D (2008). Handbook of Psychiatric Measures. American Psychiatric Publishing. ISBN 978-1-58562-218-4. OCLC 85885343.
  • Ann C Silverlake (2016). Comprehending Test Manuals: A Guide and Workbook. Taylor & Francis. ISBN 978-1-351-97086-0.
  • Dr. Snigdha Rai (2018). "An Ultimate Guide to Psychometric Tests". Mercer Mettl.
  • Radhika Kulkarni (2019). "Hiring Using Online Psychometric Tests". Psychometrica.

[編輯]