跳去內容

數碼人文學

出自維基百科,自由嘅百科全書
研究者喺度用軟件分析長篇小說傲慢與偏見》入便嘅

數碼人文學粵拼sou3 maa5 jan4 man4 hok6 )係跨學科嘅領域,主旨係想將運算技術應用喺人文學中。數碼人文學會用電腦方法儲住啲資訊,仲會用人工智能等嘅電腦技術分析數據,從而搵出對人文學嚟講有用嘅知識;此外,數碼人文學有陣時又會對資訊科技上嘅研究有所啟示[1][2]

到咗二〇二〇年代,數碼人文學已經取得咗一定嘅成功,由文學音樂以至視覺藝術上嘅研究,都有採用數碼人文學嘅研究方法[3],而且結合人文同資訊科技仲有助帶起運算創意等嘅新諗頭。

學科定位

[編輯]

定義上,數碼人文學屬於人文學[4],而二〇二二年嘅不列顛百科全書係噉樣定義人文學呢個概念嘅[5]

粵文翻譯:人文學學問嘅一大類分枝學科,關注人類以及佢哋嘅文化...

人文學包括文學視覺藝術表演藝術法律等,呢啲領域都係研究緊文化、或者話係研究緊人類社會嘅產物,包括諸如樂曲等展現人類創意嘅事物。而數碼人文學,則可以當係搞人文學研究嘅一套方法,會用各種嘅資訊科技方法做人文學研究[6]

舉例說明,响廿一世紀前,對文學作品嘅分析屬於文學嘅一環,研究者時常會人手做分析,研究文學作品,例如自己同啲研究員睇完一大拃作品後,討論佢哋發覺呢啲作品入便用詞有某啲特定嘅傾向,增進文學領域嘅學問[7]。而到咗廿一世紀初,資訊科技上有咗自然語言處理嘅技術,做到教人工智能處理語言文本,可以例如叫電腦計手上每份文學作品入便,啲詞之間嘅統計關係,計如果前面隻詞係動詞,後面隻詞係名詞嘅機率,呢啲噉嘅做法,攞咗資訊科技嘅方法嚟用,用嚟搵出有關啲文學作品嘅特性嘅資訊[8]

數據來源

[編輯]
睇埋:語言資源

要摷數碼人文學研究用嘅數據,可以有幾個唔同來源。

網頁刮料

[編輯]
内文:網頁刮料

網頁刮料係一種技術,用嚟由 WWW 提取數據嘅,可以將呢啲數據儲存到檔案入便,入落數據庫度。隨住網絡上嘅資訊量爆發式增長,網絡刮料成為咗收集大數據嘅強大工具。例如有學者就試過做研究,指出維基百科本身包含咗極之豐富嘅物件關係資訊,可以透過刮料技術嚟教電腦自動噉提取同埋分析。數碼人文學研究周不時會用刮料技術,搵分析用嘅文本[9]

二〇二〇年代起嘅網絡刮料技術,可以輕易噉解析 HTML 等嘅標記語言或者 JSON 檔案。

互聯網採集數據,分兩個主要步驟[10]

  • 摷網絡資源:研究者要編寫同發出 HTTP 請求去目標網站伺服器
  • 提取資訊:由獲取到嘅原始數據中,篩選出想要嘅資訊。喺呢個階段,成日會用到自然語言處理(NLP),解析文本嘅內容。

語料庫

[編輯]
内文:語料庫

語料統計分析,有助文學方面嘅研究,例如同語料中啲文本詞頻率等嘅量化特性,再行聚類分析因子分析等嘅多變量分析,可以度到唔同文類之間嘅差異[11]。佢哋甚至仲可以使用支援向量機等嘅機器學習技術,睇下人工智能有冇可能自動學曉唔同文類要點分[12]

喺呢個過程中,分析者好多時都會將語言特性分類,再睇下唔同類嘅語言表達方式出現咗幾多次[13]

喺實際應用上,研究者要睇文本嘅語言特性,同呢啲特性做分析,但係選擇要睇邊啲語言特性,唔係可以隨便揀嘅。學界有唔少既定嘅方案,用嚟決定邊啲語言特性有必要睇,譬如係語言詢查及詞數[註 2]噉,就係專門為人文同社科研究而設,由專家制定,包含過八十個分析嚟有用嘅語言特性,喺數碼人文學中好多人用[14]

分析方法

[編輯]

文本情感分析能夠達致攞住一段文本,分析佢入便嘅情感係正面定負面。呢點可以用嚟分析虛構作品中嘅情緒變化[15]。簡化講:分析者會將目標文本入落電腦度,跟住叫電腦將文本分切做若干橛[註 3][16]評估每一橛入便嘅詞係反映緊咩情緒,最基本上可以係靠情感詞典[註 4],然後就可以將分析得出嘅數值整理成圖[17],睇下例如正面詞彙出現咗幾多次噉[註 5]。跟住佢哋仲可以例如同唔同文類嘅作品分別製作「情感線」,睇下每個文類嘅典型情感線係乜嘢樣,從而加深文學研究者對唔同文類嘅理解[18][19]。呢種分析,甚至仲可以用嚟剖析古人文獻中嘅情感[註 6]

機器學習技術可以造出能夠做預測嘅模型,但係呢啲模型好多時都係黑盒,未必能夠解釋到[20]

睇埋

[編輯]

文獻

[編輯]

粵港澳嘅文獻:

  • (英文)CHIN, C.O., 2022, November. From humanities to digital humanities: Cantonese studies in the big data era. In The Final Sinophone Conference: What is Hua? Conceptualization, Methodology and Research on Sinophone Borderlands and Interactions at the Edges,呢篇文由香港教育大學嘅一位學者發表,講到針對粵語內容而做嘅數碼人文學研究。

歐美文獻:

  • Manning, C.D., Surdeanu, M., Bauer, J., Finkel, J.R., Bethard, S. and McClosky, D., 2014, June. The Stanford CoreNLP natural language processing toolkit. In Proceedings of 52nd annual meeting of the association for computational linguistics: system demonstrations (pp. 55-60),呢篇文概括噉講史丹福核心 NLP 工具箱 (Stanford CoreNLP 嘅暫譯) 當中處理語言數據用到嘅管線,包括咗詞法分析詞性標注命名實體識別等嘅功能。
  • Moschitti, A. and Basili, R., 2004, April. Complex linguistic features for text classification: A comprehensive study. In European conference on information retrieval (pp. 181-196). Berlin, Heidelberg: Springer Berlin Heidelberg.
  • Päpcke, S., Weitin, T., Herget, K., Glawion, A. and Brandes, U., 2023. Stylometric similarity in literary corpora: Non-authorship clustering and Deutscher Novellenschatz. Digital Scholarship in the Humanities, 38(1), pp.277-295,呢篇講到用聚類分析等嘅方法,剖析文學作品嘅風格。
  • Piper, A., (2016) "Fictionality", Journal of Cultural Analytics 2(2),呢篇文講到用數碼人文學方法,嚟剖析虛構非虛構作品之間嘅詞語特性上嘅分別,跟住就用語用學相關嘅概念,思考點解兩者會有噉嘅差異。
  • Piper, A., 2022. The CONLIT dataset of contemporary literature. Journal of Open Humanities Data, 8.
  • Rashkin, H., Singh, S. and Choi, Y., 2016, August. Connotation frames: A data-driven investigation. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 311-321),呢篇文討論聯想意思框架 (Connotation frame 嘅暫譯)嘅諗頭,主張語句謂語可以提供好多關於聯想意思資訊,例如寫嘢嘅人由第三身角度寫,攻擊一詞,往往反映佢對攻擊方有負面意見,同埋認為被攻擊方係受害者等等,數碼人文學者分析文本嗰陣,可以透過呢啲聯想意思,判斷寫者有咩意圖。
  • Rebora, S., 2023. Sentiment analysis in literary studies. a critical survey. Digital Humanities Quarterly, 17(2), pp.1-17,呢篇文有批判式噉討論當代用文本情感分析做文學研究嘅做法有咩問題,尤其講到文學理論同情感分析之間有咩對應同埋不一致等。
  • Sobchuk, O. and Šeļa, A., 2024. Computational thematics: comparing algorithms for clustering the genres of literary fiction. Humanities and Social Sciences Communications, 11(1), pp.1-12.

註釋

[編輯]
  1. 依啲劇本,好多時都係文言夾雜少量粵文
  2. 譯自英文Linguistic Inquiry and Word Count,LIWC
  3. 橛:英文叫 chunk。
  4. 英文Sentiment dictionaries,會列出每隻可能嘅詞,分別係表達緊乜嘢情感,譬如每隻詞係正面抑或係負面。呢啲詞典,有必要為個別領域而調節。
  5. 亦有人質疑,就噉將啲詞彙嘅「情感值」做加減喺數學上係咪有意義。可以睇睇量度層次嘅概念。
  6. 但係亦有批評聲音指,要得知古文獻作者字裡行間表達緊咩情感,即使人手做都好困難。而且唔同讀者之間同意度偏低。

引述

[編輯]
  1. Drucker, Johanna (September 2013). "Intro to Digital Humanities: Introduction". UCLA Center for Digital Humanities.
  2. Digital Humanities: What are the 'digital humanities'? 互聯網檔案館歸檔,歸檔日期2022年7月4號,.. University of Sydney.
  3. What are the digital humanities?. The British Academy.
  4. Kirschenbaum, M. G. (2016). What is digital humanities and what's it doing in English departments? 互聯網檔案館歸檔,歸檔日期2023年1月24號,. (PDF). In Defining Digital Humanities (pp. 211-220). Routledge.
  5. Humanities. Encyclopedia Britannica,原版英文:"humanities, those branches of knowledge that concern themselves with human beings and their culture..."
  6. WHAT IS A DIGITAL HUMANITIES PROJECT?. The Digital Humanities Institute.
  7. Herrmann, J. B., van Dalen-Oskam, K., & Schöch, C. (2015). Revisiting style, a key concept in literary studies. Journal of literary theory, 9(1), 25-52.
  8. Andresen, M., & Zinsmeister, H. (2017, September). Approximating style by N-gram-based Annotation. In Proceedings of the Workshop on Stylistic Variation (pp. 105-115).
  9. Nguyen, D.P., Matsuo, Y. and Ishizuka, M., 2007, July. Relation extraction from wikipedia using subtree mining. In Proceedings of the National Conference on Artificial Intelligence (Vol. 22, No. 2, p. 1414). Menlo Park, CA; Cambridge, MA; London; AAAI Press; MIT Press; 1999.
  10. Zhao, B., 2022. Web scraping. In Encyclopedia of big data (pp. 951-953). Cham: Springer International Publishing.
  11. Allison, S. (2011). Quantitative formalism: an experiment. p. 2,亦可以睇下呢段:"... corroborated what literary scholars already knew – or at least were convinced of – i.e. that certain texts belonged to the same class. No new knowledge there. But that human judgment and unsupervised statistical analysis would agree on genre classification – this was a novelty that had emerged from the test." 呢篇文綜觀式噉探討用數碼人文學方法,分析文類嘅概念,佢哋 6. 嗰度亦有提到主成份分析,發覺作者嘅影響似乎仲強過文類嘅。
  12. Piper, A., (2016) "Fictionality", Journal of Cultural Analytics 2(2). The Coherence of Fictionality
  13. Dictionaries of Language Patterns,佢哋呢度有提到 Docuscope Language Action Types (LATs)。
  14. LIWC
  15. Reagan, A.J., Mitchell, L., Kiley, D., Danforth, C.M. and Dodds, P.S., 2016. The emotional arcs of stories are dominated by six basic shapes. EPJ data science, 5(1), p.31,呢篇文主張英文圈虛構故事可以按情感弧 (Emotional arc 嘅暫譯) 分做數量唔多嘅幾個種類,而情感弧同情節冇直接啦掕,佢哋跟住郁手分析英文小說中嘅情感,用咗聚類分析自組織對映等嘅多種統計分析,發現情感弧可以分六大種。
  16. Reagan, A.J., Mitchell, L., Kiley, D., Danforth, C.M. and Dodds, P.S., 2016. The emotional arcs of stories are dominated by six basic shapes. EPJ data science, 5(1),依度 2.1 嗰度有講解點樣將文本切開。
  17. Sentiment dictionaries
  18. Kim, E., Padó, S. and Klinger, R., 2017, August. Prototypical emotion developments in literary genres. In Proceedings of the Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (pp. 17-26),佢哋亦有提到敘事結構EMOARC 方面嘅概念。
  19. Neugarten, J., Feldkamp, P., Jacobsen, M. and Bizzoni, Y., 2025. Happily Ever After: Comparing Sentiment Arcs in Emotionally-Inflected Fanfiction Genres Across Fandoms. Anthology of Computers and the Humanities, 3, pp.772-794,用咗各種統計技術嚟分析同人小說
  20. Piper, A., (2016) "Fictionality", Journal of Cultural Analytics 2(2),佢哋噉講:"Descriptive models, on the other hand, are useful because they allow us to qualify distinctive features of one group when compared with another without engaging in the act of classification."

外拎

[編輯]