Okapi BM25

出自維基百科,自由嘅百科全書

Okapi BM25(當中 BMbest matching 嘅簡稱)係一種用嚟做資訊提取函數。呢套演算法會攞用家問嘅嘢()做 input,然後同每份文件()計個分數()反映件文件對用家條問題嚟講幾有啦更[1][2]

算式[編輯]

Okapi BM25 條式係噉嘅:

,當中[註 1]
  • 入面嘅每隻關鍵字
  • 入面出現得有幾密(相對於 嘅長度);
  • 嘅長度(以字數計);
  • 係摷咗嗰啲文件嘅平均長度;

參數,好多時冇做最佳化嘅話就設做 [3]

呢個分計法如下-

  • 當中 係摷咗嘅文件嘅數量,
  • 當中 摷咗嘅文件當中有幾多份係有 喺裏面嘅,
  • 如果 係一隻常用字(例如英文入面嘅 in 或者 of 呀噉),噉佢嘅 分數理應會低( 數值細);所以 呢嚿嘢嘅存在係為咗阻止啲常用字干擾搜尋結果。

計完之後,就會每份文件得出個分數 表示份文件對條問題嚟講幾有啦更,分數愈高表示愈有啦更,然後個搜尋器就可以按分數將啲摷到嘅文件列出嚟,分數最高嘅行先。Okapi BM25 源於 1980 年代,到咗廿一世紀初經已廣泛噉俾搜尋器採用。

註釋[編輯]

  1. 加總

睇埋[編輯]

[編輯]

  1. Spärck Jones, K.; Walker, S.; Robertson, S. E. (2000). "A probabilistic model of information retrieval: Development and comparative experiments: Part 1". Information Processing & Management. 36 (6): 779-808.
  2. Spärck Jones, K.; Walker, S.; Robertson, S. E. (2000). "A probabilistic model of information retrieval: Development and comparative experiments: Part 2". Information Processing & Management. 36 (6): 809-840.
  3. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. An Introduction to Information Retrieval, Cambridge University Press, 2009, p. 233.