潛在語義分析

出自維基百科,自由嘅百科全書

潛在語義分析英文latent semantic analysis,LSA)係自然語言處理上成日用嘅一種分析方法。

LSA 步驟大致如下[1]

  • 計個矩陣出嚟-
    • 矩陣每條橫行表示一隻字詞;
    • 矩陣每條直行表示一份文件或者一句句子
    • 矩陣每一格反映嗰隻字詞喺嗰份文件或者句子當中有幾「重要」(睇埋 tf-idf);

跟住段演算法就會(例如)做降維-攞住個矩陣,嘗試搵個新矩陣出嚟,而個新矩陣橫行數量少咗,但同時維持住直行之間嘅相似度分佈,打後得出嗰個(維數少嘅)矩陣就最代表到啲文件嘅意思,最後段演算法就用維數少嗰個矩陣比較啲文件喺意思上嘅相似度。

睇埋[編輯]

[編輯]

  1. Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R. (1990). Indexing by latent semantic analysis (PDF). Journal of the American society for information science, 41(6), 391-407.