W3Cschool
恭喜您成為首批注冊用戶
獲得88經驗值獎勵
我們知道,一般而言,文檔被分組為主題。 有時需要確定文本中與特定主題相對應的模式。 這樣做的技術稱為主題建模。 換句話說,可以說主題建模是一種揭示給定文檔集合中抽象主題或隱藏結構的技術。
可以在以下場景中使用主題建模技術 -
文本分類 在主題建模的幫助下,分類可以得到改進,因為它將相似的單詞分組在一起,而不是分別將每個單詞用作特征。
推薦系統 在主題建模的幫助下,可以使用相似性度量來構建推薦系統。
主題建??梢酝ㄟ^使用算法來實現。 算法如下 -
潛在狄利克雷分配(LDA) 該算法是主題建模中最流行的算法。 它使用概率圖形模型來實現主題建模。 我們需要在 Python 中導入 gensim 包以使用 LDA slgorithm。
潛在語義分析(LDA)或潛在語義索引(LSI) 該算法基于線性代數。 基本上它在文檔術語矩陣上使用 SVD(奇異值分解)的概念。
非負矩陣分解(NMF) 它也基于線性代數。
上述所有用于話題建模的算法都將主題數量作為參數,將文檔 - 詞匯矩陣作為輸入,將 WTM(詞主題矩陣)和TDM(主題文檔矩陣)作為輸出。
Copyright©2021 w3cschool編程獅|閩ICP備15016281號-3|閩公網安備35020302033924號
違法和不良信息舉報電話:173-0602-2364|舉報郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號
聯系方式:
更多建議: