QRCode

詞袋模型

bag of words model

曾元顯
2012年10月
圖書館學與資訊科學大辭典

名詞解釋:

  詞袋模型(bag of words model)是資訊檢索領域中,文件表示法的一種。其將文件中出現的詞彙,想像是放在袋子裡零散而獨立的物件,如此一個袋子代表一篇文件。詞袋模型的重點,不在於這個想像中的袋子,而在於其對待袋子中的詞彙方式,亦即每個詞彙都是獨立的單位,不考慮其相依性。例如:文件A中的內容(如篇名)若為:「病人與醫生的糾紛研究」,以詞袋模型表示,則該文件可以表達成:「病人、糾紛、醫生、研究」這四個獨立的詞彙。又如文件B中的內容(如篇名)若為:「醫療缺失改善之探討」,以詞袋模型表示,則可表達成:「缺失、探討、改善、醫療」這四個獨立的詞彙。

此種獨立性假設,簡化了很多文件自動處理的計算,因而廣被採用。例如,資訊檢索中的空間向量模型,便以詞袋模型來表示文件,文件中的詞彙代表空間中的一個維度,而維度與維度之間是獨立的,如此形成文件向量,便於後續的向量計算。如上例,文件A與文件B以(病人、醫生、糾紛、研究、醫療、缺失、改善、探討),8個詞當維度,可以分別表示成(1, 1, 1, 1, 0, 0, 0, 0)與(0, 0, 0, 0, 1, 1, 1, 1)的向量。又如自動文件分類中,也常以詞袋模型代表文件,將文件與類別的對應關係,如(文件A,醫療類)、(文件B,醫療類),分解成更小單元且會重複出現的詞彙與類別的對應關係,如(病人,醫療類)、(醫療,醫療類)等,以便於各種機器學習方法的運用。

上面的例子,可以看出詞袋模型的好處,例如(病人,醫療類)、(醫療,醫療類)變成是很容易學習歸納出來的分類規則(因為這些對應,容易重複出現,且有高度的相關性)。爾後若有一篇新進的文件要分類,以詞袋模型表示,若該文件出現病人、醫療等與醫療類有高度相關性的詞彙,就可自動將其標示為醫療類的文件。

詞袋模型的缺點,則是其獨立性假設不太符合語言文字實際分布的狀況。例如,上述文件A與文件B的向量相似度為0。但根據語言文字的出現機率,文件中談到病人、醫生的時候,醫療一詞出現的機率不應為0;同理,糾紛出現時,缺失、改善等詞彙,出現的機率也不應為0。若能考慮到詞彙的相依性,則文件A與文件B的相似度,就不會是0。在近十來年的資訊檢索研究中,語言模型的文件表示法,可以處理這類詞彙相依性的問題。

詞袋模型

bag of words model

bag of words model 進行詞彙精確檢索結果
出處/學術領域 英文詞彙 中文詞彙
詞袋模型 進行詞彙精確檢索結果
出處/學術領域 中文詞彙 英文詞彙

引用網址: