QRCode

詞性標記

part-of-speech (POS) tagging

葉鎮源
2012年10月
圖書館學與資訊科學大辭典

名詞解釋:

字詞(word)是語言系統中具有獨立語意或扮演特定語法功能,且可以自由使用的最小語言單位。依據字詞在句法結構或語言形態上扮演的角色,經由詞性分類賦予語句中每個字詞適當之詞性符號或標記的過程,則稱為詞性標記(part-of-speech tagging,或稱POS tagging)。隨著語言的不同,詞性分類的方式也有所差異。基本上可分為動詞(verb)、名詞(noun)、形容詞(adjective)、副詞(adverb),以及其他類別,例如:代名詞(pronoun)、介係詞(preposition)、連接詞(conjunction)或感嘆詞(interjection)等。以下是一個詞性標記的範例 (原句為Tagging is the task of labeling (or tagging) each word in a sentence with its appropriate part of speech.):

Tagging_VBG is_BEZ the_AT task_NN of_IN labeling_VBG (_( or_CC tagging_VBG )_) each_DT word_NN in_IN a_AT sentence_NN with_IN its_PP$ appropriate_JJ part_NN of_IN speech_NN ._.

其中,VBG為動名詞或現在分詞,BEZ代表isAT為冠詞,NN為名詞,IN為介係詞,CC為連接詞,DT為限定詞,PP$為所有格,JJ為形容詞。

在上例中,每個字詞皆標記單一類詞性符號。然而,在語言系統中,多數的字詞因為語意或語法功能的相異,可能具有不同詞性類別的特性。舉例來說,第一個字Tagging_VBG雖是動名詞,但也可以標記成Tagging_NN來代表其為名詞。由此得知,詞性標記的工作乃是要正確地解析出字詞詞性分類的歧異性。換句話說,即從所有可能的詞性標記組合之中,決定並挑選出最有可能且最符合所有字詞在句法結構或語言形態行為的一種。

詞性標記在作法上可由人工的方式進行,或是由機器自動標註。後者所使用的軟體工具,即是俗稱的詞性標記器(part-of-speech tagger)。為能達到詞性標記自動化的目的,需要事先定義一套特殊的詞性類別作為機器標記的參考,例如:Penn Treebank POS TagsetBrown Corpus Tagset。一般而言,詞性標記的技術,早期以rule-based的方法為主,經由專家建立詞性分類的規則來辨別字詞的詞性。如今則利用非監督式歸納(induction)或是監督式機器學習的方法,經由語句及語法特徵的輔助,辨識而學習得到詞性標記的樣版,例如:Transformation-BasedHidden Markov ModelMaximum Entropy Model,以及Viterbi Algorithm等。就目前的技術來說,詞性標記的精準度已經可以達到96%97%左右。

詞性標記通常可運用於資訊擷取、資訊萃取、專有名詞標記、自動問答、語句結構分析等問題上,經過字詞詞性辨別的前置處理,可以提供機器進一步處理或解析字詞語義及語法結構的基礎。正因如此,詞性標記可謂為自然語言處理(natural language processing)研究領域的根本,有著舉足輕重且不可替代的地位。最後,特別一提的是,國內對於詞性標記的研究發展方面,目前最成功,也是大多數研究學者進行中文分詞和詞性標記時的不二選擇,當屬於中央研究院資訊科學所詞庫小組所發展的中文斷詞系統。詳細的說明資料和線上工具使用,請參閱網址http://ckipsvr.iis.sinica.edu.tw/

參考資料:

Manning, C. D. & Schütze, H. (1999). Foundations of statistical natural language processing. Cambridge, MA: MIT Press.

詞性標記

part-of-speech (POS) tagging

part-of-speech (POS) tagging 進行詞彙精確檢索結果
出處/學術領域 英文詞彙 中文詞彙
詞性標記 進行詞彙精確檢索結果
出處/學術領域 中文詞彙 英文詞彙

引用網址: