QRCode

資訊擷取

information extraction

陳光華
2012年10月
圖書館學與資訊科學大辭典

名詞解釋:

資訊擷取是由文件中擷取事先預設所需的資訊;資訊檢索則是由文件集合中檢索相關的文件。資訊擷取可視為比資訊檢索更深一層的資訊服務。正如訊息理解會議(Message Understanding Conference,簡稱MUC)陳述的,資訊擷取不僅僅辨識重要的實體,還必須決定實體之間的關係。然而因為資訊擷取工作的特殊性,所以到底擷取何種資訊是依資訊系統服務的範疇而定。

傳統上,資訊擷取有基本的工作項目,如專有名詞辨識(named entity identification or tagging,亦稱專有名詞標記或命名實體標註)、照應詞解析(coreference resolution)、腳本樣版(scenario template)等。專有名詞辨識正如字面上的意思,企圖擷取文件中的專有名詞;照應詞的解析是串連專有名詞及其對應的代名詞;腳本樣版則是依照預先訂定的樣版,由文件中擷取相關資訊填入樣版的欄位。吾人可以將這三項工作視為是有層級的關係,唯有專有名詞辨識完成,才能夠進行照應詞解析,而後進行腳本樣版的記錄。事實上,前述工作中有兩項(辨識專有名詞、腳本樣版)正如圖書館編目館員進行的分編工作一般,館員首先進行記述編目然後是主題編目,將所得的資料填入詮釋資料格式的欄位(如MARC),前述的腳本樣版亦即吾人所稱的詮釋資料格式。

一套基本的資訊擷取系統是由分詞模組、語彙分析模組、語法分析模組所組成。當然不同的語言有其特殊的考量,而必須引進不同的處理模組,例如印歐語系的文件必須作字形(morphology)的處理,而不必引入分詞模組;有時也必須引進特定範疇的知識以有效擷取特定的資訊。自然語言處理的相關研究早已發展出許多語言分析的技術,資訊檢索以及資訊擷取研究領域與自然語言研究領域交流方熾,各種的語言分析技術目前也廣泛運用於相關的資訊服務系統。

資訊擷取

information extraction

information extraction 進行詞彙精確檢索結果
出處/學術領域 英文詞彙 中文詞彙
學術名詞
電子計算機名詞
information extraction 資訊萃取
學術名詞
地理學名詞-GIS名詞
information extraction 資訊萃取
學術名詞
地理學名詞-測繪學名詞
information extraction 資訊萃取
學術名詞
電機工程
information extraction 資訊萃取
學術名詞
電子工程
information extraction 資訊萃取
資訊擷取 進行詞彙精確檢索結果
出處/學術領域 中文詞彙 英文詞彙
學術名詞
工業工程名詞
資訊擷取 information retrival
學術名詞
電子工程
資訊擷取 information retrieval

引用網址: