QRCode

自動摘要

automatic abstracting and summarization

葉鎮源
2012年10月
圖書館學與資訊科學大辭典

名詞解釋:

自動摘要(automatic abstracting and summarization;普遍稱作automatic summarization),一般泛指文件摘要(text summarization),乃是從原始文件中精練出重要資訊的過程;其產出結果即是該原始文件的精簡化版本,可作為人們或其他資訊系統判斷與決策的依據。

一般而言,文件摘要的過程(如圖1)包括:分析(analysis)、轉換(transformation)與合成(synthesis)共三個階段。系統首先進行輸入文件的分析,抽取出具代表性的文件特徵;接著將分析的結果轉換為系統內部的摘要表示法或是文件模型;最後,評估、擷取摘要表示法或文件模型中重要的部分,並將相關的資訊合成後輸出為摘要。整個摘要過程中有幾項重要的因素需要考慮,例如:使用者對於摘要內容的需求、摘要內容的形式、摘要內容的流暢程度、可閱讀性以及文件摘要間的壓縮比(compression ratio)等,都會直接或間接地影響到摘要品質的好壞。

圖1: 文件摘要系統的基本架構 Mani & Maybury, 1999

資料來源:Advances in automatic text summarization, by Mani, I., & Maybury, M.T., 1999, Cambridge, MA: The MIT Press.

文件摘要的壓縮比,顧名思義係指摘要長度與原始文件長度的比例。壓縮比愈低,其產出的文件摘要越精練;相對也遺漏越多原始文件中的資訊。而壓縮比愈高,其產出的文件摘要愈冗長;雖然包含的資訊愈多,卻也包含越多可能不重要的資訊。

文件摘要產出的摘要類型,可以是經過自然語言處理(natural language processing)所處理產出的重述文字,也可能是原始文件的摘錄(extract)內容。前者便是所謂的概述摘要(abstract),而後者則直接從原始文件中節錄出足以代表該文件的語句與段落片段。

依其原始文件數量的多寡,文件摘要可分為單文件摘要(singular document summarization,簡稱SDS)與多文件摘要(multiple documents summarization,簡稱MDS)。單文件摘要係將單篇文件的內容精簡化、重點化,著重於刪減無用資料;多文件摘要則將多篇探討相同主題的文件融合,著重於刪減及過濾無用且重複的資料。

根據文件摘要所要達到的目的,產出的摘要結果可區分為指示性摘要(indicative summary)、資訊性摘要(informative summary)與評論性摘要(evaluative summary)。指示性摘要提供閱讀者足夠的資訊,使其能夠根據這些資訊判斷並決定是否閱讀原始文件;資訊性摘要提供豐富的資訊內容,有時甚至可以取代原始文件;評論性摘要以摘要形式對原始文件作評論,可提供閱讀者不同角度的論斷。

依照讀者需求的不同,文件摘要的結果分為一般性摘要(generic summary)及特定使用者導向(user-oriented summary)的摘要。前者針對較廣大的讀者群,摘要系統所產生的摘要以寫作者的角度出發,期能提供一般性的摘要給所有讀者閱覽;後者根據特定使用者的需求(例如:使用者感興趣的主題或是使用者所下的檢索條件)所產生的專屬摘要。

若由語言的角度來看,摘要可以是單語言摘要(mono-lingual summarization)與多語言摘要(multi-lingual summarization)。所謂多語言摘要乃指文件來源可能為不同語言或單文件中包含不同語言,此類摘要著重於克服各語言在型態、結構及用語習慣的差異,並提供各語言間互相轉譯的能力。

文件摘要的研究起源於1950年代後期;過去的研究大多著重在評估文件中每個語句(或段落)所提供的資訊量多寡或是判斷每個語句的重要性,並根據語句的重要性摘錄出足以代替原始文件的語句或段落,亦即語句(段落)摘錄。整體來說,摘錄類型的摘要作法是由原始文件中計算每個語句的資訊量,並依照重要性的不同賦予每個語句權重;接著考慮使用者的需求(例如:壓縮比),並依照語句權重挑選出候選的重要語句;最後再經過語句的排序與重組後即可作為該原始文件的摘錄。

參考資料:

Mani, I., & Maybury, M. T. (1999). Advances in automatic text summarization. Cambridge, MA: The MIT Press.

Spärck Jones, K. (2007). Automatic summarising: the state of the art. Information Processing & Management, 436, 1449-1481.

Yeh, J.-Y. (2008). A study of extraction-based multidocument summarization. Ph.D. Thesis. Dept. of Computer Science, NationalChiaoTungUniversity, Hsinchu, Taiwan.

自動摘要

automatic abstracting and summarization

automatic abstracting and summarization 進行詞彙精確檢索結果
出處/學術領域 英文詞彙 中文詞彙
自動摘要 進行詞彙精確檢索結果
出處/學術領域 中文詞彙 英文詞彙
學術名詞
圖書館學與資訊科學名詞
自動摘要 autoabstract
學術名詞
圖書館學與資訊科學名詞
自動摘要 automatic abstract
學術名詞
電子計算機名詞
自動摘要 automatic abstract
學術名詞
電子計算機名詞
自動摘要 auto abstract
學術名詞
電機工程
自動摘要 auto abstracting

引用網址: