QRCode

查全率

recall ratio

曾元顯
2012年10月
圖書館學與資訊科學大辭典

名詞解釋:

查全率(recall rate)是評估檢索成效的一項指標,又稱召回率。在資訊檢索系統中,系統找出相關資料的筆數與文件庫中應有的相關資料總筆數的比值,稱為查全率。例如:假設在某一次檢索需求中,相關文件的總篇數應該有50筆,而在系統回傳的100筆結果中,只有20筆相關文件,則此次檢索的查全率為20/50=0.4或是40%。查全率可以用來瞭解系統找回所有相關資料的能力,或是系統遺漏相關資料的情形。

根據上述定義,在大多數的情況下,查全率都不易獲得。針對某次檢索需求,想知道系統中應有的相關文件總筆數,必須將檢索系統中所有的文件,每一篇都經人工判斷過才能得知。檢索系統中的文件動輒上萬篇,甚至上百萬篇,一篇篇判斷下去,成本非常驚人。因此,在求取系統的查全率時,常以便宜措施,來近似系統中應該有的相關文件總篇數。最常用的方式,是針對同一個查詢需求,以M種不同的檢索技術或系統,分別找出前N篇文件,取得最多M*N篇文件做相關判斷。這種作法的合理性,是假設:不被任何檢索技術與系統找出來的文件,都認為其與該次檢索需求不相關,因而不用再進行人工判斷。與原先的作法相較,只判斷這M*N篇文件,可以大幅降低求取查全率的成本。

跟查全率非常相關的概念是查準率,其為系統找出相關資料的筆數與系統傳回資料筆數的比值。在衡量系統檢索成效時,查全率與查準率是一起並用的,單獨檢視其中一項指標並無意義。例如,假設資料庫內有文件10,000篇,就某一個檢索主題,其中應有的相關文件有100篇,若系統僅查詢出1筆資料,且此資料是相關的,則其查準率為100%,但此時系統漏掉了99篇相關文件。同理,若系統將資料庫裡所有的文件都當作查詢結果回覆使用者,則必然涵蓋其中的100篇相關文件,因而其查全率為100%,但此時系統查出9,900篇不相關的資料,浪費使用者檢視結果的時間。查全率的取得成本雖高,因有上述的理由,仍是進行嚴謹的檢索成效比較時,不可或缺的指標。查全率與查準率一起並用的方式有數種,詳見查準率辭條。

在某些資訊檢索的任務中,相關文件應有的總筆數,可能非常稀少,只有一筆、二筆。例如,在問答系統(question answering systems)中,詢問「國父卒於何年?」,系統傳回的回答,應該只有西元1925或是民國14年是相關的,其他皆非。此時,系統的查全率,很容易出現只有0或是1的極端數值,不利於系統的成效比較。因此,遂有「相關文件排名倒數平均」或是「平均倒數率」(mean reciprocal rate,簡稱MRR)的指標提出。亦即,評估這些系統時,不僅以一道或少量題目來評估,而是N道題目,如N=500N=1,000等。將查詢結果中相關文件首次出現的排序名次加以倒數,再加總所有題目的這些倒數後,取平均值,即為MRR指標的數值。

查全率

recall ratio

recall ratio 進行詞彙精確檢索結果
出處/學術領域 英文詞彙 中文詞彙
學術名詞
管理學名詞
Recall ratio 查全率
學術名詞
圖書館學與資訊科學名詞
recall ratio 回現率
學術名詞
電子計算機名詞
recall ratio 再呼叫比率
查全率 進行詞彙精確檢索結果
出處/學術領域 中文詞彙 英文詞彙
學術名詞
管理學名詞
查全率 Recall ratio

引用網址: