名詞解釋:
相關判斷與評量意指判定文件與查詢問題的相關性,並用之進行檢索績效的評量。長久以來,已有許多學者討論多種相關的概念,例如心理相關、情境相關、主題相關等等,傳統上,以量化的方式評估相關性,採用的是「主題相關」。事實上,相關判斷會因判斷者、判斷情境等諸多因素而可能產生很大的差異,加上進行相關判斷時往往囿於時間人力等種種限制,無法作十分周詳的考量,通常只能採取一些可行性較高的權宜方案。相關判斷的結果主要是用以評估資訊檢索系統的績效,歷來學者對於這樣的評量方式也有許多質疑,主要可歸納為相關判斷者(relevance assessor)、相關層級(relevance granularity)、與評分尺度(scoring metric)。
一般認為資訊需求者是最具資格進行相關判斷的人,然而不同評估者產生的相關判斷,通常會有相當程度的歧異。TREC(Text Retrieval Conference)的實驗顯示,不同的相關判斷者之間有高達71%的不一致狀況,但是卻有研究也顯示,前述情形並不影響評量資訊檢索系統相對的優劣。相關層級指的是採用二元相關抑或多元相關,TREC採用二元相關,也就是僅區分「相關」與「不相關」。採用多元相關的研究者認為,相關與不相關之間實為一連續地帶,很難一刀兩斷地判定為相關或不相關。CLEF(Cross Language Evaluation Forum)採用三元相關,區分「相關」、「部分相關」、「不相關」;NTCIR(NII Test Collections for Information Retrieval)則採用四元相關,區分「非常相關」、「相關」、「部分相關」、「不相關」。評分尺度指的是基於相關判斷的結果,進行系統績效的評量方法,也就是給分數的方法。
傳統上,進行文件檢索的評分時,採用的是recall(查全率)與precision(查準率),這是一種適用於無排序之檢索結果(non-ranked retrieved list)的評量尺度,計算方式請參見式(1)與式(2)。然而,多數的資訊檢索系統的檢索結果都是排序的,這也符合使用者的期待,畢竟第1篇文件就是相關文件,與第20篇文件才是相關文件,對使用者而言,感覺是截然不同的。
(1)
(2)
r為資訊檢索系統針對某問題檢索所得文件中相關的文件數;L為資訊檢索系統針對某問題檢索所得的文件數;R為文件集合中與某問題相關的文件數。
對於有排序檢索結果(ranked retrieved list)的評分尺度(scoring metrics),最常採用的是由Buckley & Voorhees(2000)提出的average precision(AP)與R-Precision。AP的計算方式如式(3)所示,R-Precision如式(4)所示。
(3)
(4)
然而,資訊檢索系統會對一組問題,送出一份檢索結果(稱為一個run)。評估者進行相關判斷後,每一個問題都可計算出AP與R-Precision;對於整組問題,則可計算mean AP(MAP),作為該run的評量結果。

(5)
其中Q為問題的總數
對於使用極為廣泛的AP、R-Precision、MAP,仍然受到許多的質疑。第一個質疑是採用MAP不甚公平,有研究者建議採用幾何平均(geometry average)而非算術平均(mean average),GAP的計算方式請參見式(6)。對於MAP相同的檢索系統而言,GAP可以區別出表現平穩者與表現起伏不定者。

(6)
其中Q為問題的總數
前述的評量尺度僅適用於二元相關,許多研究者嘗試提出適用於多元相關的評分尺度,如cumulative gain、average weighted precision (AWP)、R-weighted precision (R-WP)、Q-measure、R-measure等。
參考資料:
Buckley, C. & Voorhees, E. M. (2000).Evaluating evaluation measure stability. In Proceedings of the 23rd annual international ACM SIGIR conference on research and development in information retrieval (SIGIR 2000) (pp. 33–40), ACM, New York.