QRCode

超連結引發之主題網頁檢索名次排序法

hyperlink-induced topic search (HITS)

葉鎮源
2012年10月
圖書館學與資訊科學大辭典

名詞解釋:

HITS,全名為hyperlink-induced topic search,由美國康乃爾大學(Cornell University)教授Jon M. Kleinberg在1997年提出,是一種透過網頁超連結結構來計算網頁名次排行的演算法,可應用於搜尋引擎中決定網頁的重要性,據此將最相關且可靠度高的網頁呈現在查詢結果的頂端。

  以下說明HITS的概念:對於某個檢索主題而言,存在一個網頁集合Ss,HITS將Ss中的網頁區分成「權威網頁(authority)」與「匯集網頁(hub)」兩種類型。前者泛指與檢索主題相關且重要、可靠的網頁;後者則定義為同時擁有許多正向連結(forward link)連結到權威網頁的網頁。此處,Ss滿足下列條件:(1)Ss的大小盡可能地小;(2)Ss盡可能是由與檢索主題相關的網頁所組成;(3)Ss盡可能涵括最重要的權威網頁。Ss的建構可事先經由搜尋引擎得到一個基本的相關網頁集合,再由此集合進行擴展而得到;有關於Ss的詳細建構步驟,請參考Kleinberg的文章。

  HITS認為權威網頁與匯集網頁間存在一相互加成的關係(mutual reinforcing relationship),亦即:一個好的匯集網頁具有許多正向連結到好的權威網頁,而一個好的權威網頁則擁有許多來自於好的匯集網頁的反向連結(backlink)指向它。若p是一網頁,可定義網頁p的權威權重(authority weight)為x<p>;匯集權重(hub weight)為y<p>。此處,x<p>與y<p>皆為非0的數值。接著,假定一個好的權威網頁代表其權威權重值高,而一個好的匯集網頁表示其匯集權重值高,則前面所提及的相互加成關係可以量化表示成:若p正向連結到多個擁有高權威權重值的網頁,則p應具有高匯集權重值;若p被許多擁有高匯集權重值的網頁所反向連結,則p應具有高權威權重值。據此,定義I與O兩個運算元來模擬權威網頁與匯集網頁間的相互加成關係,計算方法如Eq.(1)所示:

Eq. (1)

其中,(q, p)ÎE表示存在一正向連結由網頁q連結至網頁p;相同地,(p, q)ÎE代表存在一正向連結由網頁p連結至網頁q。I與O兩個運算元的示意圖,請參考圖 1。

圖1(a): I運算元 (Kleinberg, 1999) 圖 1 (b): O運算元 (Kleinberg, 1999)

資料來源:“Authoritative sources in a hyperlinked environment,” by Kleinberg, J. M., 1999, Journal of the ACM, 46(5), 604-632

  一般來說,HITS演算法可由power method經過遞迴的方式,計算求得任一網頁p的權威權重值及匯集權重值,如圖 2所示:

圖2: 網頁權威權重值與匯集權重值的計算方法

資料來源:“Authoritative sources in a hyperlinked environment,” by Kleinberg, J. M., 1999, Journal of the ACM, 46(5), 604-632

  其中,在第i次遞迴後所得到的,必須經由正規化後得到xi,使滿足;而則經正規化後得到yi,使其滿足。因此,對於某個檢索主題而言,完整的HITS演算法定義如圖 3所示:

圖3: 完整的HITS演算法

資料來源:“Authoritative sources in a hyperlinked environment,” by Kleinberg, J. M., 1999, Journal of the ACM, 46(5), 604-632.

其中,G即是先前提及的網頁集合Ss。透過IterateG, k)的運算,可以求得G集合中所有網頁的權威權重值和匯集權重值。而HITS演算法即是依據網頁的權威權重值或是匯集權重值將所有與檢索主題相關的網頁進行排序,據此將最相關且可靠度高的網頁呈現在查詢結果的頂端。

參考資料:

Kleinberg, J. M. (1999). Authoritative sources in a hyperlinked environment. Journal of the ACM, 46(5), 604-632.

超連結引發之主題網頁檢索名次排序法

hyperlink-induced topic search (HITS)

hyperlink-induced topic search (HITS) 進行詞彙精確檢索結果
出處/學術領域 英文詞彙 中文詞彙
超連結引發之主題網頁檢索名次排序法 進行詞彙精確檢索結果
出處/學術領域 中文詞彙 英文詞彙

引用網址: