QRCode

網路檢索與探勘

web retrieval and mining

葉鎮源
2012年10月
圖書館學與資訊科學大辭典

名詞解釋:

  網路檢索(web retrieval),又稱網路搜尋(web search)。網路檢索源自於資訊檢索(information retrieval),資訊檢索的目的在於幫助使用者從文件資料庫中搜尋並取得符合其資訊需求的文件,網路檢索則是運用資訊檢索的技術,幫助使用者快速地從龐大的全球資訊網中找到想要找的網頁。為大眾所熟知的網路搜尋引擎(search engines),例如,Googlewww.google.com)、Bingwww.bing.com)及Yahoo! Searchsearch.yahoo.com)都提供網路檢索的服務。

一般而言,網路檢索系統主要是由網頁搜爬(crawling)、網頁索引(indexing)、網頁檢索(querying),以及網頁排序(ranking)等四個子系統所組成,如 1所示。(1)網頁搜爬:藉由網頁爬蟲(web crawler)定期至各個網站下載、蒐集網頁資訊,並儲存在自身的資料庫中作為日後搜尋的資料來源;(2)網頁索引:將網頁爬蟲搜爬回來的網頁,經過文件解析後建立索引(index)結構,例如:反向索引(inverted index),以提供未來檢索時快速、即時比對使用;(3)網頁檢索:比對使用者輸入的查詢關鍵字與自身的索引資料庫,搜尋出所有包含查詢關鍵字的網頁,作為符合使用者查詢條件的候選網頁集合;(4)網頁排序:計算網頁與查詢關鍵字的關聯性及個別網頁的重要性,對於網頁檢索模組所取得的網頁集合進行排序,據以將最相關且可靠度高、重要的網頁呈現在回傳給使用者的查詢結果頂端。

圖1: 網路搜尋引擎的架構

資料來源:Web retrieval and mining, In Encyclopedia of Library and Information Science (3rd ed.) (pp. 5616-5622), by Castillo, C., & Baeza-Yates, R., 2009, M. J. Bates & M. N. Maack (Eds.),. Boca Raton, FL: CRC Press. 

特別一提的是:雖說網路檢索是資訊檢索的應用,但是比起資訊檢索而言更有挑戰性。根據Google2008年公佈的資料顯示,全球資訊網的網頁數量已高達1,000,000,000,000以上(註:目前無人確切知道所有網頁的數量,該數字乃是Google搜尋引擎的索引數量。然而在2008年之後,Google已不再對外公開其搜尋引擎的索引數量。);這個數字遠較一般資訊檢索所要搜尋的文件資料庫數量來得龐大,使得檢索的效能和反應時間成為網路檢索的首要考量。其次,比起資訊檢索處理的文件來說,網頁的結構較為複雜;除擁有超連結之外,同時運用標籤(tag)定義網頁區塊成為半結構化的文件,例如:標題(title)、描述欄位(metadata)、內容主體(body),讓網路檢索對於網頁解析與索引建構的難度大幅提昇。最後,全球資訊網中充斥著許多的垃圾網頁(spam)。因此,網路檢索系統必須透過排序機制,將垃圾網頁排列在查詢結果的後端,以提高查詢結果的品質。

網路探勘(web mining)乃指利用資料探勘(data mining)技術,從網路資料中進行分析、發現及挖掘出具有價值之資訊及知識的過程與方法。網路探勘與資料探勘最大的差異在於探勘時所分析的資料類型不同:前者探勘的對象的是網頁超連結結構(web hyperlink structure)、網頁內容(page content),以及網站使用記錄(usage data)等資料;後者則是資料倉儲或資料庫中的關聯表格資料。

根據探勘過程中所需資料類型的不同,網路探勘大致上可區分成網頁結構探勘(web structure mining)、網頁內容探勘(web content mining),以及網站使用行為探勘(web usage mining),簡述如下:(1)網頁結構探勘:主要分析網頁間的超連結結構與關聯,可由社會網路分析(social network analysis)與共被引分析(co-citation analysis)等方法,發掘找出網頁的重要性或個別網頁與其他網頁間的關聯性。舉例來說,PageRankHITShyperlink-indeced topic search)皆是利用網頁超連結結構的分析找出重要的網頁,作為搜尋引擎查詢結果排序的依據;(2)網頁內容探勘:主要從網頁內容中擷取或挖掘有用的知識。例如:依據網頁內容的主題,可以將網頁進行分類或是將相關主題的網頁進行分群。另外,分析商業網站的產品介紹或是討論區等網頁內容,可以探勘得知網路使用者對於某商品的評價或是討論主題的意見;(3)網站使用行為探勘:主要利用網站中使用者與網站互動的紀錄檔進行分析,從而發掘出使用者瀏覽網站的行為模式。比如說分析使用者的瀏覽路徑,可作為網站內容結構改善或是個人化服務提供的依據。

參考資料:

Castillo, C., & Baeza-Yates, R. (2009). Web retrieval and mining. In M. J. Bates & M. N. Maack (Eds.), Encyclopedia of Library and Information Sciences (3rd ed.) (pp. 5615-5622). Boca Raton, FL: CRC Press.

Cooley, R., Mobasher, B., & Srivastava, J. (1997). Web mining: information and pattern discovery on the world wide web. Proceedings of the 9th IEEE International Conference on Tools with Artifical Intelligence, 558-567.

Liu, B. (2011). Web data mining: exploring hyperlinks, contents, and usage data (2nd ed.). Heidelberg, Germany: Springer.

網路檢索與探勘

web retrieval and mining

web retrieval and mining 進行詞彙精確檢索結果
出處/學術領域 英文詞彙 中文詞彙
網路檢索與探勘 進行詞彙精確檢索結果
出處/學術領域 中文詞彙 英文詞彙

引用網址: