搜尋引擎(search engines)一詞,最早指的是提供文件搜尋服務的專屬硬體系統。自從西元1980年代中葉之後,搜尋引擎轉而成為資訊檢索系統(information retrieval systems)的代名詞,泛指所有根據輸入的檢索條件,從文件資料庫中比對、找出符合條件的相關文件,並計算其與檢索條件的相似度,將文件排序後回傳給使用者的資訊系統;此類系統最主要的目的是,協助使用者從文件資料庫中搜尋與取得滿足其資訊需求的文件。
搜尋引擎的種類繁多,依據不同的需求、應用或使用族群等而有不同的分類。舉例來說,針對檢索對象的資料類型,搜尋引擎可以是文件搜尋、圖片搜尋、影片搜尋,以及語音或音樂搜尋。搜尋引擎同時可以是個人專用的桌面搜尋,或是適合企業內部需求的企業搜尋。除此之外,提供整合檢索服務的集中式整合搜尋(federated searching)或是分散式整合搜尋(metasearching),亦屬於搜尋引擎的一種。而一般人對於搜尋引擎的認知乃指網路搜尋引擎(web search engines);例如,Google(www.google.com)、Bing(www.bing.com)和Yahoo! Search(search.yahoo.com)都提供網路搜尋的服務,其目的在於幫助使用者快速地從龐大的全球資訊網(web)中找到自己想要尋找的網頁。
圖1: 網路搜尋引擎的架構
資料來源:Web retrieval and mining, In Encyclopedia of Library and Information Science (3rd ed.) (pp. 5616-5622), by Castillo, C., & Baeza-Yates, R., 2009, M. J. Bates & M. N. Maack (Eds.),. Boca Raton, FL: CRC Press.
本文以「網路搜尋引擎」為例,說明搜尋引擎的基本組成要件及運作模式。一般而言,網路搜尋引擎主要由網頁搜爬(crawling)、網頁索引(indexing)、網頁檢索(querying),以及網頁排序(ranking)等四個子系統所組成,如圖 1所示:(1)網頁搜爬:藉由網頁爬蟲(web crawler)定期至各個網站下載、蒐集網頁資訊,並儲存在自身的資料庫中作為日後搜尋的資料來源;(2)網頁索引:將網頁爬蟲搜爬回來的網頁,經過文件解析後建立索引(index)結構,例如:反向索引(inverted index),以提供未來檢索時快速、即時比對使用;(3)網頁檢索:比對使用者輸入的查詢關鍵字與自身的索引資料庫,搜尋出所有包含查詢關鍵字的網頁,作為符合使用者查詢條件的候選網頁集合;(4)網頁排序:計算網頁與查詢關鍵字的關聯性及個別網頁的重要性,對於網頁檢索模組所取得的網頁集合進行排序,據以將最相關且可靠度高、重要的網頁呈現在回傳給使用者的查詢結果頂端。
整體來看,搜尋引擎的運作模式包括:索引程序(indexing)和檢索程序(querying)兩個部分。索引程序包含網頁搜爬與網頁索引,屬於系統後端的例行性作業,可以藉由排程機制自動定期搜集網頁及製作索引資料庫。而檢索程序則涵括網頁檢索與網頁排序,乃是由系統直接面對使用者提供服務:利用查詢介面接受使用者的檢索需求,接著比對索引資料庫找出符合使用者查詢條件的網頁,最後將網頁排序後回傳給使用者。
網路搜尋引擎可說是現今資訊檢索技術最成功的應用之一;但是,相較於資訊檢索系統來說,網路搜尋引擎具有更大的挑戰性。根據Google在2008年公佈的資料顯示,全球資訊網的網頁數量已高達1,000,000,000,000以上(註:目前無人確切知道所有網頁的數量,該數字乃是Google搜尋引擎的索引數量。然而在2008年之後,Google已不再對外公開其搜尋引擎的索引數量。)這個數字比起一般資訊檢索所要搜尋的文件資料庫數量大上好幾倍,使得檢索的效能和反應時間成為網路搜尋引擎開發時的首要考量。其次,比起資訊檢索處理的文件來說,網頁的結構較為複雜;除擁有超連結之外,同時運用標籤(tag)定義網頁區塊成為半結構化的文件,例如:標題(title)、描述欄位(metadata)、內容主體(body),讓網頁解析與索引建構的難度大幅提昇。最後,全球資訊網中充斥著許多的垃圾網頁(spam)。因此,網路搜尋引擎必須透過排序機制,將垃圾網頁排列在查詢結果的後端,以提高查詢結果的品質。
隨著全球資訊網的網頁數量迅速增長、資料類型愈形多元化,再加上使用者對於資訊尋求的目的逐漸改變,使用者的資訊行為已不再滿足於單純的資訊檢索服務。搜尋引擎雖然可以幫助使用者過濾資料,快速地從龐大的全球資訊網中找到所需的資料;但是,面對數量多且雜亂無章的查詢結果,使用者將面臨全新的挑戰與負擔。未來,搜尋引擎的發展勢必朝著智慧型知識搜尋及個人化搜尋等方向來努力,期能提供使用者更準確且適用的資料。
Castillo, C., & Baeza-Yates, R. (2009). Web retrieval and mining. In M. J. Bates & M. N. Maack (Eds.), Encyclopedia of Library and Information Science (3rd ed.) (pp. 5616-5622).
Croft, W. B., Metzler, D., & Strohman, T. (2009). Search engines: information retrieval in practice.
Liu, B. (2011). Web data mining: exploring hyperlinks, contents, and usage data (2nd ed.).
以 search engines 進行詞彙精確檢索結果 |
---|
出處/學術領域 | 英文詞彙 | 中文詞彙 |
---|---|---|
學術名詞 藥學 |
search engines | 搜尋引擎 |
以 搜尋引擎 進行詞彙精確檢索結果 |
---|
出處/學術領域 | 中文詞彙 | 英文詞彙 |
---|---|---|
學術名詞 資訊名詞-兩岸中小學教科書名詞 |
搜尋引擎 | search engine |
學術名詞 管理學名詞 |
搜尋引擎 | search engine |
學術名詞 資訊名詞-高中(含)以下資訊名詞 |
搜尋引擎 | search engine |
學術名詞 兩岸對照名詞-計算機 |
搜尋引擎 | search engine |
學術名詞 新聞傳播學名詞 |
搜尋引擎 | webcrawler |
學術名詞 新聞傳播學名詞 |
搜尋引擎 | search engine |
學術名詞 藥學 |
搜尋引擎 | search engines |
學術名詞 地理學名詞-GIS名詞 |
搜尋引擎 | search engine |
學術名詞 電機工程 |
搜尋引擎 | search engine |
學術名詞 電機工程 |
搜尋引擎 | searching engine |
學術名詞 機械工程 |
搜尋引擎 | search engine |
學術名詞 機械工程 |
搜尋引擎 | searching engine |
學術名詞 電子工程 |
搜尋引擎 | search engine |
學術名詞 電子工程 |
搜尋引擎 | searching engine |
學術名詞 電子計算機名詞 |
搜尋引擎 | search engine |