QRCode

XML資訊檢索

XML information retrieval

葉鎮源
2012年10月
圖書館學與資訊科學大辭典

名詞解釋:

  資料庫搜尋係透過結構化查詢語言(structured query language,簡稱SQL)來查詢儲存在資料庫中的結構化關聯資料,而資訊檢索(information retrieval)則是幫助使用者從非結構化的文件資料庫中,搜尋並取得符合其資訊需求的文件。相較於前面兩者,XML文件儲存資料的方式不像非結構化文件那樣毫無結構可言,一般可透過文件類型定義(document type definition,簡稱DTD)或是XML schema來定義文件結構,但比起資料庫有嚴謹的表格與欄位定義也有些差距,這樣的特性使得傳統資料庫檢索與資訊檢索的方式無法直接套用在XML資訊檢索上使用。
XML資訊檢索(XML information retrieval)必須同時考量資料的吻合度以及文件結構的相似度。如果查詢者想要找的是姓名(name)中含有Washington字樣的學生(student)資料時,系統內部利用文件物件模型(document object model,簡稱DOM)或是XPath查詢語法來找到符合的資料。前者允許使用者任意選取XML文件中的各個節點進行操作、讀取,進而比對和使用者查詢的一致性;後者透過XPath語法(例如:/students/student/name)來選取XML文件中的節點,再一一比對節點文字是否跟查詢吻合。
基於資料安全性的考量,直接開放讓一般使用者透過文件物件模型來進行XML檢索並不適合;另外,使用XPath的方式則使用者必須對於欲檢索的XML文件結構有所瞭解,否則使用者若使用錯誤的XPath查詢條件,便無法獲得預期的結果。由此可知,XML檢索除了類似於資訊檢索的比對關鍵字相似程度之外,還必須兼顧文件與使用者查詢之間結構相似的程度。

圖1: XML文件(左邊)與詞彙子樹集合(右邊)的對應關係範例

要比對結構的相似度,則必須將使用者的查詢及XML文件拆成多個詞彙化子樹(lecicalized subtree)的集合,然後再進行結構的比對;圖1範例中左邊的XML文件物件模型可以拆解成右邊許多的子樹模型結構。舉例來說,若以cq表示來自使用者查詢的一個詞彙化子樹的結構,cd是XML文件中的一個詞彙化子樹的結構,則兩者的相似度計算方式可以定義如下:

  其中,|Cq|與|Cd|個別代表的是子樹中的節點數目。基於前述公式,可由計算兩兩子樹的相似度,擴展成為完整的使用者查詢與XML文件間相似度計算。
  XML文件除了儲存文字資料(例如:書目資料)之外,也常拿來作為儲存數據資料(例如員工薪資)使用。因此,XML檢索除了有類似於資訊檢索的以文字為主(text-centric)的查詢需求之外,也有類似資料庫查詢的以資料為主(data-centric)的查詢需求。然而相較於以關鍵字形式的文字檢索,進行數據資料查詢時,檢索條件的比對就必須是完全吻合(=),或者符合比較條件(<, >, >=等),同時還會有排序、加總等條件的考量。
  最後,特別一提的是,World Wide Web Consortium(簡稱W3C)致力於制訂標準的XQuery語法,讓使用XML檢索的使用者與系統設計者能有固定的語法規則可以遵循。實際上,檢索時除了前述簡易的XML資料檢索方法外,已有許多不同的方法被提出與改善。同而,INEX(INitiative for the Evaluation of XML Retrieval)每年都有舉辦XML檢索相關的競賽與論文研討會,作為全球XML檢索研究人員交流與展示最新的XML檢索技術。

參考資料:

Croft, W. B., Metzler, D., & Strohman, T. (2009). Search engines: information retrieval in practice. Boston, MA: Addison-Wesley.

Lalmas, M. (2009). XML retrieval. In G. Marchionini (Ed. ), Synthesis lectures on information concepts, retrieval, and services (pp. 1-111). San Rafael, CA: Morgan & Claypool Publishers.

Manning, C., D., Raghavan, P., & Schütze, H. (2008). An introduction to information retrieval.Cambridge, England: Cambridge University Press.

XML資訊檢索

XML information retrieval

XML information retrieval 進行詞彙精確檢索結果
出處/學術領域 英文詞彙 中文詞彙
XML資訊檢索 進行詞彙精確檢索結果
出處/學術領域 中文詞彙 英文詞彙

引用網址: