面向語義的網絡信息資源整合的指示數據庫案例研究①

簡體傳統

　　隨著網絡信息資源的不斷膨脹，網絡信息用戶獲取有效信息的途徑和手段已顯貧乏。如何有效地進行信息資源的整合，以更好地面向用戶提供與其自身認知空間相匹配、有實際意義的個性化信息。這已成為相關信息資源管理工作者所探究的熱點問題。
　　1　網絡信息資源的現狀
　　近年來，因特網的迅速普及促進了網絡信息資源數量的飛速增長，網絡信息資源在激增過程中也凸現出了如下的“數量有余、質量不足”的特征。[1]
　　(1)信息量大、傳播范圍廣：信息來源極為廣泛，幾乎包含所有類型的信息資源，這是網絡信息資源的最突出特點。
　　(2)增長迅速、不斷更新：傳統文獻信息以年、月的速度增長，網絡信息卻以每時每刻的變化不斷增減，不斷發生著動態變化。
　　(3)內容分散、組織松散：從網絡產生至今，一直沒有較統一的組織進行管理，造成信息內容龐雜、分散、結構松散、質量不一，魚龍混雜。
　　(4)無法體現良好的語義特性：由于網絡信息資源建設中的以發布信息為己任的定位，使得用戶在使用網絡信息資源時難以滿足面向內容本質的信息獲取。因此，網絡信息資源亟待面向語義地進行深度整合，以形成網絡信息資源的“群島”優勢。
　　2　網絡環境下用戶的信息需求
　　網絡環境下用戶的信息需求逐漸牽引著信息資源組織結構的變化，它具有良好的導向性。情報學等相關研究正在從信息檢索系統的設計和開發，轉移到強調信息消費主體的知識結構、信息行為、人機交互和信息查詢等方面，其實質是從信息系統轉向用戶的變化，走向了以用戶為導向的人的認知結構的研究[2]。
　　在這種情況下，強調理解人在信息查詢和使用情境中的信息組織與處理方式的知識結構的變化成為必須關注的重點。所以相應研究重點和視角應從物理層次的信息轉向認識層次的知識，用認知的觀點指導信息組織的研究，研究人們如何思考以及模仿思考的規律，才能使信息組織研究沿著良好的方向發展，才能為信息組織理論的整體性研究奠定堅實的基礎。
　　此外，用戶利用網絡信息資源的目的是明確的，他們需要的信息是有序的，并且常常針對某一個或幾個專題。這種信息需求的集中性、有序性、目的性和網絡信息資源的分散性、無序性之間有著難以調和的矛盾，而網絡信息用戶的差異性又使得這種矛盾更為突出。因此，只有對網絡信息資源進行有針對性的組織，才能使其有序化并方便查詢，使網絡信息用戶真正有效地利用網絡信息資源。因此，網絡環境下用戶的信息需求主要表現為“面向認知結構”和“面向語義”[3]。
　　3　面向語義的網絡信息資源整合的“概念體系”(ontology)方法
　　針對網絡信息資源分布的分散性、無序性與網絡用戶信息需求的有序性和針對性之間的矛盾，目前行之有效的方法乃為在現有信息資源的基礎上，對其進行面向用戶的深度整合。這樣，既可將大量分散的信息按照某種邏輯結構系統化，又可以使用戶省力地獲得相應的信息資源。就目前信息資源整合的理念和方法而言，“概念體系”(ontology)的方法頗具代表性[4]。
　　概念體系(ontology)通過一個語言定義和標記后成為顯性知識，可用于信息系統中表征和交換知識，并可被知識代理(agents)自動解析和識別。Ontology作為一種能在語義和知識層次上描述信息系統的概念模型建模工具，在知識的表示、信息的組織等方面對語義Web的研究意義重大。Ontology具有的良好的概念層次結構和對邏輯推理的支持，它與XML(可擴展式標識語言)和RDF(資源描述框架)一起作為網絡信息資源組織的技術基礎，共同解決語義層次上的網絡信息共享和交換。圖1描述了基于概念體系(ontology)的語義信息表示基礎[5]。
　　

　　圖1　基于本體的語義信息表示的基礎
　　根據圖1的表示，我們可以看到一個整體“概念體系”是由領域內的認識論的建模支持、一階邏輯的形式化語義和推理支持，以及由XML和RDF的語法和工具支持共同形成。
　　作者從圖書情報學的角度理解ontology這一概念，認為ontology可以譯為概念體系，定義基本詞匯及關系，組成主題領域的詞匯表以及將它們結合在一起的規則體系。它包括：對象(object)、屬性(property)和關聯(relation)。對象代表概念或者某領域中的實體；屬性是揭示反映對象的特性或值，或者是對對象的某種限定；關聯代表了實體對象之間存在的關系、聯系，包括概念定義(is-a)、等同/同義關系(equivalence/synonym)、層級關系(hierarchy)、相關關系(related-to)等。這些關聯將概念體系(ontology)有機地連接成為一個具有語義的整體。因此，這種解讀既體現出其“概念化的具體規定”的本質[6]，又與圖書情報領域中的傳統的敘詞方法在機理上有效地結合起來了[7]。
　　4　指示“信息源”的指示數據庫及其作用
　　所謂指示數據庫，是指所建立的數據庫中，從物理上講并不存儲實際的信息資源，但對其進行訪問卻可以檢索到有關數據庫的實際資源，即指引用戶到特定的地址獲取所需信息。這樣，就可以把Internet上與某一主題相關的結點進行集中，按照方便用戶檢索的原則，用熟悉的語言組織起來，向用戶提供這些資源的分布情況，指引用戶的信息查詢行為。指示數據庫的作用、特點如下[1]：
　　(1)指示數據庫可以說是網絡環境下的信息分布的指引中心，聯合國教科文組織出版的《指引中心導論》對指引中心的定義是：不僅為用戶提供其需求的情報源，還要負責辨別和確認信息源，同時也提供與其共同工作的信息網中的其他服務項目。
　　(2)指示數據庫給用戶提供了一個很好的查詢機制，既可以快速地找到專業領域的二次信息，還可以進一步查詢一次信息；檢索效率很好，“查準率”也比較高，一般不會出現與主題毫不相干的信息。
　　由于指示數據庫上述“指示信息源”的獨特功能，在紛紜復雜的網絡信息資源組織中，它的重要性顯然已不言自明了。
　　5　面向語義的“理論情報學”指示數據庫的案例研究
　　5. 1　資料搜集
　　為了突出構造概念體系所要求的領域專家的要求，在實驗中選取了“理論情報學”這一概念建立情報學領域及其相關的局部概念體系(ontology)。
　　在選定目標概念以后，分別采用幾個發展較為成熟的搜索引擎以“理論情報學”檢索得到了相對較為全面的“理論情報學”相關信息，詳見表1。
　　表1　“理論情報學”檢索情況統計表

 搜索引擎   檢索條目數  顯示條目數   百度         31          14Google中文      32          22Yahoo中文       20          16   天網         10          10   搜狐          1           1

　　5. 2　資料整理
　　通過對檢索結果匯總，去掉重復連接、無效連接、無關連接等共得到15條有效信息。再經過對這些信息進行語義分析，從中提取出有意義的情報學概念和詞匯形成有關“理論情報學”的概念體系(ontology)。
　　結果將這些詞匯分為兩類：概念(有方框)和概念的屬性(無方框)，圖2中括號內為該概念的同義詞或別稱。由于現有的網絡檢索工具對專業領域的信息檢索效果相對較差，所以本文根據專業相關的內容進一步選取概念詞匯繼續檢索，以充實該概念體系。
　　

　　圖2　“理論情報學”的概念體系
　　在圖2中，該概念體系的每一個概念均可進一步充實，例如，本文選取“理論情報學人物”這一分支進行充實。在理論情報學中，其思想流派占有一席之地的代表性人物有布魯克斯、蘭喀斯特、米哈依洛夫、約維茨等。將這些人物作為檢索點從前述搜索引擎中再次檢索。得到14條有效檢索結果，從中抽取出概念及概念的屬性將概念體系圖充實如圖2。
　　依概念體系的本質，它應經過不斷充實和改進，進而覆蓋本專業領域的各個知識點。而根據概念體系結構組織信息，制作本專業領域的指示數據庫作為二次檢索工具將大大提高信息查找的準確率。以下本文擬將實驗得到的檢索結果以及從中提取出來的詞匯存入數據庫當中，實驗性地在概念體系(ontology)思想的指導下建立指示數據庫。
　　5. 3　建立數據庫
　　本文之所以選取Microsoft SQL Server存儲以上信息，主要考慮了其海量存儲功能和靈活的查詢語句以及Microsoft家族產品良好的兼容性。
　　新建數據庫“yw”如圖3所示。
　　

　　圖3　新建數據庫示意圖
　　打開數據庫yw，在數據庫yw中建立表“netinfo”存放與“理論情報學”相關的29條信息，如圖4所示。圖中id可以唯一標識信息條目。將信息名稱和提取出的關鍵詞分別存放于title和keywords字段。keywords字段的內容將在檢索過程中與檢索詞相匹配。
　　

　　圖4　表netinfo示意圖
　　在數據庫yw中建立表“concept”存放上文概念體系圖中的概念及其同義詞。按照概念體系(Ontology)理論，在存放概念的同時也要將概念之間的等級從屬關系存入表中，如圖5所示。cname字段存放概念，byname字段存放概念的同義詞，father_id字段存放的是此概念上一級概念的id。father_id字段體現了概念之間的等級從屬關系。
　　

　　圖5　表concetp示意圖
　　將概念體系中的概念及其屬性分開存放有利于系統的可修改和擴容性。所以本文將概念和屬性分別存放在“concept”和“property”兩個表中。在數據庫yw中建立表“property”存放概念的屬性，如圖6所示。pro_name字段存放屬性的名稱，c_id存放的是此屬性所描述的概念在表concept中的id，而father_pro_id存放的是此屬性的上一級屬性在表property中的id。
　　

　　圖6　表property示意圖
　　接下來，在數據庫yw中建立表“Info_Link_Concept”存放概念與信息的對應關系。只有將概念與其相關信息聯系起來，在檢索的時候才能檢索到這些信息。將前述建立的3個表中唯一標識條目內容的id按照概念體系圖中的關系分別對應存放于info_id、con_id和pro_id 3個字段中(圖7)。
　　

　　圖7　表info_Link_Concept示意圖
　　最后在數據庫yw中建立表“iptable”存放信息的IP鏈接地址，并將其與信息名稱對應起來。如圖8所示，ipadr字段存放ip連接地址，info_id字段存放與其對應的信息名稱。
　　

　　圖8　表iptable示意圖
　　5. 4　數據檢索
　　以上5個表組成了實驗用數據庫“yw”，下面要做的就是使用sql查詢語句用上述概念體系圖中的概念作為檢索詞，對數據庫中的信息進行檢索。
　　具體查詢文件如圖9所示。
　　

　　圖9　查詢文件示意圖
　　運行查詢文件結果顯示如圖10所示。
　　

　　圖10　查詢結果示意圖
　　輸入檢索詞“理論情報學”檢索出19條相關信息以及每條信息的若干連接地址，同時顯示出檢索詞的上位概念“情報學學科體系”；同位概念“普通情報學”、“應用情報學”、“理論情報學”、“技術情報學”以及它們的同義詞；下位概念“情報學學科建設”、“信息構建”、“情報學原理”、“情報學發展趨勢”等；檢索詞的屬性“理論情報學教學計劃”、“理論情報學專業介紹”、“理論情報學機構”、“理論情報學人物”等，以及“理論情報學人物”的子屬性“布魯克斯”、“蘭卡斯特”、“米哈依洛夫”、“約維茨”等情報學家和他們的主要學術思想。
　　由于在存放這些概念的時候是在概念體系的指導下，不僅將概念詞匯存放于數據庫中，并且存放了能夠反映專業知識結構的概念之間的等級從屬關系。因此一次檢索行為，便得到有關“理論情報學”相關知識結構。用戶在指示數據庫中檢索“理論情報學”這個概念的時候可以檢索到理論情報學代表人物的主要學術思想，從而進一步充實了檢索結果，滿足了用戶面向內容的查詢需求。
　　實驗中，用戶可以根據檢索結果提供的相關概念體系的知識點繼續查詢感興趣的信息，這樣就使得用戶的檢索行為更有針對性。在此數據庫中，如果用戶輸入的檢索詞并不是標準的概念，可能是概念的同義詞或者等同詞匯，那么由數據庫中的同義詞字段(相當于入口詞的控制詞表)也可以指向相關的概念，從而使用戶得到更為相關的檢索結果。
　　該實驗檢索結果與使用前述搜索引擎的檢索結果相比更加簡潔和準確。結果表明使用概念體系(ontology)指導信息組織可以很大程度上提高用戶檢索到有效信息的比率，從而給用戶的信息查詢帶來了“最小省力”的效果。
　　6　結果總結
　　(1)實驗中數據庫設計成將概念、屬性和關聯分別存儲于不同的表中，使之在物理上保持了相互獨立。現實中互聯網信息發展變化非常迅速，這種存儲結構有利于數據庫信息的維護，只需改動局部信息，不會對整個知識結構造成大的修改，概念體系也就相對穩定。在存儲過程中，將信息按照這種數據結構存放自然而然就形成了此領域概念體系結構的知識網絡。
　　(2)所輸入的檢索詞，既可以是概念或者概念的同義詞，也可以是概念的屬性，則可以顯示出與檢索詞相關的檢索結果，同時系統可以顯示出此檢索詞的規范概念、上位概念、同位概念、下位概念、該檢索詞的相關屬性及其檢索結果的若干鏈接地址。用戶可以通過檢索到的相關信息的地址進一步查看網絡信息資源。使用這樣的數據庫，用戶不僅能夠快速準確地找到所需信息，還可以對相關知識網絡有更深入全面的了解，使自己已有的知識結構不斷地得到充實和完善。
　　(3)誠然，建立大規模指示數據庫需要比該實驗更加完善的解決方案。不僅需要后臺數據庫的支持，還需要有良好的用戶網絡界面和調用數據庫中信息的中間件技術。此外還要根據不同專業領域中知識存在的特點來具體設計實現。
　　(4)在上述實驗中對于數據庫中網頁信息的標引完全由專業工作人員進行手工標引，在實際操作中可以引進半自動化或者自動化文獻標引系統來完成這一大量繁重的工作，提高系統的工作效率。但是領域“概念體系”的建立則要在專家的指導和參與下進行。
　　(5)由上述實驗可以看出，利用現有技術建立專業領域的指示數據庫作為二次檢索工具具有良好的語義信息服務的前景。由專業機構對網絡文獻信息稍加整理，建立起各個學科領域的面向語義的指示數據庫，可以使信息查詢行為得到很大改善，用戶無需再受到大量冗余信息的困擾。面向語義的網絡信息資源整合的指示數據庫可以大大降低信息用戶檢索行為的成本。
　　注釋：
　　①本文系天津市哲學社會科學2005年度規劃課題“面向就業能力的圖書情報專業教育模式研究”系列成果之一(TJ05TQ005)。
情報學報京620～628G9圖書館學、信息科學、資料工作劉春茂/楊衛20072007
網絡信息/ontology/指示數據庫/語義整合/理論情報學
　　networked information/ontology/referred database/semantic integration/theoretical information science
Case Study of Referred Database Oriented to Semantic Networked Information Integration
本文基于概念體系(ontology)的思想，用關系數據庫(SQL)方法模擬地實現了具有語義信息資源整合的“理論情報學”指示數據庫，探索了在網絡環境下開發面向語義的二次性信息檢索工具的必要性及其應用前景。
作者：情報學報京620～628G9圖書館學、信息科學、資料工作劉春茂/楊衛20072007
網絡信息/ontology/指示數據庫/語義整合/理論情報學
　　networked information/ontology/referred database/semantic integration/theoretical information science

網載 2013-09-10 21:39:58

[新一篇] 面向新世紀的出版學研究

[舊一篇] 韓國高等職業技術教育的課程設置