數字資源整合的實現機制及關鍵技術　　——對國外數字資源整合系統的實證研究

簡體傳統

　　分類號G250.76
　　數字資源整合是近年來數字圖書館領域的研究熱點，而數字資源整合實現機制又是熱點中的重點。不同的整合實現機制會導致整合系統在結構、模塊組成和所采用技術等方面出現差異，也會直接影響整合系統的效率。
　　本文采用實證的方法，對國外現有的數字資源整合系統進行分析，著重探討它們的實現機制。
　　1 國外數字資源整合系統概況
　　近年來，世界各國的學者和研究機構相繼開發出了一系列數字資源整合系統，瑞士蘇黎世大學信息學院整理、報導了175個整合項目和相關系統[1]，筆者又進一步查閱文獻，找到了另外35個項目和相關系統，兩項合計并除去其中67項局部整合技術研究，共有143個項目研發有完整的系統。它們基本反映了現階段國外數字資源整合研究的最新進展，揭示了整合研究的發展方向。
　　從這143個系統的地域分布看，美國是整合研究領域的主要力量，研發的系統占到51.7%，其次是德國、法國、英國、意大利、瑞士等歐洲國家，它們研發的系統分別在10%～50%之間，加拿大、西班牙、希臘、巴西等國也有一定的研究。美國、英國、法國、瑞士等國家的一些大學和科研機構，長期致力于數字資源整合研究，形成了比較深入且連續的理論體系，研發了較多的系統，并廣泛應用于實踐。這些國家的主要研究團體包括：美國的斯坦福大學（開發有IDIMS,Infomaster, MedMaker, TSIMMIS等系統）、華盛頓大學（開發有BioMediator, Piazza, Tukwila等系統）、南加州大學（開發有Ariadne, Prometheus, SIMS等系統）、馬里蘭大學（如MOCHA, WebSemantics）、英國的謝菲爾德大學（開發有LASIE,MELITA等系統）、法國國家信息與自動化研究院（開發有Active XML, Agora, DISCO等系統）、瑞士的蘇黎世大學（開發有SINGAPORE,SIRUP等系統）等。多國間的合作也是研究的一個特色，占4.2%。不過，跨國研發多限于美國和歐盟國家。
　　143個系統中，最早的系統出現于20世紀80年代初期，主要應用于分布式異構關系數據庫的整合，目的是屏蔽各個數據庫結構、組織方式等方面的差別，為用戶提供訪問資源的統一接口，法國國家信息與自動化研究院開發的MRDSM系統就屬于這4種類型。
　　20世紀90年代以來，隨著Web的普及，數字資源的范圍逐步擴展至網絡數據庫、網頁、文件等結構化、半結構化和非結構化信息資源，數字資源的異構性、分布性特點更加突出。網絡數字資源的整合成了研究的重點和主流。143個系統中，90%以上的整合系統都屬于網絡數字資源整合系統。
　　2 數字資源整合系統的實現機制
　　根據我們的分析，目前數字資源整合系統的實現機制可以概括為數據倉庫整合機制、Mediator/Wrapper整合機制（中介器封裝器整合機制）、Agent整合機制（代理整合機制）以及P2P整合機制（對等網整合機制）4種類型。
　　數據倉庫整合機制是較早提出的一種數字資源的物理集成方法，在早期的系統和當前系統中均有應用，采用這種機制的系統有21個，占14.7%。中介器封裝器整合機制是目前數字資源整合系統的主流實現方式，有99個系統采用，占69.2%。代理整合機制是一種新的整合機制，能夠有效增加數字資源整合系統的靈活性，提高系統效率，已有14個系統采用，占9.8%。對等網也是近年來出現的一項新興技術，因靈活性、適用性強等優點受到數字圖書館界的廣泛關注，是近年來數字資源整合研究領域的一個新熱點，采用這種機制的系統有9個，占6.3%。
　　2.1 數據倉庫整合機制
　　數據倉庫整合機制是一種物理集成方式，它將不同來源的數字資源按特定的方式（通常是按主題或其他多維方式）建模并存儲在同一物理位置（稱為數據倉庫），提供給用戶一個新的、統一的目標數據模式，使得用戶能夠一站式地訪問各種數字資源，從而達到整合目的。
　　數據倉庫整合機制最根本的特點是在同一物理位置存放數字資源，集中管理不同來源的數字資源，簡化了用戶訪問信息的復雜度，提高了數字資源的訪問速度和整合系統的性能。而且由于實現了不同來源的數字資源的一致性存儲，這種整合機制還有利于實施比信息檢索更復雜、更深入的數據挖掘、知識發現等服務。采用數據倉庫整合機制進行整合的前提是必須能合法地（例如通過授權）獲得來源系統中的數字資源。但因為是集中存儲要整合的數字資源，所以難以適應網絡數字資源類型多樣、變化快等特點，還會增加本地系統存儲與維護的負担。
　　法國、德國聯合開發的Xyleme、美國斯坦福大學的WHIPS、美國喬治亞大學的InfoHarness等數字資源整合系統都是使用數據倉庫整合機制的代表性系統。數據倉庫整合機制涉及的技術主要有：
　　(1)海量數據存儲。解決海量數據的存儲問題，除了需要相應的專門設備如磁盤陣列、光盤庫、磁帶庫等，還需要精心設計存儲結構和存儲算法，既要保證數字資源有合理的物理存儲結構，又要保證有較快的存取速度。
　　(2)ETL技術。它是對要加以整合的數字資源進行抽取(Extract)、轉換(Transform)、清洗(Cleaning)、裝載(Loading)的技術。對不同來源的數字資源進行物理集成，首先需要從參與整合的系統中抽取出相關數字資源，這需要使用信息抽取技術。由于信息源是異構的，還必須利用轉換技術將不同結構的數字資源規范化，消除異構數字資源之間的不一致性，為來自不同系統的數字資源之間的比較、整合以及統一存儲奠定基礎。清洗技術主要是解決信息冗余的去重以及錯誤和不完整信息的修正、剔除問題。裝載技術則是將清洗后的數字資源按一定的規則加載至數據倉庫，形成數據倉庫的物理存儲結構和邏輯存儲結構。
　　(3)信息源的監控與更新。數據倉庫本身與信息源在物理上是分離的，必須要解決數據倉庫與信息源的同步問題。必須要監控參與整合的信息源的變化，同步更新數據倉庫，確保用戶在整合系統中查詢到的是各個信息源中的最新數據資源。
　　2.2 中介器封裝器整合機制
　　這是一種虛擬整合方式。在基于這種機制的整合系統中，并不真正存儲需要整合的數字資源，而是通過中介器和封裝器來實現整合。它們均為軟件組件，位于用戶和數據源之間，中介器負責處理用戶提問和查詢結果的整合，封裝器負責對信息源的連接和具體查詢。
　　

　　圖1 中介器封裝器整合機制的基本原理
　　該整合機制的基本原理如圖1所示。在基于這種機制的整合系統中，用戶按全局模式(Global Schema)進行查詢，中介器接收用戶查詢并將之轉換成中間格式，然后提交給相應的封裝器，封裝器進一步將中間格式的查詢轉化為信息源模式或本地模式(Source/Local Schema)的查詢，并與參加整合的相應信息源進行連接，實現對相應信息源的查詢，將查詢結果返回給中介器，中介器對結果進行處理，以統一的形式提供給用戶。
　　與數據倉庫整合機制相比，中介器封裝器整合機制能夠有效保持各個異構信息源的自治性，滿足局部的應用，并且能夠充分發揮中介器的作用，滿足全局性應用。使用這種機制的整合系統不需要在本地儲存大量的數字資源，能夠適應網絡環境下信息源高度自治、數量多、更新變化快等特點。在中介器中引入本體論等語義相關技術后，能夠有效解決知識整合、個性化服務等問題。因而該整合機制是目前實現數字資源整合的主流方式。
　　中介器封裝器整合機制中，主要通過GAV，LAV，GLAV和BAV等4種方式實現全局模式與信息源模式或本地模式之間的映射。
　　GAV(Global as view)映射方式根據信息源模式（本地模式）來定義全局模式，以全局模式為中心，全局模式中的關系被定義為信息源模式（本地模式）中關系的視圖。采用GAV映射方式的整合系統在提問式轉換的過程中，只需將用全局模式表示的用戶提問進行視圖展開，就可以得到用信息源模式（本地模式）表示的子提問，整個過程比較簡單。GAV映射方式是目前應用最為廣泛的一種映射方式[2]。美國斯坦福大學開發的TSIMMIS系統、英國曼徹斯特大學開發的TAMBIS系統、德國漢堡大學開發的SQXML系統、意大利羅馬大學開發的IBIS系統等均使用了GAV映射方式。
　　LAV(Local as View)映射方式與GAV恰好相反，它根據全局模式來定義信息源模式（本地模式），以信息源模式（本地模式）為中心。全局模式涵蓋了參與整合的所有信息源模式（本地模式），一個具體的信息源模式（本地模式）是全局模式的一組視圖。采用LAV映射的整合系統在提問式轉換的過程中，必須將根據全局模式定義的查詢式進行重組，稱為“利用視圖重寫查詢式”(rewriting queries using views)，整個過程比較復雜[3]。使用LAV映射方式的數字資源整合系統主要有法國國家信息與自動化研究院的Agora、法國巴黎第四大學的PICSEL、美國華盛頓大學的Razor等。
　　GLAV(global-local-as-view)映射方式混合使用GAV和LAV，通過定義全局模式與信息源模式（本地模式）之間的語義映射，能夠在與信息源模式（本地模式）無關的情況下靈活定義全局模式[4]。一般地說，GLAV可看做是LAV的變體，它實現了表達能力和查詢的易處理性之間的最佳折中，并保留了LAV在可擴展性方面的優勢，近年逐漸受到研究人員的重視，越來越多地應用于整合系統的研發。美國加州大學的MARS系統和意大利羅馬大學的DIS＠DIS系統均使用GLAV映射方式。
　　BAV(Both as View)映射方式使用雙向模式變換，建立全局模式與信息源模式（本地模式）之間的轉換規則，通過轉換規則，既能夠從信息模式（本地模式）中抽取出全局模式的定義，也能夠從后者中抽取出前者的定義。BAV可以同時支持信息源模式（本地模式）和全局模式的動態變化[5]。BAV是近年來提出的新的整合模式，理論上優點明顯，但實現技術較復雜，還未得到廣泛應用。目前只有倫敦皇家學院開發的AutoMed采用BAV映射方式。
　　中介器封裝器整合機制涉及的主要技術有：
　　(1)信息源選擇技術。中介器封裝器整合機制是一種虛擬整合方式，整合系統本身并不存儲被整合的數字資源。如果將用戶查詢不加區別地發送給參與整合的所有信息源，必然占用較多的帶寬并增加系統的負担。這就需要利用信息源選擇技術來確定相關度高的信息源，以提高整合系統的效率。信息源選擇技術主要包括信息源描述和信息源選擇兩個方面，前者是按一定的算法建立對各信息源的描述模型，后者是在信息源描述模型的基礎上，根據用戶查詢，按一定算法選出相關度高的信息源作為查詢對象[6～7]。
　　(2)信息抽取技術。它應用于整合系統的目的是將參與整合的半結構化、非結構化信息源中的數字資源轉化成結構性更強、語義更清晰的格式，以提高查詢速度[8]。信息抽取技術已成為生成封裝器的關鍵技術之一，廣泛應用于面向網絡數字資源的整合系統中。
　　(3)查詢處理技術。這是對查詢進行檢驗、重構、優化的技術。用戶對整合系統查詢時，整合系統需首先對用戶查詢進行語法分析和檢驗，確保查詢符合系統全局模式的要求，這部分工作主要由查詢檢驗技術完成。此后，整合系統再將經過檢驗的查詢按一定的規則轉換為面向不同信息源模式（本地模式）的多個查詢，這個過程稱為查詢重構。整合系統面對的是不同的信息源，由于各個信息源有其自身的特點，例如有不同的傳輸帶寬和傳輸延時，加之當前運行情況有不確定性，如當前的信息源訪問量是大還是小、信息源是否能很快與整合系統建立連接等等，這就要求整合系統根據各信息源的當前運行情況制定最優查詢計劃和查詢調配方案，并據此對各信息源進行查詢，這個過程稱為查詢優化[9～11]。
　　(4)結果整合技術。整合系統提供對各信息源的一站式訪問，因而對信息源訪問完畢后需要用中介器對來自不同信息源的結果信息進行整合及合成，以統一的形式呈現給用戶。結果整合主要是對不同信息源的結果做并操作，并且重新計算結果的相關度。一般地說，對一個信息源進行查詢會形成一個相應的查詢子視圖，結果整合的目的就是將這些子視圖連接起來，形成一個完整的視圖，提供給用戶。
　　(5)語義整合技術。隨著整合研究理論和實踐不斷深入，Ontology、語言建模、機器學習等語義相關技術逐漸應用于數字資源整合。語義整合技術被用來在系統運行期間獲取和處理數字資源的意義及其之間的關聯，使整合系統能夠建立用戶提問與各信息源之間的語義聯系，消除各種數字資源的異構性，并能夠將分散存儲、表現形式不同的信息源中的有用資源進行再組織，真正滿足用戶的信息需求，從而提高數字資源整合的質量[12]。
　　2.3 代理整合機制
　　代理整合機制的基本原理如圖2所示。這種整合機制中，使用了三類基本的Agent：用戶Agent、資源Agent和代理方Agent。用戶Agent負責維護用戶信息，并提供系統接口，以方便用戶與整合系統進行交互。資源Agent負責對分布式資源進行處理，將數字資源按照整合系統的表示形式進行描述和轉換。代理方Agent負責將從用戶Agent發出的查詢請求與所要查詢的資源Agent進行匹配[13]。
　　

　　圖2 Agent機制的基本原理
　　代理整合機制的優點在于能夠有效利用Agent的特性來提高系統的整合效率。首先，Agent的自主性和移動性使得整合系統能夠主動適應網絡環境的變化，增強了整合系統的靈活性，整合系統能更加適應數字資源分布性及異構性的特點。其次，Agent能夠在非連續運行的網絡環境中運行，因此Agent還可處于移動計算環境中，這使得各種移動設備（如PDA等）也能加入使用整合系統當中[14]。Agent機制的這些特點，使它成為近年來整合研究的熱點之一。
　　目前采用Agent機制的典型整合系統包括美國德克薩斯州奧斯汀微電子和計算機技術公司(MCC)開發的InfoSleuth、美國德克薩斯技術大學開發的AgentRAIDER、意大利摩德納大學開發的MIKS等系統。在Agent整合機制中，如何使多個Agent協調工作，是采用這種機制的整合系統要解決的關鍵技術，具體地說，包括：
　　(1)Agent間的通信技術。為了達到整合目的，提高整合效率，需要通過Agent通信技術來實現Agent間的“會話”。一般來說，Agent間的通信是通過Agent通信語言(ACL)來實現的，Agent通信語言用于描述相應Agent的狀態和屬性，定義Agent可以交換的語法和語義消息。這種包含語義信息的通信語言不僅有利于協助Agent之間進行互操作，還有利于進行語義層次的整合[15]。
　　(2)Agent協調技術。在Agent整合機制中，多個Agent作為一個整體而存在，雖然每個Agent的任務有所區別，但它們作為一個整體，具有共同目標，就是實現整合。在任務執行的過程中，需要應用Agent協調技術來管理一個或多個Agent行為之間的從屬關系，避免執行時發生沖突，所要解決的問題包括組織結構、任務分解、資源分配、群組決策、沖突發現與解決等。
　　2.4 P2P整合機制
　　P2P(Peer-to-peer)是近年來興起的一種新的計算模式，它能夠使PC和其他非服務器計算實體以對等的方式聯網，彼此共享對方的資源。其主要特點是支持互連主機的動態變化。
　　P2P整合機制的基本原理如圖3所示，其中，存在有多個分布式的對等點(peer)，每一個對等點都擁有一套自己的數據模式（對等點模式）。整合過程中，通過對等點模式與本地資源模式的映射，實現對本地資源的訪問，同時依靠P2P映射來完成對等點之間的模式轉換，實現對等點間的通信。通過這種方式，在任何一個對等點中執行的查詢也均可以在其他相連的對等點中執行，從而達到有效訪問各分布信息源的目的。
　　P2P整合機制不僅能夠實現大規模數字資源的集成，而且可以實現Web資源的動態整合，使整合系統具有強大的擴展性，是一種比較有生命力的整合機制。但由于學術界對P2P整合機制的研究處于起步階段，目前理論研究較多，實際應用系統數量還不太多。在我們調研的143個系統中，有9個系統采用了P2P整合機制，其中較有影響的系統是美國加州大學開發的RACCOON系統，可以在加州大學網站上免費獲取該系統的源代碼。
　　

　　圖3 P2P整合機制的基本原理
　　P2P整合機制的關鍵技術是P2P映射以及對等點的發現與搜索。
　　(1)P2P映射建立技術。在P2P整合機制中，由于每個對等點的模式不同，需要在對等點模式之間建立映射。在對等點中，以對等點模式作為處理對象，無需建立和維護單一的全局模式。相對于GAV，LAV，GLAV和BAV中的模式映射而言，P2P映射是比較簡單的，容易從系統中增加和刪除，并且不影響整合的效率。
　　P2P映射的建立一般包括兩個步驟[16]。第一步為模式匹配，即在需匹配的模式間尋找能夠標識出模式中的相同或相似元素的對應關系，這種對應關系一般是指對元素相似性的描述，基本上不包含語義信息。第二步，通過對應關系，利用一系列自動化技術，在人工干預下，建立精確的P2P映射。
　　(2)P2P對等點的發現與搜索技術。在整合過程中，由于P2P網絡中存在多個對等點，每個對等點存儲有不同的數字資源，因此需要針對具體的用戶需求，利用發現策略、搜索算法等相關技術，對P2P資源進行搜索，找出合適的對等點，并通過多個對等點的協作來集成資源。目前在P2P對等點的發現與搜索中應用較多的是分布式哈希列表(DHT)技術。這種技術使用分布式哈希算法來解決結構化的分布式存儲問題，DHT中存儲有每個對等點的相關信息，通過DHT可針對具體需求獲取所需對等點的信息，從而解決了對等點的發現問題，然后，再根據基于DHT的路由算法完成對等點的搜索。
　　3 結語
　　整合機制是數字資源整合的核心問題。隨著整合研究理論和實踐的深入，數字資源整合的機制不斷發展；新技術的應用，導致了新的整合機制的出現，同時，每一種整合機制自身也在持續地發展和完善，通過引入新的技術來提高自身的效能，這些都值得我們關注。
　　（來稿時間：2006-07-07）
中國圖書館學報京75～80G9圖書館學、信息科學、資料工作李廣建/汪語宇/張麗20072007
數字資源/整合機制/數據倉庫/中介器/封裝器/代理/對等網
在對國外143個整合系統進行統計研究的基礎上，探討數字資源整合系統的實現機制。它們可以被概括為數據倉庫整合機制、中介器封裝器整合機制、代理整合機制和對等整合機制。每種整合機制都涉及一些主要技術。圖3。參考文獻16。
作者：中國圖書館學報京75～80G9圖書館學、信息科學、資料工作李廣建/汪語宇/張麗20072007
數字資源/整合機制/數據倉庫/中介器/封裝器/代理/對等網

網載 2013-09-10 21:36:00

[新一篇] 數字時代情報學學科發展動向

[舊一篇] 數學哲學的進展和非線性科學的哲學意義——訪林夏水研究員