數字圖書館中信息資源庫的建設

>>>  新興科技、社會發展等人文科學探討  >>> 簡體     傳統


  [中圖分類號]G35  [文獻標識碼]A
  隨著計算機技術、網絡技術、通信技術的發展,Internet已成為人們工作、生活、學習中重要的信息交流途徑。如何以數字化的形式合理地組織各類信息資源,利用Internet的優勢向用戶提供海量數字信息服務,是數字圖書館的首要任務。
  數字圖書館作為一種新型的信息資源組織模式,自九十年代以來,受到世界各國的普遍重視。但數字圖書館作為一個新生事物,無論其平臺技術、信息資源組織方法,還是信息服務策略都在研究、探索和實踐之中,還有待發展和完善。數字圖書館信息資源庫的建設是本文研究的主題,也是現階段數字圖書館組建中的重點。
      1 數字圖書館信息資源庫的宏觀規劃
  數字圖書館信息資源庫的建設既是一項需要耗費大量的人力、物力、財力的系統工程,又是一項功在當代,利在千秋的歷史工程。因此,在其具體的組織實施之前,必須要經過嚴密的規劃和精心的組織。數字圖書館信息資源庫的規劃要考慮以下幾個方面的因素。
    1.1 了解國家關于數字圖書館信息資源建設的方、政策
  1997年國家科委信息司下發了“國家科委關于加強信息資源建設的若干意見”。這一意見主要是針對我國信息基礎設施建設較快,而信息資源建設嚴重滯后的局面提出的[1]。目前,國家科委已將建立分布式數據庫共享系統和建立數字圖書館示范系統等列入“九五”國家重點科技攻關項目,其目的是以標準、規范的格式建立各種文獻型、數值型、事實型、多媒體的數據庫,利用先進網絡信息檢索和瀏覽技術代替傳統的數據庫聯機檢索服務方式,提供統一的界面來方便用戶的信息檢索,提高數據庫的利用率和共享水平。
    1.2 調查用戶需求
  數字圖書館是網絡上的圖書館,它不同于以往的圖書情報機構,它的用戶范圍非常廣泛,可能超出了國界,在網絡環境下,用戶的需求又具有很多新的特色。廣泛搜集用戶和用戶需求信息,明確其在網絡環境下的新特點,圍繞用戶和用戶需求來開展信息資源庫的規劃和組織,這是建設數字圖書館的依據,也是開展面向用戶服務的基礎。
    1.3 了解信息資源分布特點,確定信息資源庫建設的主題、特色目標
  數字圖書館又稱虛擬圖書館,但真正的全虛擬圖書館是不存在的,數字圖書館總是以某個現實的圖書館或情報機構為依托。因此,在數字圖書館信息資源庫的建設中,必須要充分了解本館資源的收藏特色,要選擇有特色的資源數字化后提供給用戶使用。在原則上來說,每一個數字圖書館都應該是一個特色圖書館。
  一個國家或一個地區的數字圖書館系統應是一個信息資源的共建共享系統。因此,一個數字圖書館信息資源庫的建設,不僅要考慮到本館的藏書特色,還必須要充分考慮到與其它信息資源建設單位的分工合作和信息資源的互通有無。
    1.4 解決好信息資源建設所需資金
  在國外,數字圖書館建設所需的大部分資金由國家提供,民間組織提供的援助也不少。在我國,數字圖書館的建設,目前主要由國家提供項目的啟動資金,但也有一些數字圖書館,如超星數字圖書館,正在嘗試為用戶提供有償下載服務,以期走一條自籌資金、滾動發展的道路,這是其它數字圖書館可以借鑒的發展之道。
      2 制定組織信息資源庫的具體計劃
  在數字圖書館建設的目標確定、所需資金到位以后,要做的工作就是制定數字圖書館信息資源庫建設的具體工作計劃和實施步驟。
  計劃的第一步是確定具體的收集原則、目標、范圍。數字圖書館信息資源的收集要遵循以下三條原則:針對性原則、系統性原則、重要性原則。目標是形成自己的特色收藏,在特色收藏的基礎上提供特色服務。收藏的范圍:第一是本館的相關資源,第二是通過購買、交流等渠道能從其他館獲得的相關資源。
  計劃的第二步是人員的組織和任務的分配。進行數字圖書館信息資源組織,需要多方面的人才。既需要懂得內務管理、對外交流的管理人才,也需要懂得信息組織和規劃的信息專家,還需要懂得計算機系統構建、管理維護的計算機專家,還需要從事信息的整理、錄入等工作的圖情工作人員。具體地各種人員需要多少,任務怎么分配,要根據數字圖書館信息資源組織的規模、難度和進度要求來定,只有各方面的人才協調地工作,才能使數字圖書館的信息資源組織工作有條不紊地順利進行。
  計劃的第三步是分類體系、置標語言、元數據標準的選擇。通常,數字圖書館會在某個分類體系的基礎上,根據自己資源特色和用戶信息需求的特點建立自己的分類體系。如中國國家數字圖書館,其收藏范圍包括電子圖書、音頻、視頻和圖片四大類。因此,其分類體系首先就分為這么四個大類,然后對四個大類層層劃分出更多的子類。
  目前,網絡上常用的置標語言有SGML、HTML、XML,常用的元數據標準有各國的MARC標準、Dublin Core、視聽資料核心類目VRA Core等。一個數字圖書館采用哪種置標語言,哪種元數據標準,需要根據國家數字圖書館建設標準化的要求和自己的資源特色來選定。
  計劃的第四步是選購組建數字圖書館信息庫所需要的軟硬件資源。組建數字圖書館信息資源庫所需的硬件設備主要有:用作數據庫服務器、Web服務器、防火墻服務器的計算機,用來對信息資源進行數字化的高速高品質的掃描儀,用來存儲海量信息的大容量存儲器。組建信息資源庫所需的軟件主要有:操作系統(UNIX或Windows NT):存儲全部圖書資料的后臺數據庫(如Sybase、Foxpro、Jasmine數據庫開發系統);數據庫服務器(如大型磁盤陣列服務器、大型光盤庫);防火墻Fire Wall程序:數據庫與Web接口程序(CGI、API或ASP程序):OCR軟件:智能計費軟件、檢索查詢軟件等。
  計劃的第五步是制定資源庫建設各期的工作任務和目標。數字圖書館信息資源庫的建設,是一個歷時很長的系統工程,此工程一般要分成若干個階段完成。因此,要為各期工作制定具體的任務和目標。
      3 信息資源庫的組織實施
  數字圖書館信息資源庫的建設是數字圖書館的重點工作。數字圖書館信息資源庫的建設需要經過以下幾個步驟。
    3.1 素材的搜集和整理
  素材的搜集,是指圍繞著信息資源庫的主題、學科特色要求,進行原始信息的搜集。由于到目前為止,還沒有很好的方案來解決數字圖書館中的知識產權問題,所以,現在正在建設的許多數字圖書館,其資源庫是關于不存在知識產權問題的歷史文獻數據庫,如英國伯明翰等幾所大學共同組建的ILEJ數字圖書館,主要收集三種十八世紀的期刊和三種十九世紀的期刊。要對某個主題、某個學科的歷史文獻進行系統的、完整的收集,是一項任務繁重的工作。
  搜集到的素材須進行整理,如,對待掃描的期刊、圖書、縮微膠卷進行加工整理,檢查缺期、遺失或破損的卷期,并做記錄。
    3.2 簡單元數據的手工錄入
  對于搜集到的原始信息資源,在進行正式的數字化轉換前,需要將有關的簡單元數據如資料編號、作者、題名、主題、期刊名、卷、期、出版機構名、原始資料存儲館名等鍵入象Excel之類的工作表中,一是用來標記待錄入的資料,二是為后面編制數字化資源索引做準備。
    3.3 信息資源的數字化
  紙質圖書信息的數字化可采取兩種方式:一是重新錄入,同時對原文進行標識,以方便讀者查找。二是利用掃描儀掃描復制原稿,再利用OCR工具進行識別。
  紙質圖書的內容通常包含圖形、圖像、文字三大類。如果將三種類型統一作為圖像來處理,這種方式對資料的描述不夠精確,不能實現全文檢索,此外,以圖像來存儲占用了較大的存儲空間。另一種實現方案是將圖形、圖像、文字分別處理,即對于圖像資料,仍以圖像格式進行保存,對于圖形資料,可以進一步將其轉換成矢量數據。矢量化的圖形比較節省存儲空間,且便于后續的利用和修改。對于文字資料,可將其轉換成文本信息,從而可以實現全文檢索,同時節省大量的存儲空間。但這樣做會增加成本和時間的消耗。
  隨著存儲技術、圖像壓縮技術和網絡技術的發展,如價廉的大容量存儲介質的出現、圖像壓縮比的顯著提高、網絡帶寬的大幅增加,使以統一的圖像方式進行紙質圖書數字化的條件越來越成熟。所以,自1998年,超星等數字圖書館就采用此種方式提供數字圖書的在線閱讀。這種方式的優越性就在于速度快、費用低、容易實現大規模運作,此外,還能保持資料原貌。
  對于模擬的音視頻信息,可利用視頻編碼卡,在編碼卡驅動程序和采編軟件的配合下,將模擬信號轉換成數字信號,再將其儲存到大容量的存儲設備上(硬盤、DVD-ROM)。經數字化后的視音頻內容只是素材,需要經過適當的編輯和整理,如剪切、拼接,將不同素材中的視頻片斷組織在一起形成新的節目單元,才可以放入數字圖書館中提供給用戶欣賞。
    3.4 數字資源的壓縮存儲
  數字圖書館存儲的多媒體信息,特別是音、視頻信息,其數據量非常巨大,必須要經過壓縮,消除冗余信息,以盡量節省存儲空間和信息傳輸中的時間、帶寬消耗。目前常用的壓縮標準有用于靜態圖像壓縮的JPEG標準和用于動態圖像壓縮的MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21標準。
  數字圖書館是一個海量多媒體數據庫,其信息數據量之大是前所未有的。傳統的二級存儲器(主存儲器和磁盤)已難以容納龐大的數字圖書館數據,數字圖書館中的海量數據需要使用三級存儲器存儲。目前常用的三級存儲器有磁帶、磁盤、光盤、機器手光盤庫、機器手磁盤庫等[2]。
    3.5 資源內容的標引
  經數字化后的文件,需要標引人員或自動標引程序對其進行標引,一般由資源數字化前的簡單標引和經OCR軟件字符轉換后自動抽取的標引項目兩者組成。標引的內容主要包括內容分析、主題分類、作者、來源等項目的著錄,并使用基于SGML/HTML/XML開發的資源加工軟件對資源內容置標。
  在超星數字圖書館中,采用《數字式中文全文文獻通用格式》標準對數字資源進行標引,采用HTML語言作為置標語言[3]。在此格式中,所采用的元數據標準是在Dublin Core的15個元數據的基礎上,增加“Record”這個著錄項,其中包括題名、主題詞、作者等可檢索項。
    3.6 質量的檢查和歸檔
  質量的檢查,是指檢查加工后的文件質量是否滿足數字圖書館的要求,如圖像的大小、分辨率、文本的正確率以及標引的正確性等,如果不合格,則需要返工。檢查完后,將合格的數字化文件歸檔,存入數字圖書館的資源庫。
    3.7 元數據的抽取,索引文檔的建立
  人工抽取元數據是一件非常繁瑣的事情,許多數字圖書館的建設單位會編寫元數據自動抽取程序來完成這項工作。一個數據庫需建立多少種索引文檔,要根據所需提供的檢索功能來定。如,為實現基于關鍵詞的檢索,需要建立關鍵詞索引文檔;為實現全文檢索,需要為文本中的每一個字、詞建立索引;為實現基于書名的檢索,需要建立書名索引文檔;為實現分類檢索,需要建立類別庫文檔。
    3.8 信息檢索系統的設計與測試
  數字圖書館,通常會根據自己的資源特色和用戶的檢索要求,設計專用的信息檢索系統。目前,基于www的數據庫檢索系統一般采取客戶機/Web服務器/數據庫服務器三層體系結構。這種結構,一方面,用戶無法直接訪問數據庫,有利于保護數據庫的安全,另一方面,有利于利用Web技術設計通俗易用的WEB界面。
  在超星數字圖書館中,采用TRS中文全文檢索系統,安裝在Web服務器端,在客戶端使用超星瀏覽器。TRS中文全文檢索系統能提供如下的檢索功能:其一,能提供書名、著者、分類、主題等途徑檢索,可用全文檢索方式檢索書目記錄;其二,可檢索圖書的目次、章節和摘要,并通過URL直接獲得原文;其三,在部分數據庫能實現全文檢索[4]。
      4 信息資源庫的運行與維護
  數字圖書館的建設是一個沒有止境的系統工程。信息時代,新的信息不斷地產生,用戶的信息需求不斷變化,數字圖書館的信息庫存就得不斷擴充和更新。數字圖書館信息資源庫的運行與維護主要包括信息系統的安全、正常運行維護;對象數據庫的擴充與更新;索引數據庫的擴充與更新;以及與信息資源庫建設相關的分類體系表,主題詞表的擴充與維護。
圖書館建設哈爾濱43~45G9圖書館學、信息科學、資料工作吳葉葵20032003本文詳細介紹了在數字圖書館中,如何規劃、組織、運行和維護其信息資源庫。數字圖書館/信息資源/信息資源組織  Digital library/Information resource/Information OrganizationThe Constructing of the Database in a Digital LibraryThe paper introduces how to program, organize, run and maintain its information database.吳葉葵,浙江財經學院 杭州 310012  吳葉葵,女,1970年生,浙江財經學院教師,發表論文數篇。 作者:圖書館建設哈爾濱43~45G9圖書館學、信息科學、資料工作吳葉葵20032003本文詳細介紹了在數字圖書館中,如何規劃、組織、運行和維護其信息資源庫。數字圖書館/信息資源/信息資源組織  Digital library/Information resource/Information Organization

網載 2013-09-10 21:35:59

[新一篇] 敞亮人的存在狀態  ——論《德意志意識形態》對人的存在之揭秘

[舊一篇] 數字時代情報學學科發展動向
回頂部
寫評論


評論集


暫無評論。

稱謂:

内容:

驗證:


返回列表