90年代我國情報檢索理論研究述評

>>>  當代歷史與思想  >>> 簡體     傳統


  為了解分析我國90年代情報檢索理論的研究成果及發展趨勢,本文依據《全國報刊索引》,對國內90年代以來情報檢索理論的發展方向分為5個部分進行統計,即情報檢索機理(理論)、情報檢索系統、 計算機情報檢索、情報檢索策略、人工智能。從中可以窺見我國情報檢索理論的研究發展及學術界在情報檢索理論研究領域的熱點及其發展方向,可使我們對90年代情報檢索理論的研究有個總體上認識。
  附表 90年代情報檢索論文的內容分布
  附圖G98k04.JPG
  從附表中我們可以看出:人工智能方面的研究是我國情報檢索理論中的薄弱環節,然而它卻代表了我國情報檢索理論研究的新的發展趨勢,我們應加強對這方面的研究探討。下面本文將從這5 個部分分析我國情報檢索理論研究的現狀及發展趨勢。
      1 情報檢索機理
    1.1情報檢索模型
  情報檢索主要研究如何有效地表示文獻和以何種方式描述用戶的檢索要求才能有效地檢索到相關文獻的問題。傳統的情報檢索模型有布爾檢索模型、代數檢索模型、概率檢索模型等。
  目前,人們用邏輯蘊含對布爾、代數、概率檢索模型進行研究后,構建了一種基于可能世界理論的情報檢索模型。〔1〕 這種情報檢索模型是在傳統情報檢索模型之上構建而成的,它比傳統情報檢索模型更有效、更先進,它使文獻與查詢的相關性得到了量化。
  同時人們對情報檢索的過程也進行了研究,從而得到了情報檢索主體在檢索過程中的認知模型〔2〕。據此, 人們可根據自己的認知思維所得到的檢索結論,改造自己的檢索觀念模型來適應不同檢索系統,進而可根據自己的檢索結論來評價和改造檢索理論,創造出新的情報檢索理論以及情報檢索系統。
  對情報檢索的認知模型的研究有助于提高檢索主體在檢索過程中的自覺性和創造性,使檢索思維和行動更加明確有效,同時也是對檢索理論的進一步完善。
    1.2并行情報檢索
  并行情報檢索〔3〕是將并行處理用于情報檢索, 它是應傳統的順序處理方式越來越難以滿足許多情報系統的檢索響應時間及效率要求而產生的,并行處理是相對于順序處理而言,它意味著同時、并發、重復、重疊等多種含義。傳統的順序計算機處理速度受到機器物理特性的限制,而增加可并發操作的處理機數目,能夠克服這一限制。
  并行計算機情報檢索可提高系統性能,還可改進系統的可用性、可靠性、可適應性、響應一致性、資源共享能力以及自動負載均衡等。目前,利用并行機、多處理機和分布式系統實現的情報檢索技術的研究已經或正在呈現出較大的潛力。在今后一個時期內,新的具有獨特并行特征的情報檢索將會大量涌現。
    1.3 概念信息檢索
  概念信息檢索〔4〕 是在自然語言處理中語義層次上的新型的信息檢索。它的理論框架最早由美國著名的人工智能專家Schank Kolodner和Dejong在1981年發表的《概念信息檢索》一文中建立,并且指導了概念信息檢索系統CyFr的開發。它的基本理論和應用的研究,如自然語言處理的理論和知識呈現的理論都已促進了國外情報檢索系統的發展,本人認為概念信息檢索的“信息”實際相似于文中的“情報”。
  概念信息檢索作為一種新型的信息檢索,為信息檢索及其系統的研究拓展了一個新的領域。目前,概念信息檢索的理論和實踐已經成為國外情報檢索系統研究的基礎理論,我國在這方面的研究比較落后。所以我國要在信息檢索理論建設上取得進展,除了要大力提高我國自己的基礎理論研究水平以外,還應該從國外的先進理論中汲取有用的成份來加強自己的理論基礎。當前,介紹和研究該理論的文章日漸增多,它的研究應該成為我國情報檢索的一個方面,并將對我國的情報檢索系統的研究帶來有益的啟迪。
      2 情報檢索系統
    2.1演繹情報檢索系統
  隨著人工智能理論和技術的日趨成熟和推廣應用,傳統的情報檢索系統越來越不適應情報檢索的需要,逐漸顯露出許多方面的不足。目前,針對傳統的情報檢索系統的弊端,人們試圖尋找一種新型的情報檢索系統,演繹情報檢索〔5〕便應運而生了。 它是一個既能充分利用智能語言較強的演繹推理功能,又能利用傳統情報檢索系統技術成熟、數據管理能力較強等優點的情報檢索系統,由情報數據庫、檢索知識庫、檢索與推理機制、人機接口和自然語言處理等部分組成。演繹情報檢索系統由于它便于擴展,可以在其上進一步開發更高層次的智能情報檢索系統、自然語言理解系統等,提高情報檢索的智能性是非常有益可行的。這種檢索系統必將推動情報檢索進一步向智能化方向發展。目前,有關演繹情報檢索系統的研究僅見到1篇。
    2.2 基于超文本的情報檢索系統
  超文本技術就是利用計算機技術、通信技術和人工智能的知識表達技術非線性地組織管理多介質的電子信息的群體技術。目前,超文本技術已在國外的情報檢索系統設計中廣泛應用。我國也研制出了超文本全文檢索系統的模型〔6〕, 這種模型不但彌補了當前全文檢索所缺乏的聯想功能和隨意交叉參考的能力,也擺脫了超文本只能沿固定的鏈進行瀏覽的局限性。實驗已經表明,該模型是可行的,具有一定的理論基礎和實用價值。
  總之,不論是演繹情報檢索系統還是基于超文本的全文檢索系統都已預示了情報檢索系統的發展趨勢——人工智能化。
    2.3 智能情報檢索系統
  理想的情報檢索系統應為用戶提供諸多方便,代替或輔助用戶完成諸如選詞、選庫、構造檢索式,甚至在情報數據庫中進行自動推理查找等功能,而不僅僅是將用戶提問與數據庫內容進行簡單的匹配。智能情報檢索是一個較為理想的情報檢索系統。
  智能情報檢索系統〔7〕, 是完全基于知識的全面的智能情報檢索系統。它的知識庫中除了檢索專家的知識外,還將相關領域的情報內容以一定的知識表達方式存儲在其中,系統對知識庫檢索推理的結果可以使用戶得到能夠直接加以利用的情報。它是建立在一個或多個專家系統基礎上的情報檢索系統。
  目前,對全面的智能情報檢索系統的開發都限制在一個主題范圍狹窄、且專家知識比較容易獲得的領域內,并力圖使其達到實用。所以,擴大智能情報檢索系統的主題范圍將是今后的一個努力方向。
      3 計算機情報聯機檢索
    3.1 聯機情報檢索的現狀
  1983年,中國科技情報所設立了國際聯機檢索終端,建立了國際聯機情報檢索服務部,與世界上4大檢索系統(美國Dialog、ORBIT、德國STN、歐洲SA)聯機。截止1989年底,我國聯機檢索終端已達102個,遍布26個省、市、自治區的47 個城市, 與國外聯機的檢索系統已發展到16個。我國國內聯機情報檢索系統的建立是從引進國外文獻數據庫,提供回溯性檢索開始的。目前,我國聯機系統已初具規模, 其中較大的4個系統是:中國科技信息研究所的 ISTIC 系統, 北京文獻服務處的BDSIRS系統,化工部情報所的CHOICE系統和機電部情報所的MEIRS系統。這些系統的聯機檢索終端已達上百個,遍布全國20多個省市。
    3.2 聯機檢索的發展與展望
  3.2.1 聯機系統的進展 目前, 聯機系統已在以下幾方面取得成果:①人-機接口智能化;②圖像檢索;③自然語言檢索;④數值檢索;⑤集團化檢索;⑥法定數檢索;⑦新價格政策。
  3.2.2 新媒體介入聯機檢索系統 目前, 已有很多新媒體介入檢索系統,例如:①光盤產品,很多聯機系統正在致力于把其數據庫及檢索軟件光盤化;②多媒體;③超文本。
  3.2.3 信息傳視系統的發展  信息傳視系統的出現使信息技術可以普及到各機關單位的辦公室、教室乃至家庭生活中,大大促進了信息化社會的到來,可以預見,信息傳視系統是聯機檢索的一個重要發展方向。
  3.2.4 系統中的語言障礙將自動消除〔8〕 不同語言文字之間的天然障礙是阻礙國際情報檢索普及與發展的首要因素。隨著科學技術的迅速發展,這道天然障礙最終將會被人類的智慧所攻破。
  同發達國家相比,我們存在著很大差距,但是經過數年來全國各個方面的努力,我國已在引進庫、自建庫、中國國家情報檢索系統的建設等方面取得了很大發展,所以,只要我們從人、機、環境等方面去努力,我國的聯機情報檢索定會出現跳躍式發展。
      4 情報檢索策略
    4.1 檢索策略的制定程序
  一般認為制定檢索策略的程序應包括:明確用戶提問意圖、主題分析、選擇系統、構造邏輯表達式、優化檢索表達式。目前通常采用布爾邏輯符or、and、not表達檢索標識間的邏輯關系,但檢索出的文獻不能保證一定符合用戶的需求,它存在著難以克服的弊端。為此,人們進行了種種努力,如概率模型法、向量空間法、人工智能法、法定數法等。但迄今為止,尚沒有采用任何其它的一種邏輯運算來替代布爾邏輯運算。
    4.2 檢索策略與檢索效果的關系
  檢索策略與檢索效果兩者的關系密切而又微妙,只有正確把握兩者的特性才能給以有效控制與調節,目前已在下面3 方面取得進展:①以查全為目標的檢索策略的調節與控制;②以查準為目標的檢索策略的調節與控制;③以最小投入為目標的檢索策略的調節與控制。
    4.3 專門類型檢索策略
  隨著檢索策略研究的逐步深入,對特定系統,特定數據以及某一類型課題的檢索策略的研究也已開展起來,具體表現在以下兩方面:①某一系統、某一數據庫檢索策略;②某一類型課題檢索策略。
  目前,關于情報檢索策略在以下幾個方面的研究均已取得進展:①檢索策略失誤分析〔9〕;②降低檢索費用的研究; ③用戶檢索行為及用戶培訓;④現代信息技術在檢索策略制定中的應用。我國的智能情報檢索系統的研究已發展到了對檢索策略的自動修改〔10〕。在檢索表達式重構專家系統中,把知識庫分為領域知識庫和規則庫。領域知識庫是重新設計和構造的專業詞表,是一種語義網絡;策略規則庫包含檢索專家知識,使用產生式規則表示。其控制策略使用正向演繹推理,隨著智能情報檢索系統研究的不斷深入,將來的檢索策略將由智能情報檢索系統來承担。
      5 人工智能在情報檢索中的應用
  自從專家系統獲得思想認識上的突破后,各種專家系統如雨后春筍般涌現,人工智能技術成了各學科專家和研究人員競相角逐的對象。從80年代起,情報界陸續推出了一大批智能情報檢索系統。
    5.1 基于詞表的智能情報檢索系統
  我國對詞表在情報檢索中的應用主要集中在全文數據庫上,這與我國出版物的電子化處理和漢語自動切分技術的突破性成就有關。作為反映概念關系的知識實體詞表,在智能檢索系統中將充當知識庫的角色。目前“湖北省地方志全文檢索系統”〔10〕已具有后控式詞表控制下的檢索系統原型,并已準備在此基礎上進行二次智能化、實用化。在未來的發展中,隨著自動切分技術的實用化,用戶利用自然語言與系統通信,通過語法分析,自動構造檢索策略的智能情報檢索系統將會達到比較完善的境界。
    5.2 情報神經網絡的應用
  人工神經網絡是一門近年來得到迅速發展的理論,它是人工智能的重要分支學科。目前我國已經研制出了情報神經網絡系統模型〔11〕,并以存儲和檢索文獻自動分詞為例,使得神經網絡應用于情報檢索領域。
  神經網絡的應用研究,對30多年來一直困擾計算機科學和符號處理的一系列難題可以得到比較滿意的解答,特別是對時空信息存儲并行檢索等已顯示了其特有的能力。它具有嶄新的模仿人腦神經系統功能的原理及其優越的性能特點,吸引了廣大計算機研究人員和情報科學工作者。在情報科學領域引入神經網絡技術,必將加速情報檢索自動化、智能化進程。
    5.3 特定自然語言的處理
  自然語言處理〔12〕就是研究如何能讓計算機推理并生成人們日常所使用的語言,目的在于建立起一種人-機之間的密切而友好的關系,使之能進行信息傳遞與認知活動。它是人工智能的一個研究分支,在幾十年的發展中已形成了有效的理論和實用技術。目前,自然語言的處理技術已大量應用于全文檢索,雖在全文檢索中的自動標引、理解檢索要求、概念檢索方面取得了一些成果,但還需在以下兩方面進一步努力:①現存的句法語義分析技術;②段落和篇章深層次分析技術。
    5.4 知識表達
  知識表達,尤其是人工智能中的各種知識表達方法在情報檢索系統中有著廣泛的應用領域,然而不同的表達方法,其潛在的應用領域也不同。文獻〔13〕列出了不同知識的表達方法。完全用知識表達方式來描述文獻是不可能的,因為所占存儲空間太大,最佳的選擇是將現有的情報檢索系統與專家系統協調起來。
  知識表達方法在情報檢索系統中有著廣泛的應用領域,我們要發揮和利用除文獻以外的其它有效知識源,如:設立智能終端,建立用戶模擬等,這些都是知識表達方法可以應用的領域,也是情報檢索系統實現智能化的潛在突破口,有待于我們繼續研究。
    5.5 人工智能與人工神經網絡的合璧
  人工智能(AI)是從功能方面建立自己的理論體系;人工神經網絡是從結構方面建立自己的理論體系。它們以信息處理作為共同的目標和特征,從兩種不同的思維方式出發,相輔相成,構成了智能理論的完備框架。
  文獻〔14〕對以下兩方面進行了研究:①智能研究中的宏觀—微觀—宏觀—微觀及功能—結構—功能—結構的輪回;②人工神經網絡的知識處理——模擬人的經驗思維,人工智能的知識處理——模擬人的邏輯思維機制。研究表明:只有把人工智能方法和人工神經網絡加以科學綜合,才可能產生更強有力的新一代智能系統。當然,人工智能和人工神經網絡的合璧決不是簡單的相加。
  人工智能和人工神經網絡的互補可以彌補人工智能和人工神經網絡各自的缺陷,而它們兩者的結合又顯示了它們各自所沒有的優越性。所以,人工智能和人工神經網絡的合璧將會給人類智能研究帶來希望的曙光。
    5.6 情報檢索合作專家系統
  專家系統(ES)〔15〕通常是針對某一特定領域研究開發出來的,在某一特定領域內可以達到專家的業務水平,一旦超出了由知識庫內容決定的領域,就完全失效,我們稱為ES的“脆弱性”。同時由于一般的ES能夠處理的問題狹窄,所以難以獲得廣泛的應用。為了克服ES的局限性,采用CES (Cooperative Expert System),CES是由若干個相近領域或一個領域的多個方面的子ES組成的,通過各子ES互相合作可共同解決一個更廣領域的問題。正因為CES能拓寬系統解決問題的領域, 并使一些相關聯的領域能用一個系統來處理,同時也由于CES 能克服單個ES的“脆弱性”,所以通過多個子ES的合作就可擴大整體ES解決問題的能力。CES的整體功能大于各個子ES功能之和,它將是新一代ES 的發展趨勢,其前景廣闊,必將在今后的應用中得到進一步擴充和完善。
情報理論與實踐京246~249G9圖書館學、信息科學、資料工作俞學琴19981998Information retrieval/Theoretical study/SurveyBased on a statistic analysis, the paper studies thepresent situation and development trends of  InformationRetrieval principles.  IR systems , computer-aided IR, IRstrategy and artificial intelligence.俞學琴:南開大學信息資源管理系 天津 300071 作者:情報理論與實踐京246~249G9圖書館學、信息科學、資料工作俞學琴19981998Information retrieval/Theoretical study/Survey

網載 2013-09-10 21:00:01

[新一篇] 90年代大眾傳媒的審美透視  ——由政治意識形態到消費意識形態轉型

[舊一篇] 90年代日本教育心理學研究動向述論
回頂部
寫評論


評論集


暫無評論。

稱謂:

内容:

驗證:


返回列表