21世紀情報語言學研究面臨的新課題

>>>  當代歷史與思想  >>> 簡體     傳統


  〔分類號〕G254.0
  情報檢索語言是表達一系列概括文獻情報內容的概念及其相互關系的概念標識系統,其職能是作為情報檢索系統的語言保證,它的核心問題是檢索效率。這是在傳統文獻信息環境下情報檢索語言的定義。而在網絡環境下,情報檢索語言面臨的信息環境已發生了深刻的變化:數據庫數量急劇膨脹,信息資源類型復雜多樣,廣大網絡終端用戶直接使用檢索語言。這就要求情報語言學要突破傳統的束縛,開拓研究思路,適應大信息環境下情報檢索的語言要求。近年來國內外的研究分析表明,情報語言在網絡信息環境下又有了其發展的新領域、新熱點,蘊育著新的生機。
  1 情報檢索語言的網絡化應用研究
  1.1 網絡信息檢索導入受控語言機制的必要性
  情報檢索語言如何適應新的檢索環境是一個非常值得研究的問題。我們先從檢索語言的核心問題——檢索效率入手來分析。檢索效果通常用查全率、查準率和檢索時間這三個尺度來衡量。但是,由于網絡信息數量大、變化快,再加上沒有一個網絡信息檢索工具能覆蓋所有的網絡信息,因此人們不可能估算整個國際互聯網上究竟有多少與某一檢索提問相關的信息,從而也就無法進行查全率的計算。事實上,檢得結果數量往往是遠遠超過可能存在的相關信息總量。而檢索速度方面,隨著信息技術的進步,幾乎所有以萬維網為界面的網絡信息檢索工具,都可以在檢索提問輸入后的幾秒鐘內把檢索結果顯示在網絡終端上。總的說來,用戶在網絡信息檢索效果方面需要關注的不是查全率,而是查準率。相比之下,查準率又主要取決于網絡檢索工具的標引機制和檢索功能。據此推理,作為一個整體,網絡信息檢索工具所具有的功能已相當可觀,但與聯機和光盤檢索工具相比,網絡信息檢索工具的查準率遠未能及。筆者認為,缺乏對網絡信息的質量控制,缺乏對受控語言的使用,以及尚待完善的網絡信息檢索工具功能,都導致了網絡信息檢索的低查準率。
  網上知識——信息資源大多未采用情報檢索語言作標引和組織,自然語言是其主要的檢索用語言。雖然這在一定程度上有助于查全率的提高,但同時也由于同義詞和反義詞得不到控制,詞之間的相互關系得不到揭示,因而也就無法避免檢索質量相對較低的缺憾。所以現在的網上檢索工具——搜索引擎,應當從如何提高檢索效率,尤其是檢準率方面加以改進。受控語言檢索由于具有規范性和準確性,有利于查準率的提高,因此新一代的搜索引擎應當引入受控語言因素。這是國內外情報語言學研究的一個前沿性的課題。
  1.2 分類法作為網絡信息組織工具的優勢和現狀
  為充分開發網絡信息資源,網絡信息的生產者與提供者必須采用符合人們思維方式的、科學合理的方法來存貯信息、組織信息、揭示信息。在這一點上,國外的研究分析表明,“分類法和主題法作為網絡資源組織和檢索工具”已成為研究的熱點。
  據調查,到目前為止,不論是局域網還是城域網,甚至是國際互聯網,除根據信息外表屬性(如地名、代號、文獻類型)組織信息與檢索點之外,更多的情況是按照信息的范疇(分類)和事物的概念(主題)組織信息。網絡查詢工具也分為按范疇層次工具和語詞查詢工具。現有Internet上著名的瀏覽型網絡信息檢索工具如Yahoo,Eblast,Galaxy和大部分的綜合型網絡檢索工具,實際上在自覺或不自覺地借鑒了分類法組織和揭示信息的思想;而Altavista集成的Askjeeves自然語言搜索引擎則以主題詞為組織與揭示信息的重要途徑和方法。由此可見,分類法與主題法是各種網絡信息資源最主要的組織和揭示工具,其中尤以分類法的應用前景更為看好。其原因在于:①隨著多媒體技術的迅速發展,非文獻型信息在網絡信息資源中的比重將越來越大,如:數值、圖像、圖形和空間對象等,而分類法獨有的聚類功能及其代碼標識為組織和揭示這些非結構化的信息資源提供了一條可行的途徑。②由于按事物與學科范疇分類組織信息資源層次清晰,符合人們查詢的思維習慣,再加上分類法以其分類標識作為檢索標識,其等級體系能夠反映概念之間的邏輯關系,而且等級體系同時具有相對的穩定性,不會因所用語種的不同而變化。因此,分類組織法的這些特性使得它在現有的檢索語言中最有可能成為國際通用信息檢索語言,成為跨世紀網絡信息資源組織與揭示的工具。
  事實上,目前國際上幾部著名的分類法如UDC,DDC,LCC等都在謀求網絡上的應用,并已取得相當進展。如OCLC在研究開發DDC組織和查詢WWW上的信息資源的瀏覽檢索工具NetFist已經取得運行實效;還有各種相似的網絡資源組織工具,如CyberDewey,Niss,BUBLLink等都已小有成果。但是,我們也應該注意到這些借助于分類法的組織工具在發展過程中對分類法也采取了一些取舍和改進的措施,以充分適應網絡信息資源。
  目前,國內學術界對情報語言在網絡中的表現形式和應用問題還沒有引起足夠的重視,只有少量的研究文章,并只是停留在對國外情況的介紹和對國內趨勢的預測上,沒有大的研究項目啟動。
  1.3 分類法作為網絡信息組織工具的技術要求
  分類法在網絡信息資源組織與揭示中的應用,還有待解決以下幾方面的問題,這是情報檢索語言研究熱點中的細節問題。
  1.3.1 機讀化。機讀化是分類法進入網絡的必要前提,尤其是視窗版的開發。在網絡環境下,Windosw的功能可以把分類法帶進電子信息資源環境。DDC視窗的開發所取得的效應有力地說明了這一點。這里所說的機讀化不只是將分類號輸入計算機,還需要對分類法作網絡化的改造。
  1.3.2 兼容性和國際通用性。這主要體現在各種分類法之間的兼容互換及其與主題法的兼容上。目前世界上幾部大型分類法都在尋求聯合,如UDC與BC,UDC與DDC。分類法與主題法的兼容即所謂的分類主題一體化。通用性方面要加強多語言之間的轉換,其中要注意加強匹配技術的研究。
  1.3.3 分類主題一體化。分類主題一體化比較適合于超文本系統的管理。分類主題一體化詞表是一種將分類表和敘詞表結合在一起進行統一控制的檢索語言,一般以分類表作主表,即保留了完整的分類等級體系,并通過參照系統反映了概念之間錯綜合復雜的關系,能滿足多種檢索要求。分類主題一體化的完善的關系網絡可為超文本系統直接利用,用來設計和管理超文本鏈路,并為具有不同檢索要求的用戶提供最經濟有效的檢索途徑。因此,分類主題一體化是網絡環境下分類法作為網絡檢索工具仍應注意加強研究的方面,但應強調以超文本系統的管理這一特性為導向。
  1.3.4 充分利用新技術、新方法改造原有的分類法,提高分類法描述網上信息主題的能力。即根據網絡資源的特點對類表進行完善、調整,大量充實入口詞,還應解決復合主題的轉換問題,包括引用次序的調整,使類目具有較強的規律性,并能根據不同主題概念的特征按一定的次序加以組配等。一方面充分利用超文本技術,加強交替類目、參見與注釋類目之間的橫向聯系,加強多重列類的使用;縱向聯系則借助層層鏈接來實現,同時也要注意對類目體系深度予以控制。另一方面應加強分面分析方法的應用。在網絡搜索引擎的編制中,加入分面分析的方法,無疑會增加檢索系統的系統性和檢索性能,從而大大提高檢索效率。這些技術細節在具體操作上還有待于進一步研究。
  1.3.5 分解和分段標記化分類法的先組類號。如何使原有的體系分類法的先組類號增加分段標記的能力,是提高計算機檢索功能的重要措施。可以借助于某些輔助區分符號增加有限的分段標記功能和某些組配規則,這就涉及到語義、語言學的研究。這個問題在國外情報檢索語言界也是研究熱點之一。在這一熱點上,日本的一研究項目“國際十進分類法數字自動組合系統——UDC—AUTCS”取得了先導性成果。但總體而言,目前還沒有理想的研究成果。
  1.3.6 情報語言易用性的研究。由于網絡檢索系統的最終使用者不再僅僅局限于懂情報檢索語言的專業人員,而是廣大網絡終端用戶。目前,各搜索引擎的組織和檢索方法千差萬別,因而需要尋找一種最適合、最易用的組織方法。情報檢索語言學當前已達到相當高的控制水平,但在易用性方面仍需進一步改進。學者們幾乎一致認為,其主要易用化措施是采用與自動語言相結合的各種方法,或者說增加自然語言成分,也就是情報檢索語言的自然語言改造。
  2 自然語言在情報檢索中的應用及受控語言結合技術的研究
  自然語言有很大的發展前景,這一點是不可否認的。自然語言作為一種較為實用的非受控語言,國外使用較為普遍。總的來說,自然語言在情報檢索中有三種應用方式:①無標引方式,包括文本檢索、單漢字檢索和文本檢索作為輔助檢索途徑。②自動標引方式,包括自動抽詞標引、自動賦詞標引、自動賦分類號、自然聚類和人機結合抽詞標引等。③人工標引方式,包括自由標引和自由詞補充標引。從目前使用的情況來看,有些進展,但在某些方面相當有限,在國內還沒有一個檢索系統完全不加控制地使用自然語言,而相應的機輔檢索系統較多一些。一方面自然語言具有成本低、處理時差短、容易被普通檢索者接受、檢索率一般較高等優點,在信息呈幾何級增長的網絡時代無疑是一種相對較為實際的選擇;另一方面自然語言存在著表達概念過分自由,語義無關聯,詞匯無控制的不足,在情報檢索中需要放棄某些質量要求,從而影響了檢索效率,造成信息檢索中無可容忍的信息冗余,這對一些高要求的檢索系統是一個致命的缺點。這說明情報檢索過程絕對不能沒有控制,不管今后計算機技術和自然語言系統如何發展,情報檢索的基本原理——對詞匯的控制是永遠不會取消的,變化的只是詞匯控制的方式、方法和手段。其實,高質量的檢索系統,必須包含有人為的標引、控制因素,尤其在現階段還有相當的技術問題沒有得到解決的情況下。因而在網絡信息的自動標引和檢索還未能保證質量之前,仍然需要依靠用戶和信息工作人員來改善和提高網絡信息檢索的質量。
  目前,情報語言學界一致認為,檢索時的后控制是一種較為有效的控制形式,即“自由標引+后控詞表”有機結合的混合系統。正如蘭開斯特指出:“后控詞表的發展為改進聯機網絡內的檢索效果以及成本——效益提供了良好的前景。事實上這種方法值得引起比以往任何時候更多的重視。”這種后控制表采用字順或分類的方式顯示各種關鍵詞或自由詞之間的等同關系和等級關系。有了后控詞表,就可以把各種“自由散漫”的自然語言組織起來,形成一個語義網絡,以便于檢索。目前,大量的研究人員都在從事后控詞表的設計和開發研究,這方面的研究已經取得實驗性的成果,但仍未能達到實用的階段。一方面是技術的原因,另一方面則是缺少必要的自然語言詞表。因此張琪玉教授指出“積極為自然語言與情報檢索語言的結合創造條件——建議大量編制自然語言詞表”,現在更應加入網絡化這一發展因素,解決上述問題也是一個研究難點和熱點。
  3 情報檢索語言新技術的研究
  計算機技術的應用是情報檢索語言發生深刻變化的主要動力。在網絡信息環境下,自然語言的分析和處理是人工智能中與信息檢索有著密切聯系的一個分支,在網絡信息檢索中體現為對標引和檢索語言的探索。例如,怎樣從網絡信息中自動抽取標引詞?如何從網絡信息中自動抽取標引詞?如何把用戶的自然語言自動轉變為恰當的檢索提問?如何自動完成相關信息反饋?隨著計算機網絡和電子出版物的發展,要求情報檢索語言必須有所創造,諸如自動標引、自動分類、自動抽詞、自動摘要、自然語言理解、智能情報檢索等。以上自動化功能的實現必須借助于計算機、語言學、統計學、認識論等學科和領域的知識,這是長期以來檢索語言和計算機、語言學工作者研究的重中之重。目前,這方面研究已經取得很大進展。例如,Altavista在自然語言的自動翻譯上有所建樹,Excite能夠自動編制文摘,Askjeeves和inquizit都允許用戶直接使用英文句子提問。這些功能還未能完全付諸實踐,或者效率很低,有些還處于實驗階段,因此要繼續加強這方面研究的力度。
  4 重構情報語言學學科體系
  情報語言學是一門為情報檢索提供語言保障的應用性學科。從發展的角度看,情報檢索的發展經歷了“手工檢索——機械檢索——計算機檢索——聯機檢索——網絡檢索”的發展階段。相應地,從張琪玉教授《情報語言學基礎》一書的3個版本來看:1982年版,是對傳統情報語言學學科體系的確定和總結,其理論的確立是據于當時的檢索技術處于手工檢索和機械檢索發展階段;電大版,是對1982年版的不斷完善;1997年版,則把分類主題一體化檢索語言、自然語言檢索問題納入情報語言學的學科體系。從這一發展邏輯來看,當前,情報檢索語言的生存環境出現網絡化發展趨向,研究的領域、前沿問題也隨之發生變化。應該指出,必須把網絡信息組織的情報語言問題納入情報語言學的學科體系之中。只有體系的不斷完善才能體現情報語言學的勃勃生機,因此要重構情報語言學學科體系。
  綜上所述,在網絡信息這個背景下,一切有關情報檢索語言的研究,包括人工語言和自然語言,都應以組織和揭示網絡信息資源為中心,應充分吸收國內外情報語言學以及其他學科的先進方法和技術,拓展研究領域,利用豐富的網絡資源,包括理論文獻、調查研究報告、關于某一種檢索語言的網站、關于一種檢索語言的應用等,從而發揮各情報語言的優勢,取長補短,交匯融合,達到網絡信息檢索的最高檢索效率。
  (來稿時間:2000-04-21;編發者:徐向東。)
《圖書館學刊》沈陽50~52G9圖書館學、信息科學、資料工作包冬梅20012001以計算機和網絡技術為背景,通過分析近年來情報檢索語言的研究現狀,總結國內外研究熱點,提出21世紀情報檢索語言研究面臨的新課題和研究的新領導,指出必須以“網絡化”這一發展事實為中心展開研究。情報檢索語言/網絡信息資源/組織和揭示包冬梅 女,1976年生人,在讀研究生。1999年畢業于武漢大學圖書情報學院,同年考入空軍政治學院(現改為南京政治學院上海分院)信息管理系,研究方向為情報語言學,發表論文數篇。南京政治學院上海分院研究生隊 作者:《圖書館學刊》沈陽50~52G9圖書館學、信息科學、資料工作包冬梅20012001以計算機和網絡技術為背景,通過分析近年來情報檢索語言的研究現狀,總結國內外研究熱點,提出21世紀情報檢索語言研究面臨的新課題和研究的新領導,指出必須以“網絡化”這一發展事實為中心展開研究。情報檢索語言/網絡信息資源/組織和揭示

網載 2013-09-10 20:58:05

[新一篇] 21世紀情報學的學科定位

[舊一篇] 21世紀文藝學的現代性建設
回頂部
寫評論


評論集


暫無評論。

稱謂:

内容:

驗證:


返回列表