(朱麗(上海空軍政治學院信息管理系))
摘 要 作為情報語言學研究對象之一的自然語言,在情報檢索中的應用正日趨廣泛。本文將其與規范語言進行了比較,重點討論了其應用中的三個問題,自然語言標引、標引檢索用詞表及檢索語言整體化趨勢,并就其未來發展作了闡述。
主題詞 自然語言 規范語言 情報檢索
* * *
1.自然語言與規范語言
自然語言(natrual language )是相對于規范語言(Controlledlanguage)而言的,其本質特征是不受控制[1]。 從情報檢索的發展歷程來看,作為語言保障的規范語言是對自然語言實施控制而出現的;而情報檢索的進一步發展必使得曾被否定的自然語言重新得以肯定[2]。
1.1規范語言的產生
規范語言是適應情報檢索需要而創制的一種人工語言,它在手工檢索條件下產生,并得到了充分發展及應用。
如歷史最久遠的分類語言,采用比較抽象的類號來表達概念,組織檢索系統。它具有良好的系統性,適于學科或專業出發的族性檢索。同時,隨著學科發展及用戶需求的變化,分類語言也由等級體系型日益向分面組配方向發展。
而規范語言的另一重要分支——主題語言,則以自然語言為基礎,經過人為的形式控制(詞量、詞形、詞義及詞間關系等),用來直接表達主題概念。50年代由于計算機檢索的迅速發展,主題語言也在經歷了元詞語言的短暫應用后進入敘詞語言的大普及階段。作為吸取以往所有規范語言優點的敘詞語言,適應了標引、檢索的多種要求,是在機檢條件下效率較好的一種規范語言。60年代,在國外被稱為“敘詞表”時代,其應用達到了頂峰。
無論是哪種規范語言,為了達到簡明專指地進行標引及全準便捷地實現檢索的目的,都對人們日常使用的自然語言進行了種種轉換及限制處理。如分類語言是建立在代表主題概念的一系列類目基礎上的號碼體系,而主題語言則是有選擇并加以規范化的自然語言的一個子集。這在克服了自然語言的兩大不足[4]: 概念與語詞非一一對應,及概念關系的隱含性的同時,也不可避免地導致了規范語言自身的局限,即表達概念的受限,詞匯轉換的失真及標引、檢索前處理量大且難以達到統一等。
七、八十年代由于計算機軟件硬件條件的支持,國外在聯機檢索的基礎上進一步向網絡化發展。90年代初以來各國的信息高速公路建設更是方興未艾,如火如荼,國內機檢水平也在迅速提高,并與全球的大趨勢相合拍。在這種形勢下,作為情報檢索語言保障的規范語言因其固有的人工性、受控性,越來越難以滿足大量、迅捷、自由、多樣的檢索要求,其得不償失的內在不足更趨明顯化。
1.2自然語言的優勢及當前信息條件下對其的需求
自然語言作為日常使用的語言,無疑最符合人們進行情報檢索的習慣,隨著機檢的高度發展,應用條件的日益完善,自然語言有可能揚長避短,重新發揮其固有的優勢。
①直接采用文獻作者使用的自然語言,標引工作就可以擺脫規范語言的了解掌握,以及繁復的分析轉換過程。這大大降低了標引的腦力、體力負担,加快了標引速度,又減少了表達概念上的失真和不一致。
②直接以日常使用的自然語言進行情報檢索,符合檢索者的習慣,簡便易行,對于日益增大的普遍檢索用戶群而言更是如此。
③采用自然語言標引與檢索,可達到足夠的專指度,且不存在類目或詞匯遲滯的問題。
④自然語言具有通用性,不存在規范語言的統一兼容問題,在使用自然語言的各數據庫間可實現標引、檢索成果的共享。
⑤自然語言標引為計算機的自動處理創造了條件,其發展將可能取消費時、費力的人工標引。
因此自50、60年代進行的二次克蘭菲爾德得出最少實施控制的系統較之其它系統優越的結果后,自然語言檢索系統得到了迅速發展,發達國家的聯機檢索已從只能利用受控的敘詞語言進行布爾邏輯檢索的第一代發展能利用自然語言進行語境邏輯檢索的第二代[5]。
2.自然語言在標引檢索中的應用研究
如前所述,自然語言較之規范語言更適于當前的信息狀況及機檢條件,并且數十年來在實踐中也得到了相當的應用和發展。同時,由于它本身的不足,以及使用條件的不斷變化,自然語言也面臨著一些理論及實踐方面的不足。以下分三方面進行論述。
2.1自然語言標引問題
按照蘭開斯特的劃分,自然語言標引可分為三種形式,人工標引(含賦詞標引和抽詞標引)、機器標引(抽詞)和不標引(又分全文本和部分文本)。在實際應用中,人工標引雖然效果好,但處理速度較慢,因此較常用且帶趨向性的仍是自動標引(即上述的后兩種形式)以及部分人工的機助標引。目前國內已實現的自然語言標引方式有以下幾種。
①無標引,即全文單漢字標引
這是與全文檢索技術相對應的一種典型的自然語言標引方式。它比較完全地實現了自動化,且標引深度大,檢索方便靈活,可以檢到一些細節性、邊緣性的信息。但由于以字為對象進行處理,易產生虛假組配,檢索噪聲大而篩選負担重,同時檢全率較低,擴、縮、改檢比較困難。
②基于題名或文摘的抽詞標引
這種方式應用較早,至今仍在漢語文獻自動標引中占有較大比重。它一般需構造一個抽詞詞典,然后根據各種算法用文獻中的自然語言匹配詞典(或相反),匹配或成功即成為標引詞。由于采用先組式標引,不像單漢字標引需對字的字間關系進行組配,因此檢索速度快。但它所能處理的自然語言受到抽詞詞典的構造、維護狀況限制,且純機械的抽詞也無法完全避免誤差[6]。
③基于題名的增補關鍵詞標引
關鍵詞標引是適應科技文獻數量劇增及快速簡便的檢索需要而產生的,早期主要基于題名的情報性,直接抽取其中的自然語詞(關鍵詞)并加以輪排而成。然而題名在表達概念的準確性、專指性、完備性方面存在差異,對非科技文獻猶甚,因此出現了從文摘、正文甚至著者等方面增補關鍵詞的改進方法,這同時也增加了人工輔助的成分。
①詞串標引
詞串標引是在對自然語言的理解基礎上,由人將用自然語言書寫的主題描述句標記成形式化主句(或稱詞串),然后由機器自動完成相應的索引款目[7]。 國外60年代末70年代初詞串標引發展迅速,問世了一批進行詞串標引的機編索引系統如PRECIS、ASI、NEPIIIS等。其中最著名的PRECIS 標引專指度高,輪排準確,款目與自然語言貼近。漢語PR-ECIS是對其職能號、使用規則進行修正調整后專用于漢語文獻的主題標引系統,與之配套的微機軟件亦已研制成功。
2.2自然語言標引與檢索詞表問題
自然語言檢索的理想模式是標引、檢索階段均使用自然語言,且不使用任何控制手段。然而這將造成檢索策略構造困難、檢全率的問題,同時也在不同程度上存在一些影響檢準率的因素[8]。同時, 由于計算機對自然語言的理解力以及漢語語詞切分、識別尚存在相當距離,純自然語言自動標引與檢索未獲真正意義上的推廣及使用。
這種狀況使得自然語言也不得不研究吸取規范語言的某些控制手段或指導思想,以期在保持自然語言的基本特征及固有優點下,最大限度地提高標引、檢索效率。由此產生了各種自然語言標引、檢索詞表(典)。
①后控制詞表
以往的規范文語言詞表是在文獻或情報輸入時就對索引詞先行加以控制(受控標引),因此又稱為前控詞表。由于它的控制帶有一定的粗泛性、滯后性,有時甚至失控,因而人們開始嘗試使用自然語言(自由詞)進行檢索,但這又造成了與受控語言的脫節。于是,在標引時使用自然語言,在檢索時實施一些不嚴格的控制,這就成了后控制詞表的最初思路。
1959年美國匹茲堡大學法律中心采用一種同義詞表來輔助其法律全文數據庫的檢索,它只是簡單地將相同含義的詞編輯在一起,作為一種自動擴檢工具而獲得了相當好的效果。
國內在這方面的研究始于80年代初,近年來則正逐漸形成理論和實踐熱點,出現了一批實驗或實用性后控制詞表系統。如基于用戶提問和用戶建議的自學后控制系統,基于字面相似原理的后控詞表輔助編制系統,基于詞對相似和詞對共現原理的后控制詞表系統以及基于分面分析的機輔后控制詞表系統等[9]。
后控制詞表通過羅列自然語詞來提供一種轉換或擴檢系統,其控制效果由詞表對自然語言詞間關系的顯示形式、種類及質量所決定。它作為利用規范語言的原理和方法編制的自然語言檢索用控制詞表較好地減輕了標引和檢索負担,又同時保留了自然語言的優點,其應用前景十分廣闊。
②入口詞表
入口詞表的編制是為解決標引和檢索的入口詞問題,最初的出發點是針對規范語言詞表而言的。它解決了詞表詞量有限的問題,并提供了規范語言與自然語言的接口。隨著情報檢索的發展,入口詞表的應用范圍也有所拓展,可以認為標引詞、檢索詞表達的變化以及查找途徑的增加都可稱為入口思想的反映。
常見的入口詞表有與規范語言詞表同一的入口詞表、專門編制的入口詞表等,截詞檢索從其功能而言也是一種無形的入口詞表。另外,詞表的輪排索引提供了從詞素出發的多個入口,也是入口詞表的一種重要形式。
③切分詞典
這是針對漢語分詞的困難,而構造的一種機內詞典,在自動標引時作為切分抽詞的輔助工具。其中又可細分為主題詞詞典、關鍵詞詞典、部件詞詞典、非用字后輟表等。
上述切分詞典均在自然語言自動標引中得到了應用,但仍存在一些需完善之處。如保證詞典抽詞的準確性、便檢性,切分規則的完備性以及提高處理隱含概念、縮略語等特殊語言現象的能力。
2.3 自然語言與規范語言的結合使用——整體化趨勢
自然語言與規范語言的構成特點決定了它們在檢索效率方面具有互補性,如果能揚棄二者的優缺點并將之有機結合,從理論而言無疑將取得最為合理優良的檢索效率。
從實踐方面來看,國外自70年代中期即已顯示了將兩種語言結合使用(即所謂整體化語言)的顯著趨勢。在使用整體化語言的混和型情報檢索系統中不僅標引相對經濟、明確,檢索效果也更為理想。根據我國計算機檢索的仍以規范語言人工標引及傳統情報檢索為主的現狀,采用整體化語言應當是提高機檢水平,逐步實現向自然語言過渡的一種現實而有效的途徑。
整體化語言的結構與功能可見下圖:[10]
規范語言結構 統一分類表 敘詞表 同義詞表 分類標引 敘詞標引功能 分類檢索工具 主題檢索工具 詞匯控制應用 瀏覽性檢索 專題 入口詞表后范圍 檢索SDI族性檢索 特性檢索 制定間表 自然語言結構 關鍵詞系統 自由詞表功能 自由標引 輔助檢索工具應用 聯機檢索 詞表顯示范圍 SDI檢索
在一個完備的整體化語言系統中,可以同時用分類語言、主題語言和自然語言標引文獻,提供多種檢索入口。此外,由于分類號聯連了類目與敘詞,同義詞表勾通自然語詞與敘詞,就可以通過計算機實現三者之間的自動轉換,提高標引與檢索效率。
實際應用中,往往采取其中的一種或二種的結合,比如:
①為規范語言詞表增加自然語言入口詞
即提高詞表的等同率,提供更多的標引檢索入口。國外詞表80年代以來入口詞增長較快,一般等同率均超過了50%,而國內詞表則多在20%以下,自然語言入口詞明顯偏少。
②專用入口詞表
由于入口詞帶有指向、轉換作用、因此詞量越大,標引檢索時選詞的時間、智力消耗就越少,一致性也更多,這就產生了專門編制的入口詞表。如MEDLARS 數據庫系統的入口詞表,荷蘭Excerpta Medica 數據庫系統的同義詞表等。它接受用戶的自然語言輸入,然后自動轉換為相應規范語言。
③混合詞表
它包括一個比較粗略的受控詞表或類表,僅構成一個大致的上層結構。標引時首先使用粗泛的敘詞或類號,再加上直接取自文獻的自然語詞。檢索時,自然語詞保證了一定的專指度和方便性,而帶控制的詞表(類表)則限制了自然語言的使用范圍,又方便了族性檢索。
④自然語言標引,后控制詞表檢索
即在標引時不進行任何控制,直接選取自然語詞,待詞匯積累到一定數量時再進行一些后控制處理。主要在檢索輸出時對同義詞以及語義句法上的相關詞進行控制,以實現自動擴檢,提高檢全及檢準率。
3.自然語言應用的未來發展
以上對自然語言在情報標引與檢索中的應用作了回顧及有關重點論述,以下再就其未來發展作幾點說明。
3.1計檢、網絡化條件下, 自然語言標引與檢索將成為主流模式
自然語言的作用被重新肯定,始于計算機檢索的發展所創造的有利條件,因此機檢條件的進一步完善,如對自然語言的理解識別、存貯介質的多樣化、大容量化以及超文本、多媒體技術的發展,都在客觀上為自然語言的普及應用創造了客觀物質條件。
另一方面,信息日益滲入人們的日常生活及各行各業,情報檢索的需求也在激劇增加的同時呈現出新的趨勢,自然語言普及、方便、通用的特點顯得尤為突出。在各國信息高速公路普遍聯網的將來,面對量大、時新的各類數據庫、情報源,特別是日益增加的全文信息,規范語言將不得不讓位于時效、功能更強的自然語言。
3.2自然語言的應用仍然離不開控制原理
從自然語言與規范語言的結合使用,到利用規范語言的控制原理來提高自然語言標引與檢索效率,都可以看出,純自然語言的應用有其不可克服的缺陷。
而目前及未來情報檢索的發展又使得人們在追求優良的檢索效果及合理的費用——效益比中更多地選擇自然語言。正是這種矛盾決定了自然語言應用將保持規范語言中的基本原理——對檢索的控制,并將充分吸取其發展過程中成熟而有效的控制手段、控制技術和控制方法。當然,控制的方式會有所變化,但通過控制提高檢索效率的根本目的不會改變。
3.3情報語言學研究對自然語言應用的相應保證
如果說七、八十年代情報語言學的主要研究對象是規范語言,同時研究自然語言的應用問題的話;那么進入90年代特別是今后的時期,其研究重點無疑應當有所轉移,并從理論方面為實踐提供基礎及保證。
①以自然語言應用為中心,研究其應用條件、檢索效率、成本效益等現實問題;并從對某種具體語言的結構、功能、特點轉向對更為抽象的控制手段、思想的研究。
②探討情報語言學各種原理、方法在自然語言中移植的可能性及實現途徑,并從實際需要出發確定理論重點,進而指導實踐的發展。唯其如此,自然語言才可以迅速地完善,更好地服務于當今的信息化社會。
主要參考文獻
〔1〕F.W.Lancaster著.侯漢清等譯:《情報檢索詞匯控制》.第二版.上海.同濟大學出版社,1992
〔2〕宋明亮:論對自然語言的控制,《情報理論與實踐》, 1994(2),27—30
〔3〕張琪玉編著:《情報語言學基礎》, 武漢:武漢大學出版社。1987
〔4〕汪東玻:規范語言與自然語言情報檢索研究.《圖書情報知識》1986(3),33—34
〔5〕趙宗仁:論采用自然語言標引問題,《情報學報》,1985(1)
〔6〕蘇新寧:漢語文獻自動標引綜析,《情報學報》,1993(4),307—318
〔7〕侯漢清,馬張華主編:《主題法導論》,北京, 北京大學出版社,1991
〔8〕張琪玉:論后控制詞表,《圖書情報工作》1994(1),1—4
〔9 〕周全明:全文檢索系統后控制技術研究(學位論文空軍政治學院1995)
〔10〕洪漪:我國信息網絡建設中的檢索語言問題,《中國圖書館學報》,1995(3)69—71*
圖書與情報0蘭州34-37G9圖書館學、信息科學、資料工作朱麗19961996 作者:圖書與情報0蘭州34-37G9圖書館學、信息科學、資料工作朱麗19961996
網載 2013-09-10 21:21:02