跨語言信息檢索理論與應用研究

>>>  新興科技、社會發展等人文科學探討  >>> 簡體     傳統


  中圖分類號:G354  文獻標識碼:A  文章編號:1003-6938(2006)02-0079-03
  CLC number: G354  Document code: A  Article ID: 1003-6938(2006)02-0079-03
  1 前言
  信息檢索泛指用戶從包含各種信息的文檔集中找到所需要的信息或知識的過程。傳統的信息檢索系統主要是針對單一語種的文檔集,其查詢語言通常為單一語種,如用中文檢索中文書寫的文獻、用英文檢索英文書寫的文獻。隨著互聯網的全球化發展趨勢,用各種語言書寫的信息匯聚在一個集合中,使系統提供對多語種文獻進行同時查詢的需求變得越來越迫切,由此而引發了信息檢索界對跨語言檢索的研究。跨語言檢索(Cross Language Information Retrieval, CLIR)即可用一種提問語言檢索出用另一種語言書寫的信息,也就是一種跨越語言界限進行檢索的問題。
  跨語言信息檢索研究涉及了語言學、情報學、計算機科學等多門學科知識,是一個綜合性強、富有挑戰性的研究領域。跨語言檢索技術的實現應用了信息檢索、文字處理、和機器翻譯等技術,如文字切分技術、詞匯翻譯、詞頻技術、索引技術等。
  2 跨語言信息檢索的研究狀況
  跨語言信息檢索研究最早可追溯到1973年G. Salton先生Experiments in multilingual information retrieval一文的發表。[1] 當時的研究主要針對國際聯機檢索進行的,由于檢索系統不普及,因而人們對網絡信息的需求并不強烈。跨語言信息檢索研究真正成為熱點,是在Internet迅猛發展的90年代后期,在很大程度上,Internet的全球化信息結構引發了對跨語言信息檢索的迫切需要。這就促使越來越多的研究團體深入研究跨語言信息檢索問題,并研制開發跨語言信息檢索的不同方法。這一時期國際上先后有許多相關論文發表,一些實驗性跨語言信息檢索技術相繼問世。
  國內對于跨語言信息檢索的研究很少,所查找到的一些資料基本都在2001年以后。國際上,從跨語言信息檢索研究領域定期召開的一些會議,也反映了當今跨語言信息檢索的研究熱點和趨勢。這些重要會議分別是文本檢索會議(TREC)、跨語言評價論壇(CLEF)、日本國家科學信息系統中心信息檢索系統測試集會議(NTCIR)、美國計算機協會信息檢索特殊興趣小組會議(ACM SIGIR)。
  其中TREC是由美國國家技術標準局組織召開的國際會議,其旨在促進大規模文本檢索領域的研究,加速研究成果向商業應用的轉化,促進學術研究機構、商業團體和政府部門之間的交流與合作。TREC-6,7,8,9,10五次會議對于跨語言信息檢索問題給予了極大的關注,每次的側重點不同。TREC-6,7,8這三次會議主要對歐洲語言(英語、法語、德語以及意大利語)的跨語言檢索問題進行了研究;在TREC-9會議上,對中英文的跨語言檢索問題進行了研究;[2] 在TREC-10會議上,對于阿拉伯語和英語、法語之間的跨語言檢索問題進行了研究。
  3 跨語言信息檢索的實現方法
  3. 1 跨語言信息檢索研究重點
  跨語言信息檢索需要解決如下幾個主要的問題:
  (1)提問與文獻分屬不同語言。這是跨語言信息檢索的最主要特征,由于提問與文獻分屬不同的語言,因此在兩者之間需要通過詞典等方式建立匹配的對應關系。
  (2)詞的歧義和多義性。由于原始提問中有些詞義的不確定性,系統中需要借助歧義性、多義性分析機制,將原始提問排歧后轉換成最終提問。
  (3)提問中詞的切分。一些語言(如中文、日文、韓文等)由于詞與詞之間沒有明顯的分隔符號,因此詞的切分問題成為此類語言的跨語言檢索研究要點之一。
  (4)文獻的多語言性。在跨語言檢索系統中,由于原始文獻是用不同的語言書寫的,因此語種識別是檢索的基本工作,此類情況常出現在自動標引的系統中。
  (5)輸出結果的排序方式。檢索結果中,不同語種的文獻如何排序,如何對不同語種的文獻進行相關度的計算,也是跨語言資訊檢索系統必須研究的問題。
  3. 2 跨語言信息檢索基本方法
  跨語言信息檢索的實現方法可以簡單地歸并為查詢語種和檢索語種的統一及單一語種的檢索。其中,語種的統一是最為關鍵的,主要通過三種方式實現,即提問翻譯、文獻翻譯和中間語種轉換。[3]
  (1)提問翻譯。將提問用語種轉換成文獻用語種(如將中文提問轉換成英文提問),然后再進行單語言檢索。提問翻譯的實現方法一般包括兩個步驟:找到對應的詞匯、并選擇正確的譯詞。前者與詞典的覆蓋度、詞典的結構有關,而后者與正確理解并消除歧義有關。由于用戶提交的提問一般比較短,而語言的正確理解往往需要借助一定量的文字及上下文環境,因此消除歧義的研究甚為關鍵。提問翻譯是實現跨語言檢索最經濟而且實現難度較小的方法,在目前推出的一些跨語言檢索系統中大多數采用的都是此方法。
  (2)文獻翻譯。將源文獻語種轉換成提問用的語種(如將英文源文獻轉換成中文文獻),即不對提問式進行翻譯,而是對集合中的文獻翻譯成與提問用的語種一致的語言。由于文獻層次的翻譯與提問層次的翻譯相比,其語境更加寬泛,進行歧義性分析所能利用的線索比較多,因此比較容易消除歧義。但是這種方法所使用的文本自動翻譯技術的正確率目前還難以達到實用水平,而且將集合中全部文獻從一種語言翻譯到另一種語言的工作量非常巨大,因此目前采用這種方法的實驗系統尚未見報道。
  (3)中間語種轉換。將提問和文獻轉換成一種邏輯形式,或者第三種語言。這種方法常用在多于兩個語種的跨語言檢索系統中,或者兩種語言之間不存在直接對應轉換(例如在TREC中很難找到德語和意大利語之間直接對應的語言轉換)的跨語言檢索系統。
  此外,還有一種非翻譯方法可實現跨語言檢索。如Deerw,ester等人1990年用潛在語義標引法,[4] 將英語詞匯、法語詞匯、英法雙語文件映射到一個向量空間中。盡管這些術語是不同語言描述的,但是可進行語義上的比較匹配,而無需翻譯轉換。Berry等人在希臘文—英文、Oard在西班牙文—英文等不同語言配對上進行了實驗,驗證了這種方法具有一定的有效性。
  3. 3 提問翻譯方法的實現
  提問翻譯的方法,由于其在系統造價及實現上的優勢,而逐漸成為主流。在提問翻譯的實現中,根據其具體的處理方式,又可分為基于機器翻譯系統的方法、基于語料庫的方法、基于詞典的方法和基于語料庫和詞典的混合方法。
  (1)基于機器翻譯的方法。接受用戶的輸入并提供輸出的翻譯結果。例如IBM公布的IBM HomePage Dictionary TM2000就提供英譯漢的機器翻譯功能,它包含一個480K的英漢字典,字典中包含單詞、常用詞組、縮寫以及專用名詞,對大部分的單詞翻譯的模棱兩可的情況都能有效解決。[5]
  (2)基于語料庫的方法。在對應語料庫的幫助下過濾查詢翻譯后產生的非正常翻譯結果。用戶提問中出現的每一個單詞或者詞組,往往能找到多個翻譯結果與之對應,此時就需要選出正確的翻譯結果作為檢索對象。通常情況下,提問語種語料庫中的單詞(或詞組)出現的概率大小與對應的檢索語料庫中的概率大小有關,這樣就可以通過比較它們出現的概率來協助去掉干擾項并確定一個最佳翻譯。[6]
  (3)基于詞典的方法。在查詢翻譯后,每一個詞都有一個以上的譯詞與之對應,它們之間可形成不同的組合。在檢索中,可以直接使用這些組合進行檢索。基于詞典的方法需要解決的關鍵是消除詞的歧義和詞典本身的覆蓋率問題。
  上述方法中基于機器翻譯的方法實現較難,而且目前機器翻譯技術正處在研究階段,其翻譯結果的正確率不能保證,因此在跨語言檢索中采用還為時過早。基于語料庫的方法由于現成的語料庫不多且量不大,所覆蓋的主題面有限,真正實現還需要借助其他技術。基于詞典的方法不涉及機器翻譯的問題,但需要保證詞典的覆蓋率,并消除詞的歧義性。由于詞典可提供有一定的覆蓋率,可實現通用檢索;而語料庫可提供特定領域用語的匹配,可實現專業檢索。因此,采用基于詞典和語料庫混合的方法是比較好的做法。
  4 跨語言信息檢索實踐與應用概況
  4. 1 跨語言信息檢索系統
  隨著跨語言檢索技術研究的發展,伴隨著一些跨語言檢索系統的出現。如Aport、Arctos、Eric、Mulinex、[7] Mudial等實驗系統。也有一些投入使用的商業系統,如Cindor、Rotondo、TextFinder等系統。
  Cindor系統是MNIS公司的一個產品,它目前所支持的語言有英、法、德、意、日和西班牙語,而對于中文的支持正處于研究之中。系統的特點是:統一的字符編碼標準、自然語言檢索、查詢自動擴展、申請專利的跨語言檢索技術等。Cinor有3項核心技術,即概念中間語言、語言分析、搜索管理。
  Keizai系統是美國新墨西哥州立大學計算研究實驗室開發的一個系統,它是一個跨語言的交互檢索和摘要系統。使用了統一字符編碼檢索體系(USRA)和交互文檔摘要方法(MINDS)。它提供了自動和用戶幫助兩種方法,以構建和提高跨語言查詢的效率。在Keizai提供的示范系統中,有英文查詢、新聞源選擇、翻譯查詢等。它目前所提供的新聞源有英文、法文、德文、西班牙文、意大利文、中文、日文、韓文,并支持這些語言的跨語言翻譯和檢索,但系統提供的查詢語言僅為英語。
  4. 2 跨語言搜索引擎
  知名的跨語言搜索引擎有我們熟知的Google,[8] 它除了可以指定搜索用特定語言編寫的網頁外,還提供了對用戶輸入的詞、句子或者網頁進行在線翻譯的功能。Google目前所支持的語言種類達到了64種(包括不同形式的同一語言,如中文的繁體和簡體)。
  5 CLIR在專業領域數據庫中的應用
  機器人信息系統數據庫是中國高等教育文獻保障系統(CALIS)二期重點資助的特色數據庫建設項目,在該系統中,儲存了有關機器人的中文和英文信息。將跨語言信息檢索技術應用在機器人信息系統中,有利于方便用戶通過一個提問而獲取較全的信息。
  筆者在機器人信息系統項目的研制中,擬采用詞典和語料庫混合的方法實現跨語言信息檢索。系統結構見圖5. 1。
  G9QA08.jpg
  圖5. 1 系統結構圖
  對于源語言的查詢,首先去掉符號和禁用詞,抽取提問詞(包括單字和詞)。以一個英文查詢為例:improvement or proposal of data mining methods,我們首先去掉or、of,提取improvement、proposal、data mining methods,然后對提取出來的提問詞進行逐詞翻譯,并保留詞在提問中的順序。[9] 為了簡單起見,詞與詞之間是相對獨立的,詞匯的翻譯方法分為兩步:第一步從基礎詞匯中提取所有可能的翻譯;第二步利用基礎詞典翻譯中提取的語料集進行歧義的消除。
  在消除歧義中,漢英翻譯和英漢翻譯采取同一個語料庫。首先,在英漢轉換過程中利用雙語詞典進行翻譯,如果詞典中沒有對應的詞,則進行人工干預,并進入新詞詞典,或留待機器自學機制識別。另一方面,在漢英翻譯中,我們考慮所有中文詞可能的切分,選擇包括最少數量的基礎詞是我們最優先的選擇。
  對于專業數據庫來說,由于其專業性強,從數據庫中直接提取語料庫后翻譯的效果較好,相對來說翻譯的歧義性將大為降低,因此跨語言檢索技術在專業數據庫中的應用有望取得較好的效果。
  6 結語
  目前,國外對跨語言信息檢索技術的研究方興未艾,中英文跨信息檢索也正成為新的研究熱點。但在國內,這方面的研究起步較晚,研究也相對薄弱。當前跨語言信息檢索的查準率普遍比單語言檢索的查準率低,這也說明了跨語言信息檢索還有很多問題值得研究、還需要有較大的力度深入研究、還需要提出更多的思路和方法并進行探討。有理由相信,在Internet全球化浪潮的推動下,將會有更多的專家學者投身于跨語言信息檢索的研究中,跨語言信息檢索的研究成果也將會給大家在多語種文獻的檢索中帶來更大的便利。
圖書與情報蘭州79~81,84G9圖書館學、信息科學、資料工作郭宇鋒/黃敏20062006
跨語言/信息檢索/查詢翻譯/機器人信息數據庫
隨著互聯網的全球化發展趨勢,跨語言信息檢索日益成為信息檢索領域中的重要課題,跨語言檢索可用一種提問語言檢索出用另一種語言書寫的信息。文章主要對跨語言信息檢索理論應用研究進行了探討,并對其在專業領域數據庫中的應用提出一種思路。
作者:圖書與情報蘭州79~81,84G9圖書館學、信息科學、資料工作郭宇鋒/黃敏20062006
跨語言/信息檢索/查詢翻譯/機器人信息數據庫

網載 2013-09-10 21:39:35

[新一篇] 跨文化企業管理初探

[舊一篇] 轉型時期中國消費者行為研究綜述
回頂部
寫評論


評論集


暫無評論。

稱謂:

内容:

驗證:


返回列表