談自然語言檢索的發展

簡體傳統

（李法勇北京文獻服務處北京 100036）
　　Abstract Deriving from the variation of user demand and t-he development of information retrieval technology,this papercompares the natural language retrieval with traditional waysand indicates dialectically that the application of naturalla-nguage processing in information retrieval is an important de-velopment trend of the future information retrieval system.
　　Keyword Information retrieval Natural language processingRetrieval system
　　＊＊＊
　　 0 前言
　　一個理想的信息檢索系統應該是一個“問答機”。我們提出問題，它負責解釋并回答。它理解的不是只字片語，而是提問意圖。作為最終用戶，不應多費心思表達自己的提問，也不須學習一套繁瑣的命令、格式或代碼。我們希望能走進信息倉庫，就象走進商店看看有什么，買點什么。
　　人們大多一直在用基于命令的布爾檢索引擎。目前，一種以相關排序和智能文本處理為特征的“自然語言處理”(NLP)系統開始流行。國外對NLP引入信息檢索(IR)已由理論研究開始轉向應用，而國內目前尚處于理論探討階段。5年前，美國尚集中在知識表達等方面的理論發展上，現在，來自美國政府特別是ARPA（美國國防部高級研究計劃署）的壓力以及商業信息的迅猛發展，將NLP推向應用、系統評估方向。不同于歐美，日本則將包含NLP在內的人工智能技術作為一個整體推進。
　　 1 自然語言檢索的產生和發展
　　自然語言檢索，從技術上講就是將NLP技術應用于信息檢索系統的信息組織、標引與輸出。從用戶講就是用自然語言作為提問輸入和對話接口的檢索方式。
　　1.1 信息檢索、文獻檢索與原文檢索
　　這3種檢索是從信息源講的。信息檢索(IR)是最廣義的，包括文獻檢索(DR)、數據檢索、知識檢索等許多方面。
　　在信息檢索中，文獻檢索是最重要的，也是獨立發展最完善的檢索方式，有著自己豐富的特征。在文獻檢索中，用戶是想找點什么讀一讀，而不是想得到一個特定的數值，或是一個特定的回答。
　　本文檢索(TR)通常都叫文獻檢索。它提供給用戶最終的文本，而不是象題錄、文摘型那樣只提供給用戶找到資料的線索和介紹。隨著數據庫建設的發展，TR和DR中的地位越來越突出。
　　1.2 傳統標引檢索與自然語言檢索
　　從信息技術的發展來看，傳統的標引檢索方法最早是基于手工標引的主題詞檢索。它首先由專業人員根據對文獻特征與內容實質的分析確定主題詞，然后基于相應的主題詞表組織、建立檢索系統。用戶再根據該主題詞表作為入口進行檢索。它較好地解決了檢索效果中查準率與查全率問題。
　　隨著機器抽詞技術的發展，計算機自動標引逐步取代手工標引，出現了單元詞法。這樣，原來的主題詞檢索也被稱為復合詞法。30多年的實踐表明，用單元詞（或詞干）標引文獻檢索并不亞于用手工控制詞表的復合詞檢索效果。但單元詞進行組配的效果與復合詞法相比沒有多大改善，如經常出現誤組、漏組現象。
　　最后，在單元詞法中加入位置信息，產生了全文檢索方法。全文檢索綜合了前兩者的優點，組配更加靈活，但在實現上卻出現了詞表空間開銷龐大、處理時間增長的問題。
　　針對中文漢字的特點以及大型海量中文數據庫的需要，出現了以字為單位的特征文件存取檢索方法。特征檢索解決了分詞（機器切詞）與新生詞等問題。由于采用非控制詞表和排序功能，既可實現布爾型提問的準確匹配，又可實現近似自然語言檢索。
　　統計文獻檢索方法是NLP技術在DR中的應用。與傳統標引文獻檢索方法相比，大大改善了布爾型提問方式。它根據與提問的相似性或相關度排序文獻。提問可以是用戶需求的任意表達，也可以是一篇文獻樣本。統計文獻檢索方法給最能體現文獻內容的詞以較高的權值。一個詞在某篇文獻、某個提問甚至某個文獻集合中出現的頻次都可以作為確定其權值大小的考慮因素。另外，如果用戶覺得某命中文獻很合適，系統可以根據它自動調整檢索詞及其權值，這常被稱為相關反饋。
　　統計文獻檢索方法有著明顯的優點：①后組式：復雜概念不是在標引時組配而成的，而是在用戶提問時形成。②允許冗余詞：因為詞是從文獻原文中抽取，而不是取自控制詞表，這樣用戶表達用詞不再受限。如：可以用"testing"，而不一定用其主詞"test"。③表達用詞來自文獻本身，所以更易表現文獻間的相同和不同。如用"testing"和用"tes-ter"的兩篇文獻。
　　下面舉一個統計文獻檢索的例子。例如：
　　提問式：A cheap[20]method[5]for prefabricated[30]housing[20]．
　　（房屋預制件的廉價方法）
　　一篇含有cheap和prefabricated的文獻獲得了最高分值。如果用戶認為該篇很合適，相關反饋將增大這兩個詞的權值，并且，該相關文獻中的高權值詞unit和construct也將連同其權值加入到提問式中，這樣就可能獲得一些未可預料的相關文獻。
　　由此可見，該方法更適宜稱作“文獻導游”，它不是一次性的付給，或是粗略地給出一堆同類文獻。當然，它還面臨許多問題，如許多NLP理論未能付諸實踐，在海量全文型數據庫上的應用還不算多，或有的用了自然語言但沒有利用詞的權值，或不支持相關反饋功能。最重要的許多用戶還不習慣，不會構造初始提問或對動態修改提問要求。但總的說，統計文獻檢索的入門應用比傳統方法簡單容易得多。
　　1.3 NLP在DR中的典型應用
　　統計文獻檢索方法的應用只是在低垂的枝頭上摘下了幾個蘋果。它以強大的優越性吸引了研究人員，同時也向NLP技術在DR中的發展提出了挑戰。NLP在DR中的主要應用有：
　　(1)NLP可用于復合詞的生成，并且可以實現它的自動選擇與賦加權值。復合詞不再只靠人工編制實現。如"civil communication network"3個詞，若提問式與多篇文獻中均有此復合形式，則可以被認定為一個復合詞。
　　(2)NLP還可用于自動或半自動的知識采集。如自動生成相關詞簇，再大一點就是同義詞詞典。比如同義詞"ARPA"與"DARPA"可作為一個詞簇。
　　(3)NLP用于生成各種匹配形式。如：在傳統索引中，元素拆分不允許用副詞等非主題詞表中的詞，而NLP可在必要時通過標記為復合詞元素使用這些詞。如"very high speed"（甚高速）的"very"。
　　(4)NLP可將詞的上下文作為詞義線索。如：在提問中，當多個詞使某篇文獻與提問相匹配，我們說這些詞具有相同的“詞感”。詞感可作為獲取詞義線索的一條重要途徑。比如用"internet resources"和"www"兩個詞均可查到同一篇文獻而滿足同一個需求，那么這兩個詞的詞感是相同的。
　　 2 DIALOG TARGET與DR-LINK之比較
　　為舉例說明，這里取3個比較有影響的代表性信息檢索系統作一下比較。DIALOG作為傳統的布爾型系統的樣本；TARGET作為僅增加了相關排序功能的系統樣本；而DR-LINK作為更高級的智能型全文處理系統的例子。
　　例1：用戶想找一篇自己曾經見過的文章，是1995年在"PC Comput-ing"上發表的Microsoft公司對Windows 95有關Internet的補遺。
　　提問式：
　　DIALOG
　　e jn=pc?
　　s jn=pc/comput?and microsoft/ti and(left()out or omit?)and windows/ti and py=1995.
　　TARGET
　　target 'pc comput''windows 95''left out'internet
　　DR-LINK
　　I would like information about an article in PCComputingon what Microsoft left out of Windows 95.It mentions an Internettool.
　　講評：
　　DIALOG：該例應該對DIALOG有利，尤其是它可以用“jn=期刊名”。但事實上，DIALOG中沒有"PC Computing"，而用的是"PC/Computing"，所以用戶不得不先用命令"e jn=pc?"查看，弄不好還會認為沒有。最后，用戶終于在命中的幾篇文獻中把它找到了，但也說明了它作為傳統檢索方式的不足。
　　TARGET與DR-LINK：都找到了用戶想要的文獻并都排在第一位，且都給出了另外49篇相關文獻。不過這49篇中，TARGET有些并不真是講I-nternet的，而DR-LINK由于給"Internet"較高權值，把這些不相關文獻都排除在外了。
　　例2：用戶想找在1993年1月至1995年3月《金融時報》上的有關歐洲經濟共同體(EEC)的制度、法規對EEC國家經濟、商業的影響方面的資料。
　　DIALOG
　　s (EEC or European ( ) Economic ( ) Community)and(rule?orregulation?)
　　s s1 and(econ?or commerc?)and impact?or effect? or future)
　　s s2 and py=1993:1995
　　TARGET
　　?target (eec'european economic community')(rule?regulat?) (impact effect?future) (econ?commerce?)/1993:1995
　　DR-LINk
　　I would like information about the impact or effect of EECrules and regulations on the economics or the commerce of EECcountries.
　　講評：
　　DIALOG：命中20篇，都比較對題。但有點模糊，沒有突出“影響”這個概念。
　　TARGET：50篇中有30篇對題，20篇毫無用處。
　　DR-LINK：所有50篇全部對題，并且很好地突出了“對未來的影響”方面的資料。
　　以上的例子或許有些偏頗。但我們不能憑主觀就認定傳統的就是過時的，或說新技術在傳統方法中的應用只是玩花樣，不實用。我們需要的是多實踐。
　　 3 自然語言檢索發展趨勢
　　3.1 從用戶角度看
　　用戶可分為兩類：最終用戶（直接用戶）和職業用戶（間接用戶，中介用戶）。對職業用戶來講，他們熟悉系統命令及操作技巧，熟悉各種文獻的特征，又有豐富的經驗，可以充分發揮傳統檢索方式的優勢。另一方面，他們多數恐怕不愿接受“用戶一律平等”的自然語言方式。而對最終用戶來講，有兩種實現檢索的方式。一種是接受傳統檢索方式繁瑣的系統培訓，第二種是借助中介用戶來檢索。兩者都有困難的話，他們還是鐘情于自然語言檢索。
　　3.2 從信息資源看
　　傳統檢索方式主要用于DR。從前面DR的介紹中我們看到，未來DR尤其是TR系統將會或多或少地包含自然語言標引方法、支持設備或應用策略。這是因為它使用戶盡心提問而無需考慮文獻的各種特征；它支持用詞的承繼、冗余和后組。另外，它的靈活實用性尤其表現在全文型的次文檢索（如段落）和第二次檢索（在第一次粗略檢索的基礎上進行深化）。
　　數據檢索中，各參數的文件信息須預先編碼，概念分類也是預知的。自然語言提問式通過特定的模型轉換，映射到相應的文件分類中。
　　象數據檢索一樣，知識檢索也是直接回答用戶的提問，沒有間接的二次檢索。但它不需要嚴格的預編碼，而需要比DR與數據檢索更強大的推斷能力（知識庫包含支持推理的語義結構）。有人提出將DR中的文獻文件代之以知識庫，這在某些場合可以取得更好的效果，但多數尚不可行。不過DR可以通過在文件級上組織一種超架構來增加其檢索深度和集成性。如常見的面索引和超文本，就是在這方面的嘗試和應用。
　　3.3 從用途來看
　　信息檢索的用途、目的迥異，檢索策略就大不相同。如編寫教材、專利查新、成果鑒定等瀏鑒性或回溯性檢索，對查全率要求較高。了解情況、事實問答、決策支持等針對性檢索，對查準率的要求比較高。不同檢索方法對不同的數據庫的檢索效果不一樣，所以還應該具體分析，對查準和查全有所側重。而自然語言檢索與幾種傳統檢索方式對查準與查全的效率也不一樣。主題詞法有很高的查準率，單元詞法有很高的查全率，全文檢索有很高的方便性，以及自然語言有綜合優勢，它們都以不同方式吸引著用戶。
　　總之，自然語言檢索的應用是信息檢索發展史上的突破。尤其是隨著Internet的普及發展，信息檢索最終用戶日趨壯大。自然語言檢索將成為一大發展趨勢。但它也不可能完全取代傳統檢索方式。正如計算機并未取代紙介質使我們進入“無紙時代”，多種檢索方式將在并存中為用戶提供更多的選擇。
　　參考文獻
　　1 Feldman S.Testing Natural Language:Comparing DLALOG,TA-RGET and DR-LINK.Online,1996,20:71
　　2 LewisDD.Joes KS.Natural Language Processing forInformation Retrieval.Communications of the ACM,1996,39:92
　　3 Wilks Y.Natural Language Processing:Introduction.Communi-cations of the ACM,1996,39:60
　　4 Glymour O,et al. Statistical Inference and Data Mining.Co-mmunications of the ACM,1996 39:35
　　5 Chien Lee-Feng.Fast and Quasi-Natual Languge Searchfor Gigabytes of Chinese Texts,ACM SIGIR'95
　　6 張琪玉．檢索語言講座（十）．情報理論與實踐，1996,(6)
　　7 張琪玉．情報檢索語言．武漢：武漢大學出版社，1983.6
　　
　　
　　
情報理論與實踐京260-262G9圖書館學、信息科學、資料工作李法勇19971997 作者：情報理論與實踐京260-262G9圖書館學、信息科學、資料工作李法勇19971997

網載 2013-09-10 21:39:27

[新一篇] 談綜合考試中歷史學科的能力要求

[舊一篇] 譚恩美和美國主流意識形態