試論情報檢索中的模糊性原理

>>>  新興科技、社會發展等人文科學探討  >>> 簡體     傳統


  1 引言
  “所謂‘模糊性’就是指認識中關于對象性態及其類屬邊界的不確定性。這種不確定性在自然界和人類社會中都是大量存在的”[1]。在情報檢索思維發展過程中,模糊性也起著重要作用。
  在情報檢索發展過程中先后有兩個提問,第一個提問是用戶用原始情報語言表述的概念提問,第二個是用情報檢索語言或索引語言表述第一個提問,即“提問標引”,用語言表述情報需求的過程中存在模糊現象。著名的哲學家和數學家B·Russell在1923年寫的有關“含糊性”的論文中指出:含糊和精確都是語言的屬性。他認為“所有的語言都是模糊的”[2]。故用語言表達的用戶提問與科研課題中的對應概念之間存在模糊性或不確定性。情報檢索是一種試探性的過程,其檢索策略也就是一個未確證的檢索方案。
  情報用戶所需要的是針對性很強的知識單元情報,而提供服務手段的情報檢索系統,一般只提供題錄或文摘情報即文獻單元信息。有的雖然也提供主題情報,但其隱含的正文即原始情報卻仍然是一個不確定項。某些全文數據庫雖然能提供知識單元情報,但它通常是存貯某些核心期刊的文章或某些學科的經典著作或某些使用頻率很高的文件資料(如法律、法令等),數量也不多,在國外,它所占的比例還不到全部數據的1/5,知識單元情報覆蓋面非常有限[3]。而且現有這些全文數據庫中的知識單元情報與查詢問題之間的關系也具有模糊性或不確定性。“在情報檢索系統中,存貯的值(例如,正文)是不確定項,詢問中出現的查找詞是不能預料的,而且存貯的信息和處理的問題之間的關系是含糊的” [4]。
  由于用語言表達的用戶提問與科研課題產生的概念提問在表達上不一致,有內容的同異問題,也有語言的差異問題,因而造成存貯的信息和處理的問題之間關系的含糊性,這種含糊性也是一種模糊關系,它是制訂或修訂情報檢索提問標引的依據,是構造檢索策略的基礎。
  2 模糊性原理的基本特征
  模糊思維方式是運用模糊論的觀點,用模糊的方式對模糊信息進行加工來揭露事物的本質,從而達到對模糊事物的理性認識。模糊性是與事物性態和類屬的不精確性、不確定性連在一起的。它呈現出以下一些基本特征:
  2.1 科學性和普遍性
  模糊性是事物自身性態和類屬的不確定性,這種不確定性在自然界和人類社會中大量存在,當認識條件不具備或認識過程沒展開,或者是因客觀對象本身的性態不確定時,就存在模糊性。模糊性是絕對的,普遍存在的,它是對現實世界的真實反映。因此它具有科學性和普遍性。模糊認識已成為現代科學所不可缺少的認識方法。情報檢索過程中用戶的概念提問和用檢索語言表述的提問標引都是用語言表達的,語言的含糊性決定了檢索過程中貫穿著模糊性。尤其在計算機情報檢索日益廣泛應用的今天,自然語言正在我國流行起來。“自然語言的突出特點在于它具有模糊性”[5]。
  2.2 精確性與模糊性的辯證統一
  模糊性和精確性的區分是相對的,精確之中有模糊,模糊之中也有精確。在現代科技革命中,人類的視野正在迅速地向微觀和宏觀拓展,它越來越多地碰到復雜系統,越來越多地要解決多因子交叉的、非線性和隨機的問題。系統科學的發展表明,構成系統的要素越多,越復雜,系統的邊界就越不明晰(模糊),任何事物的系統愈是向過去或未來延伸,明晰度就越大(精確),也即“輪廓一致”。模糊理論中的模糊控制算法就是通過模糊語言描述的,但它所完成的卻是一項完全確定的工作。“看起來似乎不確切的模糊手段常可以達到精確的目的”[6]。
  在情報檢索過程中也存在模糊與精確的統一。廣義上講“檢索策略是對整個檢索的規則”[7],但是“如果索引語言所提供的敘詞不能充分表達需求,檢索人員就必須發揮靈活性,千方百計地追蹤相關實體”[8]。這里所講的靈活性,指的就是根據檢索人員大腦中積累、存貯的信息,即經驗,通過加入模糊條件句形式,對檢索過程和結果進行控制,從而找到準確的文獻情報。
  2.3 近似性
  模糊控制不是指被控對象是模糊的,而是指在表示知識、概念上的模糊性,即用模糊語言進行描述,建立一種語言分析的數學模式,“而語言方法卻是一種很方便的近擬”[9]。模糊理論運用模糊邏輯和近似推理的理論和方法,使自然語言能夠轉化成機器可以理解和接受的東西,使機器更“聰明”,智能化程度更高。這一點在運用自然語言的計算機情報檢索系統中非常突出。機器將自然語言(關鍵詞)和人工語言(情報檢索語言,包括控制詞和分類號)進行互相轉換,如等義轉換、廣義轉換和狹義的轉換,近義和意義密切相關的轉換。這種轉換的目的在于提高檢索效果,一方面,利用關鍵詞提高檢準率,方便新學科、新概念的檢索;另一方面,利用控制詞和分類號有助于提高檢全率。
  3 模糊性原理在情報檢索中的應用
  情報檢索過程離不開一定的思維形式,“模糊思維是思維發生的基本規律”[10]。人們觀察、認識和判別客觀事物,不僅表現為“非此即彼”(精確性),也表現為“亦此亦彼”(模糊性)。模糊認識論已成為現代科學所不可缺少的認識方法。模糊理論中的模糊邏輯和近似推理理論和方法在情報檢索過程中起著非常重要的作用。
  3.1 檢索策略的構造
  “所謂檢索策略就是在檢出某一文獻之前,對該文獻應屬什么類目的說明”[11],也就是用情報檢索語言表述的概念提問表達式,亦即提問標引。由于檢索詞表本身存在缺陷和局限性:如“詞表專指度不夠,詞與詞之間關系含糊或者荒謬,詞表的結構不能使檢索者查遍所有進行全面檢索所需要的詞,或者有關某一特定需求的最合適的詞”[12]。在使用分類索引語言時,由于文獻主題概念之間的聚類依據不十分明確或所顯示出的關系不十分恰當導致聚類的模糊性,如“經濟作物包括纖維作物、油料作物、糖料作物等,它們的共點同是什么”[13]。由此我們說索引語言本身存在不確定性,它所提供的詞不能充分表達需求,所標識的概念與詞表之間不能總是存在著直接的一一對應關系。“有時檢索人員不得不遷就”[14],根據概念提問和大腦中積累存貯的信息,調整和修改檢索策略。例如要查找有關超縮微平片的情報,而系統語言只有較一般性的詞“縮微平片”。此時,就應考慮用“縮微平片”作為檢索入口詞。因此,由于索引語言本身的模糊性,在檢索策略的構造和實施過程中存在著不確定性,也即模糊性問題。
  3.2 用戶提問的模糊性
  在提問階段,往往不是所有的用戶都能容易地把其情報需求向別人敘述得全面準確,用戶提問存在模糊性。影響用戶與情報檢索系統交互的因素包括:“(1)用戶自己頭腦中確定其需求的能力;(2)用戶自身的表達能力;(3)用戶對系統能力的估計——用戶往往有一種強烈的傾向,他提問的并不是他真正想要的情報,而是他認為系統能提供給他的情報;(4)系統所提供的幫助的數量與類型”[15]。這些因素將導致用戶不適當地表達其真正情報需求的口頭提問。“用戶往往存在這種傾向:想要他們認為系統能夠提供的情報,而不是找他們實際需求的情報,這意味著,查問往往比隱藏其后的情報需求更為一般”[16]。假定系統詞表可以理想而充分地表達提問中的概念,檢索策略可以全面而準確地表達提問,數據庫的標引可以全面、準確且一致,但是如果用戶的提問(表達的需求)未能適當地表達其真正需求的話,為匹配其提問的一切檢索將沒有多大的實際價值。因此,充分認識用戶提問中存在的模糊性,引導用戶充分表達其真正的需求,對于提高檢索的實際效益非常重要。
  3.3 模糊性原理在計算機情報檢索中的應用
  模糊理論給出了一套表現自然語義的理論和方法,使自然語言能夠轉化成機器可以“理解”和接受的東西,提高了機器的靈活性。在計算機情報檢索實踐中使用的人—機結合的題內關鍵詞索引就是一例,人—機結合的題內關鍵詞索引采用的是一種“含糊抽詞”的辦法,它不需把關鍵詞完整地從題名中分離出來。“所謂‘含糊抽詞’是指只要能分辨出題名中哪個詞或詞素具有檢索意義,也就是可以作為檢索人口和能字面成族的,就把它作為關鍵詞排到檢索入口位置,而不需再考慮一個詞抽到何處結束的問題”[17]。具體做法是:在題名中插入一個表示該處要輪排的符號,計算機就復制一個條目并按符號排入相應位置。插入多少個輪排符號,就復制多少個條目,輪排多少次。如:胡小梅著的《熹平石經在中國書史上的地位》,可輪排如下[18]:
  附圖G911f01.JPG
  上例抽詞不需考慮:“嘉平石經”和“中國書史”是作兩個詞抽合適還是作四個詞抽合適,不僅回避了分詞疑難,而且輪排非常充分,雖然是“含糊抽詞”,但由于保留了上下文,關鍵詞的明確性是很好的。
  模糊控制具有許多傳統控制無法與之比擬的優點,如使用很方便近似的語言方法,易于掌握:對過程參數的變化具有較強的適應性,操作人員易于通過人的自然語言進行人機界面聯系,這些模糊條件語句很容易加入到過程的控制環節上等。由于模糊控制的這些獨特優點,模糊邏輯可使電子計算機模擬人的直覺,并依據不確切信息做出決定。因此,模糊理論在計算機情報檢索系統中有著非常廣闊的應用前景。
[from]G91情報資料工作周芝萍20012001文章從情報檢索系統的現狀出發,根據模糊原理的理論和方法,探討了情報檢索模糊原理的實質情報檢索/模糊思維周芝萍 女,1968年生,江西師范大學圖書館咨詢部副主任,館員。江西師范大學圖書館 南昌 330027 作者:[from]G91情報資料工作周芝萍20012001文章從情報檢索系統的現狀出發,根據模糊原理的理論和方法,探討了情報檢索模糊原理的實質情報檢索/模糊思維

網載 2013-09-10 21:39:15

[新一篇] 試論情報學的三大重點研究領域

[舊一篇] 試論情報用戶研究中受眾理論的引入
回頂部
寫評論


評論集


暫無評論。

稱謂:

内容:

驗證:


返回列表