中圖分類號:G350 文獻標識碼:A 文章編號:1003-6938(2008)01-0023-06
1 情報學發展史中的三大觀點
美國情報學家Tefko Saracevic認為,到目前為止,在情報學的發展歷程中存在三個重要的觀點。[1]第一個觀點,形成于20世紀50年代,是指信息檢索,它提供基于形式邏輯的信息加工。第二個觀點是指相關性,它直接對人類信息需求與評估的過程進行定位和聯系。第三個觀點是指互動性,它可以促進系統與從事信息檢索過程的人們直接交流和反饋。
1.1 信息檢索觀點
信息檢索觀點一直占據著情報學的主流地位,具有悠久的歷史。
“信息檢索”一詞由Calvin Mooers在1951年首次提出。它是指從非結構化的文獻集合中找出與用戶需求相關的信息。當前的非結構化數據主要包括文本數據(如新聞、科技論文等)、互聯網上大量存在的HTML、XML網頁以及一些諸如圖像、視頻、音頻等在內的多媒體數據。
最初的信息檢索系統出現在20世紀60~70年代,它面向小型的科學文摘數據庫、法律和商業文獻,檢索模型為基本的布爾模型和向量空間模型。到了80年代,信息檢索技術出現在大型文獻數據庫中,這樣的系統有Lexis-Nexis、Dialog、MEDLINE。90年代,在互聯網上出現了對FTP文檔進行搜索的系統,包括Archie、WAIS;在World Wide Web上進行的搜索,包括Lycos、Yahoo、Altavista。這一時期也開始了學術機構對信息檢索進行的有組織評價,如由美國國防部Defense Advanced Research Projects Agency(DARPA)和美國國家標準技術協會National Institute of Standards and Technology(NIST)聯合發起的TREC評價。另外,也出現了諸如Ringo、Amazon、NetPerceptions之類的智能推薦系統以及自動文本分類和聚類系統。
2000年以后,信息檢索領域出現了一系列新的技術。如①為Web搜索服務的鏈接分析,此時Google開始嶄露頭角。②自動信息抽取,包括Whizbang、Fetch、Burning Glass。③問答系統(如TREC Q/A track),問答系統的理念是讓用戶以自然語言問句的形式提出問題,系統返回精確的結果。另外,針對多媒體信息的信息檢索也成為研究的熱門。它包括圖像、視頻、聲音和音頻、音樂等。還有跨語言檢索,如DARPA Tides項目以及自動文摘等新方向。[2]
信息檢索觀點強調檢索方法和技術,今后仍將是情報學中的重要觀點。
1.2 相關性觀點
如果把信息檢索觀點看成是情報學的基本的或基礎的觀點的話,那么相關性觀點則又提高了一個層次。
相關性是信息檢索乃至于整個情報學中的一個重要、關鍵的概念,通過對比相關性,我們可以對各種信息檢索途徑、算法和實踐進行評價。簡單地說,它是指信息源中的文獻與查詢之間的一種匹配關系。知識交流學派的代表人物Saracevic認為,情報學之所以成為獨立學科,而不再附屬于圖書館學或者文獻學的原因就在于它開展了相關性的研究,也在于相關性能夠解釋科學交流中的諸多問題。他認為,相關性是用來反映基于人類信息溝通評價的人(如用戶)和信息檢索系統之間信息交換效果的屬性或標準,他從多個角度出發將相關性分為五種類型,[3]即系統相關性、主題相關性、認知相關性、情境相關性和動機/情感相關性。
20世紀50年代末人們開始從理論上探討“相關性”的含義。60年代,人們著重于尋找影響相關性判斷的各種可能因素,比如信息源、檢索系統、用戶、時間與環境等。70年代,部分研究者開展了建立“相關性”理論框架的工作。80年代,研究者們開始從認知的和動態的角度研究“相關性”。90年代至今,對“相關性”的研究基本上延續了認知主義傳統,但知識較之上個時代的討論更加全面。[4]相關性是動態的、多維的、認知的以及可測度的等觀點已經成為學術界的共識。
情報學的相關性觀點觸及到隱藏在信息檢索背后的實質,揭示出情報以及情報學的本質特征。
1.3 互動性觀點
長久以來,我們在很多情況下已經習慣了被動地接收信息。自20世紀中期以來,促進信息檢索發展的大部分努力都集中在將文本表征與檢索式表征進行匹配的方法上。然而,近年來,研究人員開始轉到研究用戶在信息檢索中的角色這一方向。在信息檢索中引入了互動性,用戶可以對信息內容進行選擇,快速跳過不感興趣的部分,有條件地找出信息之間的相關性,從而獲得新的信息內容。可以設想,互動性一旦被引入到用戶的活動之中,將會對情報學領域帶來極大的變化。
雖然人們對情報學互動性的研究剛剛開始起步,成果并不很多,但互動性在情報學中的影響將會越來越大,它也將成為未來情報學研究的熱點。眾所周知,信息檢索是情報學中最重要的組成部分,它一直是情報學的主要研究領域以及研究人數最多的領域。而就目前來說,國外學者對信息檢索中的互動性已經有了較深入的研究,所以,下面我們以信息檢索為例,論述情報學中的互動性是如何實現的。
2 信息檢索中的互動性
在信息檢索領域存在兩種截然不同的研究方向和觀點,即系統中心論和用戶中心論。以系統為中心的觀點主要關注各種信息檢索算法、文獻與檢索式的表征以及檢索技術的發展,并不考慮用戶或交互作用。與之相對應,對檢索系統使用的認知、互動的研究則體現了以用戶為中心的思想。
2.1 將互動性引入信息檢索
50年代初,明確提出了有關“系統中心論”的研究,迄今為止,它仍然在信息檢索研究中占有支配地位。但是,系統方法本身存在許多難以解決的問題。比如無法對信息檢索系統進行評估;無法準確理解自然語言等。針對系統方法存在的這些缺陷,研究人員開始將目光投注到信息檢索的另一研究方向:以用戶為中心。在20世紀70年代,開始出現圍繞用戶的關注點而建立自己的研究項目。這類例子涉及到的信息需求和利用、信息行為動機和信息檢索交互研究在80年代取得了很大進展,人們開始關注認知、交互和處理背景的研究。
信息檢索的互動性是一個很有發展前景的研究范式,它強調信息搜尋的交互特性。也就是說,它旨在對諸如檢索策略、檢索詞的產生和使用以及用戶對同一檢索問題的連續檢索等現象進行更好地理解。這些現象的研究手段包括觀察用戶的自然生態、話語分析以及其他分析方法,比如放聲思維法等。現在人們主要熱衷研究的是獲得對最終用戶和中介搜索的一種理解,這種理解將引導“智能”信息檢索系統的發展,智能檢索系統起著從信息搜索到最終用戶的中介作用。[5]
2.2 信息檢索互動性的概念
如果我們對用戶如何與信息檢索系統交互沒有某種程度的了解,我們就不能設計出有效的信息檢索系統。我們把這種研究用戶在直接查閱信息檢索系統的過程中的表現研究稱為交互式信息檢索。[6]還有人認為,信息檢索的交互性是指在信息檢索的過程中,與信息檢索有關的所有主要參與者(如用戶、中介和信息檢索系統)的互動式的交流過程。[7]這些定義的表述各異,但其內涵基本上是一致的。
3 信息檢索互動模型
從70年代開始,由于計算機網絡技術的進步,信息檢索系統逐漸發展成為動態的交互系統。實踐中,交互已經成為信息檢索系統一個非常重要的特征。到目前為止,情報學領域出現了四種信息檢索互動模型。這四個模型分別是:
●Saracevic提出的信息檢索交互式分層模型;
●Belkin提出的信息檢索交互的片段模型;
●Spink提出的互動反饋和搜索過程模型;
●Ingwersen提出的多表征球狀模型。[8]
下面我們分別加以闡述。
3.1 分層模型
互動式分層模型從系統、用戶走向環境(社會情景),使交互更深入、更全面,是從動態的角度對查尋過程的把握。該模型的基本假設包括:
●用戶與信息檢索系統交互的目的是為了利用信息;
●信息利用是與認知以及情境相聯系的。[9]
該模型力圖協調“系統中心論”及“用戶中心論”這兩個方面,以發揮二者的優勢,盡量克服二者的不足,顯然,這是對傳統信息檢索模型的完善。
Saracevic對分層模型的闡釋源于信息利用模型,即“獲取——認知——應用”(A-C-A)模型。在信息檢索中,獲取(Acquisition)是指獲取信息,這里的信息包含很多種類型;認知(Cognition)是指吸收信息或者基于認知對信息加以處理;應用(Application)則涉及到利用所吸收的信息,同時也基于特定的情境和環境對信息進行處理,以完成當前的任務或解決當前面臨的問題。信息檢索的互動是用戶與系統之間通過界面的對話,該對話可以重復進行,包含了各種反饋類型,其主要目的是影響與用戶手頭事務緊密相連的信息利用的認知狀態。[10]
Saracevic認為信息檢索的互動是發生在幾個互相聯系的層次或層面上的,每個層次/層面包括不同的元素與過程。在用戶方面,包括認知、情感以及情境等層面。在計算機方面,則包括工程、處理以及內容等層面。圖1形象地描述了它們之間的互動。
圖1 信息檢索的交互分層模型[11]
(1)用戶方面
●認知層面。用戶與信息資源進行交互,并依據信息資源構建認知結構,用戶對信息資源的解釋、判斷、吸收以及處理都是基于認知的。
●情感層面。用戶與之交互的內容包括:他們的意圖、信仰、動機、情緒(如挫敗感)、期望、滿意度、焦慮等。情感是影響用戶其他特征變量的主要方面。對情感層面的研究主要集中在分析用戶的意圖、信仰和動機等內容。
●情境層面。用戶與當前面臨的問題進行交互,該問題導致信息需求的產生以及與之相關聯的檢索。檢索結果用于解決或部分解決該問題,用戶根據自己的要求來判斷檢索結果的有效性。這一層次的研究主要集中于在交互決策時當前問題或任務所受的影響、問題的改變以及對問題的分類等。交互過程中情境可能被重新解釋,作為結果的信息需求以及查詢也隨之更新。
(2)計算機方面
●工程層面。主要包括硬件、各種操作和設計屬性以及內嵌的特征,比如容量、性能、處理能力等。
●處理層面。主要是指軟件。在信息檢索中主要是指處理用戶層面與計算機層面在交互過程中的文本、查詢表達式以及界面等的一些算法或方法。
●內容層面。主要是指信息源、信息對象及其表示等,還包括元數據。[12][13]
在交互式分層模型中,更深層次交互中的認知、情感和情境會經常改變,問題會被重新定義、重新聚焦等。因此,界面層次的交互處理也會改變:例如,挑選新檢索詞、舍棄舊詞、調整檢索策略等。換句話說,界面層次與更深層次之間的互動,相互之間有直接的、微妙的影響。從不同資源和不同處理階段中選擇的檢索詞就反映了這樣一種相互影響的關系。變化中涉及到了各種類型的反饋,并且扮演了非常重要的角色。要對互動進行理解,就需要理解各個層次之間的相互影響。[14]
隨著交互的發生,在各要素、用戶和計算機之間,也發生了一系列的動態調整。各種類型的反饋導致了檢索詞的修改。直覺上,我們在與檢索系統交互時,為了不同的目的做著不同的事情。分層模型分解出了許多因素,這些因素涉及到不同類型的交互。
總之,在交互式分層模型中,信息使用的過程就是用戶和系統互相適應的過程。在認知層次,用戶與系統的輸出發生交互,通過這種交互,用戶獲得了與其問題狀態相關的信息。用戶與計算機的交互是通過界面的直接交互。用戶交互的深入則是在認知、情境以及情感等層面與計算機以及信息資源之間的交互。在界面層次,用戶通過界面利用問題表述或查詢表達式與檢索系統進行交互。分層模型表明在信息檢索過程中會涉及到用戶的多重維度。Saracevic模型不僅涉及到用戶的知識水平、目標、意圖、信仰和任務,還包含了用戶的環境和狀況。這一模型顯示了用戶環境的復雜性。當然,分層模型也存在一些缺點,比如該模型是一種理論模型,缺乏足夠的實證研究,帶有語言學和通訊科學分層理論所固有的缺點。另外,該模型還有一個潛在的弱點,即它缺乏對時空效應的描述。盡管該模型沒有考慮到檢索結果的時效性和反復性,但Saracevic寫道:“在信息檢索交互時,交互中更深層次的認知和情境方面會經常變化——問題被重新定義、重新聚焦等等”。接下來的兩個模型在它們的交互式信息檢索中對時間進行了描述。[15]
3.2 片段模型
第二個著名的交互模型,稱為片段交互模型,由Belkin和他的同事提出。該模型基于他的“知識非常態狀態”(Anomalous State of Knowledge,ASK)理論,不同用戶的知識水平不同,他們對要檢索主題的理解也不同。Belkin認為,信息檢索中存在的真正問題不是怎樣表示信息對象,而是怎樣描述用戶的ASK。之所以有信息需求產生,是因為用戶認識到自己存在著知識的非常態,以至于無法面對某種問題與情況,而且,用戶一般也無法精確描述需要什么來解決這種非常態。
該模型基于用戶信息查詢行為的具體過程,認為用戶與某個信息檢索系統之間的交互是發生在信息查詢片斷之間的一系列交互。用戶不是與系統進行交互,而是與信息交互。在不同的時刻,用戶交互的內容是不同的,每種交互都依賴于不同的因素,如用戶的當前任務、目標、意圖、片段的歷史、交互內容的類型以及其他一些可能的因素。不同類型交互的存在是因為它們支持不同的處理過程,如判斷、解釋、修改、瀏覽等。Belkin認為,信息檢索界面的核心問題是要找出支持不同類型交互和不同類型信息查詢策略的最佳方法和方式。關于該模型的形象描繪見圖2。
圖2 信息檢索交互的片段模型[16]
總之,Belkin建立的從掃描到查找的模型由交互的目標(學習—選擇)、檢索方式(識別—詳述)、資源的類型(信息/元信息)三個部分組成,同時指出用戶要分担系統的部分責任,強調了用戶與系統的交互。它還表明在信息檢索交互過程中有許多相同的事件在重復著,重復片段顯示出了信息檢索交互的循環性、時效性。該模型的優點在于它直接描述了信息檢索中的各種處理過程,而不僅僅是匹配。但它在識別個人片斷和它們對每個人的影響方面還面臨著一些困難,當然,所有的框架模型也都存在這個問題。該模型的缺點在于它缺少對用戶信息問題中社會/環境層面的處理。雖然提及了用戶任務和目標,但并沒有提到這些任務和目標的起源背景。然而,不管怎樣,片段模型在為交互式信息檢索提供研究框架方面有了很大的跨越。[17][18][19]
3.3 互動反饋和搜索過程模型
在當前的這幾種交互模型中,Spink的互動反饋和搜索過程模型最全面地涵蓋了信息檢索交互的復雜性和循環性。Spink曾研究過信息檢索的反饋特性,因此,她也關心信息檢索交互中的重復性和周期性。她在研究反饋時,將控制論和系統論的觀點運用到情報學領域。Spink的反饋模型將時間以及檢索時的循環作為信息檢索交互中的影響因子。該模型的要素是檢索過程、檢索策略和時間。這些過程中包含許多次循環。完全在每個檢索命令之間的過程稱為循環,即在一個檢索式和生成下一個檢索式之間的時間和過程。在每個循環中,可能會出現許多交互反饋環。這些交互反饋環構成了用戶和信息檢索中介之間關于如下問題的討論:
●內容相關性反饋(CRF);
●檢索詞相關性反饋(TRF);
●量級相關性反饋(MF);
●檢索策略回顧反饋(TCF);
●檢索詞回顧反饋(TMR)。
因此,當其中一個參與者給予上面五個主題中的任何一個反饋時,接著就會出現某種判斷或行動,則一個交互反饋環就產生了,[20]如圖3所示。
Spink的反饋模型具有顯示信息檢索交互的循環特性的優點。它的缺點在于它缺乏對認知改變或認知過程的說明。雖然策略、步驟和判斷都包含了,但卻沒有連接那些檢索變化過程的手段,比如說作為反饋環結果的選擇性策略。[22][23]
3.4 多表征球狀模型
最早出現的互動模型是Ingwersen的多表征球狀模型,該模型集中于發掘所有信息檢索過程所涉及的認知元素,包括信息對象、信息檢索系統與設施、界面、用戶的認知空間以及社會/組織環境等。它是最有用的元模型,提供了信息檢索領域中正在發生和涉及到的廣闊畫面以及不同的方向。
圖3 信息檢索的互動反饋和搜索過程模型[21]
該模型的主要觀點包括:
●信息檢索交互是一組認知過程的集合,并隱含在信息檢索的所有過程中;
●用戶在與系統的交互過程中完成大量的認知建模。除了系統之外,用戶還與信息對象進行交互;
●用戶的認知空間是一組結構化的且具有因果關系的元素集合,其中用戶的認知以及語境是主要的影響因素;
●交互是高度動態的。[24][25]
Ingwersen強調系統與用戶的交互,他指出:“信息檢索的任務就是協調文本生成者、系統設計者、標引員與信息工作者、信息用戶的認知結構,共同解決用戶當前的信息需求”。
Ingwersen嘗試從全維的角度來對信息檢索過程進行建模。全維角度是指影響用戶、與用戶交互的所有因素,像檢索中介、信息檢索系統和信息源等都應該在檢索過程中加以考慮。多表狀模型如圖4所示,這一模型包含了諸如社會環境、檢索系統、信息對象、中介和用戶等最廣泛的影響因素。
圖4 信息檢索交互的多表征球狀模型[26]
Ingwersen將這些影響因素定義為多表征球狀模型,提煉如下:[27]
●在信息檢索過程中冗余是固有的。
●冗余表現為:
①同一文獻可以從不同的搜索引擎或數據庫中檢索到;
②同一文獻可以通過不同的檢索式檢索到。
●在上述設想下,對于同一個項目來說,認知會有部分重疊。
●這種冗余表明了增加檢索效力的機會。
換句話說,對于用戶來說,通過多種檢索方式檢索到的文獻很可能是有用的。
Ingwersen模型的優點在于整合了交互過程,而它存在的主要問題則是不易從用戶認知空間中獲得輸入信息進行查尋建模。用戶認知空間的這四個組成元素(信息需求、問題空間、當前認知狀態和工作-任務/興趣領域)之間的區別是很細微的。例如,如果一個用戶用當前的知識觀點來表達信息需求,那么我們就不清楚用戶是在表達信息需求,還是在表達當前的認知狀態。因此,即使可能,進行一次合適的查尋建模也會很難。[28]另外,該模型沒有充分說明檢索互動中反饋的特性和作用。
總之,上述四種模型僅僅表述了已成型的交互式信息檢索過程的概念。然而,這四種信息檢索互動模型并沒有說明人與人之間(如用戶與信息工作者)、人與檢索系統之間以及它們之間的反饋等交互的復雜性,同時,這四種模型也未反映出標引員與組織體系之間的復雜性。它們并不是對這類模型的完整總結,也不是對交互式信息檢索的最終描述。它們自身都還存在著許多缺點,隨著我們知識的增長,需要我們進行更多地研究。
情報學面臨的最大威脅在于對人和用戶的忽視,對系統的過分關注,可能會導致這種情況更糟。所幸的是,人們已經認識到了這一點,開始嘗試將系統和用戶結合起來。交互式信息檢索就是這類研究的一個例子。
交互式信息檢索提供了豐富的研究內容。它包括人類行為要素,但這也需要對信息檢索系統如何工作有一個基本的了解,以便在實際工作中,交互式信息檢索研究人員可以與信息檢索系統設計者進行合作。交互式信息檢索的未來在于跨學科的合作和研究領域中。這個問題過于龐大,不是任何一個領域可以單獨解決的。交互式信息檢索需要心理學、社會學、商學、計算機學、圖書情報學和傳播學等學科的研究人員一起給予一個完整的描述。只有這樣,交互式信息檢索研究才會擴展到諸如域分析之類的領域,確定組織和學科對信息檢索交互的影響。其他領域的研究,只是近來才開放,包括連續研究模型、用戶局部相關性判斷的影響研究、對參與者的搜索行為提問、話題焦點的轉換、檢索策略以及最終用戶網上檢索等。
交互式信息檢索是一個比較新,但富有成效的領域。由于越來越多的研究人員進入了這個領域,將會有更多的研究來支持更多智能信息檢索系統的發展。我們有理由相信,未來情報學研究的熱點就在于互動性。
圖書與情報蘭州23~28G9圖書館學、信息科學、資料工作王知津/江力波20082008
情報學/信息檢索/相關性/互動性
On the Interaction View in Information Science文章從Saracevic所認為情報學發展中的三大觀點出發,先簡單介紹了信息檢索、相關性和互動性。接著,從意義、概念、模型三個方面對信息檢索的互動性進行了詳細闡述。
作者:圖書與情報蘭州23~28G9圖書館學、信息科學、資料工作王知津/江力波20082008
情報學/信息檢索/相關性/互動性
網載 2013-09-10 21:38:34