聯結主義心理語言學——心理語言學研究的新方法

簡體傳統

    中圖分類號：H0-05　　文獻標識碼：A　　文章編號：1002-2643(2003)05-0003-05
    　　1.0　引言
    心理語言學是與語言學、心理學、計算語言學、神經科學等學科相互交叉的邊緣學科，其研究對象是人類語言的理解、產生和習得。心理語言學在考察語言使用的心理過程中從相關學科得到很多借鑒和啟發。同時，相關學科研究的新進展又推動了心理語言學研究方法的改進。
    從上世紀50年代末至今，Chomsky的理論一直在語言學中占主導地位。該理論認為語言知識從根本上是一種心理機制，其根本是形式語法系統。在過去幾十年中，Chomsky不斷更新他對形式語法系統的描述，從最初的“轉換生成語法”(TG)到“規則與參數”(principles and parameters)直至現在的“最簡方案”(the minimalist program)，其間雖然做了不少改進，但終究不離其對規則的基本訴求。而大多數心理語言學家們對規則系統也深信不疑，認為只有規則系統才能有效地反映人腦的高級抽象活動，而這種認識是基于認知科學家的一個基本假設：人腦是處理符號系統(symbol system)的機器（李平，2002）。
    將人類大腦看作符號系統的觀點起源于心理學的模塊理論(modular theory)。Jerry Fodor(1983)對模塊論作了系統、全面的描述。他提出，人腦的認知系統是由許多模塊(module)組成的。這些模塊各負其責，互相獨立。根據模塊論，語言處理是按照“語音→詞匯→語法→語義”這樣一個從低層面到高層面的嚴格的線形順序展開的。在模塊論的影響下，心理語言學家們的研究重點是對形式語法系統的規則的檢驗和改進。但是隨著認知科學的迅猛發展和聯結主義(connectionism)的重新崛起，聯結主義開始注意驗證心理語言學的數據。聯結主義模型與心理語言學實驗結果的結合導致了聯結主義心理語言學(connectionist psycholinguistics)的誕生(Christiansen & Chater，2001：1)。
    　　2.0　聯結主義的理論背景
    聯結主義，或者“平行分布處理”(parallel distributed processing，簡稱PDP)，又稱神經網絡，源于人們嘗試根據人腦的結構設計計算機模型(Chater & Christiansen，1999：235)。該思想最早來自19世紀的美國哲學家和心理學之父James。
    從20世紀40年代開始，認知學家們對聯結主義進行了廣泛的研究。McCulloch & Pitts(1943：115-133)提出了較早的有影響的神經功能形式神經元模型(黃秉憲，2000：215)。在50年代和60年代，Ashby、Minsky、Rosenblatt等根據該模型設計了各種各樣的計算模式(schemes)。這些“自組”(self-orga-nizing)或學習機器與人腦的學習功能相一致。但是由于當時這些聯結主義模型的模擬功能有限，所以在與符號系統模型的對抗中處于下風(Chater & Christiansen,1999:235)。
    進入上世紀80年代，以“平行分布加工”研究組(Rumelhart & the PDP Group，1986：216-271)為代表的聯結主義神經網絡研究再度崛起。他們提出的交互激活(interactive activation)理論在算法和認知模型及其應用方面都取得了令人滿意的效果，標志著聯結主義網絡研究進入了一個新紀元。
    2001年，Christiansen和Chater(Christiansen & Chater,2001)合編的論文集首次使用了“聯結主義心理語言學”這個術語，對該領域的研究進行了系統的歸納和總結，并對其發展前景做出了預測。
    　　3.0　聯結主義網絡的基本特征
    如上文所述，聯結主義神經網絡的提出源于認知學家對人腦結構和處理模式的模擬。該理論認為，人腦是由數量巨大的簡單處理器（即神經元）構成的，這些神經元相互交織組成了一個復雜的網絡。在處理信息時，不是單個的神經元單獨起作用，而是網絡中多個神經元互相合作、同時啟動。它們傳遞的不是符號信息(symbolic message)，而是數值(numerical values)。這些數值輸入被神經元映射為數值輸出。聯結主義神經網絡正是模擬了大腦的這種特征：由大量的簡單處理器（稱作單元或節點）組成，節點相互交織成一個復雜的網絡，它們同時啟動對信息進行處理。
    聯結主義網絡一般由三個層次組成：輸入層(input layer)、內隱層(hidden layer)和輸出層(output layer)。輸入層接受輸入的表征（如漢字的字形），輸出層提供輸出應有的表征（如漢字的分類），而內隱層則存儲網絡所學習到的知識表征（如漢字在各個不同學習階段的形體）（李平，2002）。
    聯結主義網絡中最具有代表性的是前饋網絡(feed-forward network)。這種網絡由三層構成，激活沿一個方向自下而上在網絡中流動，從輸入層開始，在輸出層結束。每個單元的激活是由當前的輸入（即輸入的權重之和）決定的。每個單元的激活都處于0和1之間。當單元的輸入為正無窮大(positive infinity)時，激活水平達到1；當輸入為負無窮大(negative infinity)時，激活水平為0。圖示如下：
    　　附圖

    前饋網絡示意圖(Christiansen & Chater 2001：22)
    到目前為止，聯結主義網絡中最有影響的算法是“反饋學習法”（back-propagation，簡稱BP算法）。按照BP算法，網絡每次學習輸入與輸出的關系時，同時也接受一個“指導信號”(teacher)。該指導信號是網絡應該提供的正確的輸出。如果網絡所產生的輸出信號與指導信號有差別，那么這個差別的大小計算為網絡的誤差率。誤差率然后反饋至網絡，使相關的單元與單元之間的權值(weight)得到改變。其結果使網絡能最后正確產生所有的輸出。而在這個調整的過程中，單元間的權值及內隱層單元的激活能夠最有效地反映輸出與輸入之間的關系，從而有效地反映輸入層單位間的內在關系(Christiansen & Chater，2001：22)。
    聯結主義網絡具有以下特點：
    1)學習(1earning)　聯結主義網絡的運行依靠的不是網絡設計者的設計，而是可以從過去的經驗中學習。所學內容即使未被明確“指示”，也能從訓練數據中學會推廣，所以具有自組織性。
    2)概括(generalization)　很少有知識可以通過機械記憶(by rote)而學到，但概括能力卻恰恰是聯結主義模型的重要特征。
    3)表征(representation)　因為聯結主義網絡能夠學習，所以這些網絡內部的節點不是由設計者設計的，而是根據任務的需要由網絡自身設計的。聯結主義研究的一個重要方面就是研制可以理解網絡發展的編碼，這些編碼在決定網絡的功能方面起關鍵作用。
    4)規則與例外(rules and exceptions)　傳統的符號系統認為語言的“次規律”(quasi-regularities)可以用一組符號規則和規則的例外情況來描述，即使用不同的機制處理符合規則的情況和例外情況。而聯結主義模型則使用單一的機制，既可以處理一般規則，也可以應對例外情況。
    (Chater & Christiansen,1999:237-238)
    　　4.0　聯結主義心理語言學對語言處理的研究
    自從McClelland & Rumelhart等在上世紀80年代提出用于辨認視覺和口頭單詞的永久連接(hardwired)互動激活模型以來(Norris,1990：338)，聯結主義在語言理解、產生和習得三個方面都不斷提出新的模型，試圖對語言使用的心理過程進行模擬并做出合理的解釋。
    　　4.1　聯結主義對閱讀的研究
    閱讀涉及非常復雜的認知心理過程，從低層面單詞的辨認到高層面的句法、語義和語用的分析與常識的結合。聯結主義模型對閱讀的研究集中在兩個方面：單詞辨認和單詞‘命名’(word naming)。
    　　4.1.1　“互動激活”模型
    McClelland & Rumelhart提出的“互動激活”模型是一個完全預先指定的(pre-specified)模型，沒有學習功能。該模型由三個單元層構成，第一層的單元辨認特定的字母視覺特征，第二層的單元代表特定的字母，第三層的單元代表單詞。在各層內部和層與層之間，代表不相容的事物狀態的單元之間的相互聯結是受到限制的。一個單元的激活是由它前面層次和當前層次的輸入決定的。其處理過程是：來自視覺輸入的自下而上的信息流通過字母單元的激活和來自單詞單元的自上而下的信息流相結合。整個過程涉及重疊和交互作用，字母和單詞辨認不是按前后階段順序發生，而是相互限制(Chater & Christiansen,1999：240)。
    這個模型主要證明了在單個字母感知過程中上下文的作用，即詞優越效應(word-superiority effect)，可以解釋如何在單詞中消除模糊不清的字母(graded letters)的歧義。
    　　4.1.2　網識讀模型
    近來，聯結主義模型對單詞的研究將重點轉移到單詞命名方面：了解單詞的字型形式和他們的讀音之間的關系。此類模型首推Sejnowski & Rosenberg的網識讀模型(NETtalk)。該模型使用的是前饋而非互動結構。此網絡中的單元也分成三層，但是激活從輸入單元層開始，沿一個方向流動，在輸出單元層結束，中間為內隱層。輸入層代表語篇中連續的字母，輸出層代表的是網絡中間字母的提示的讀音(suggested pronunciation)。
    NETtalk與互動激活模型的區別在于可以利用“反饋學習法”對它訓練，使之從與正確讀音有關的語篇中學習，以降低錯誤率。
    　　4.1.3　朗讀模型
    第一個關于朗讀的聯結主義模型是Seidenberg & McClelland在1989年提出的(Chater & Christiansen,2001：245)。他們的模型是一個“前饋”網絡，只有一個內隱層，把單詞的完整書寫形式作為輸入，完整的語音形式作為輸出。事實上，這個模型是一個理論上的“三角”閱讀模型，字型(orthography)和音位(phonology)分別與語義相連。
    Seidenberg & McClelland的模型使用單一的機制處理英語語篇中管轄發音的規則和那些規則的例外情況，表明單路(single route)可以用于不規則單詞和非詞(non-words)的發音。但是這個模型受到很多批評：1)單路是否真能解釋非詞和例外單詞的發音?Coltheart指出符號學習方法在非詞識讀方面做的更好；2)該模型在訓練中使用了頻率壓縮(frequency compression)，如果使用原始頻率的話，該模型可能根本無法學習那些出現頻率極低的單詞；3)在技術層面上，NETtalk只能處理單音節詞。
    雖然最近幾年McClelland等人嘗試解決這些問題，但是尚未找到滿意的答案。盡管如此，該模型為解釋單詞命名提供了新的思路，同時對誦讀困難(dyslexia)做出了解釋(Chater & Christiansen,1999：246—248)。
    　　4.1.4　分段模型
    人們認為，分段和辨認是同一過程的兩個方面(Christiansen & Chater 2001：27)。為了驗證不同的分段提示的作用，聯結主義心理語言學家們提出了不同的模型。
    Cairns、Shillcock、Chater和Levy在1997年提出了一個以可預測性(predictability)為基礎的分段模型。他們認為單詞間的語言預測比單詞內部更困難。經過對“簡單回饋網絡”(simple recurrent network，簡稱SRN)的訓練，他們發現在當前輸入材料的基礎上，這個網絡可以根據先前的和當前的特征束(bundle of features)推斷下一個特征束。
    為了證明對分段多元的、部分的限制(multiple,partial constraints)產生更好的分段效果，Christiansen、Allen和Seidenberg在1998年對一個SRN進行了訓練，結果發現該網絡在單詞分段方面運行良好，與嬰兒分段過程類似，能夠區分音位結構上(phonotacti-cally)合法的和不合法的新詞，并根據英語音位結構限制分段錯誤。
    2000年，Christiansen、Conway和Curtin在未做任何調整的情況下用剛剛提到的受過訓練的模型對最近收集到的嬰兒數據進行了驗證。其表現結果顯示，該模型對消除不一致單詞的音節方面效果更好(Christiansen & Chater，2001：27)。
    　　4.2　聯結主義對句子處理的研究
    從上世紀60年代開始，模塊論的句法分析是心理語言學研究句子處理的主要方法，包括對Chomsky的句法規則、表層和深層結構的研究，對句法分析器(parser)、Bever的感知策略、Kimball的句法分析七原則和Frazier的灌腸機理論的研究等(Carroll，2000：131—151)。
    80年代，聯結主義對句子處理的早期研究也只是把符號結構直接引用到網絡結構中，如Small、Cottrell和Shastri的聯結主義分析法、Reilly對前指的聯結主義解釋、Fanty的不依賴上下文的語法分析器、Waltz和Pollack的互動句法分析模型等(Christiansen & Chater，200l：43)。
    但是聯結主義的目標并非借用符號主義的分析方法，而是提供另外一套可以通過學習而得到改進的網絡對句子進行分析。Elman(1991，1993)年通過訓練SRN預測在一個小型的沒有上下文的語法模型中生成的句子的下一個輸入詞，發現SRN可以習得語法規則，與人腦處理內嵌式結構相似。后來Christiansen等用更加復雜的語法對SRN進行訓練，發現它可以學習這些復雜的語法規則。
    1997年，Christiansen等將一個動態處理器(dynamical processor)添加到SRN中，最終得到了一個最新的組引力訪問模型(Visitation Set Gravitation，簡稱VSG)。該模型由兩部分組成：一個類似SRN的網絡和一個引力模塊(gravitation module)。其突出特點是可以對結構和語義上不相容的句子進行區分，可以正確預測：1)分級詞匯偏向的即刻靈敏度；2)提高的閱讀時間和先前語篇與當前詞的加法偏向沖突的大體聯系；3)慣量效應(inertia effect)，即處理器解決閱讀幾個詞的過程中句法偏向的沖突的趨勢(Tabor & Tanenhaus，2001：180—204)。VSG模型為解決在句子處理中區分語義干擾和句法干擾提供了充足的解釋。
    　　4.3　聯結主義對言語產生的研究
    相對于語言理解，聯結主義在言語產生方面所做的研究是非常有限的。研究語言產生的主要模型是Dell & Colleagues(1986)提出的擴展激活模型(spreading activation model Of retrieval)。該模型模擬的主要是單詞的音位編碼。它由按層級順序排列的不同節點層組成，分別與下面這些語言激活單位對應：詞素（詞匯節點）、音節、韻腳和音群、音素和特征。不同的節點之間直進地相互聯結，層與層之間沒有橫向聯結，但是存在特殊的空成分節點和與音節相對應的節點音節位置編碼。
    該模型的運行過程是：首先激活一個詞匯節點（與高層面的音位、句法和語義處理相對應），然后激活在網絡中逐步向下擴展。激活也會按反饋連接向上擴展。一段時間之后，最高層面的節點被選作開端(onset)、元音和結尾位置(soda slots)。利用這個模型，Dell可以解釋像代替（如dog→log）、刪減（如dog→og)和增加(如dog→drog)等言語失誤。
    后來Dell et a1(1993)對原來的模型做了改進，新模型可以學會把詞匯映射到恰當的連續音段上。這表明，連續偏向和相似可以解釋原本歸于獨立的音位規則和框架的音位學的一些問題；此外，未來的言語產生模型必須將學習和分布表征結合起來，以解釋整個詞匯在音位言語失誤中所起的作用。
    　　4.4　聯結主義對語言習得的研究
    聯結主義對語言習得的研究起步較晚，除了Rumelhart & McClelland的英語過去時態模型外，有代表性的網絡模型是Miikkulainen(1993)的分布草案加工及情景記憶網絡（distributed script processing and episodic memory network，簡稱DISCERN）和李平等的自組聯結主義網絡(self-organizing connectionist network)
    　　4.4.1 英語過去時態模型
    Rumelhart & McClelland(1986)提出的英語過去時態模型由三部分組成：一個固定的編碼網絡，一個帶有可修正聯結的模式連接器(a pattern-associator with modifiable connections)網絡和一個競爭的解碼約束網絡(a competitive decoding-binding network)。他們使用此網絡來模擬兒童的學習過程，發現該網絡能產生“U—形學習效應”。兒童習得過去式分為三個階段：在第一階段，只會使用為數不多的動詞的過去式，且主要是不規則動詞；在第二階段，開始使用大量動詞的過去式，其中大部分是規則動詞，而將規則泛化到不規則動詞的過去式中，出現很多錯誤；在第三階段，恢復使用不規則動詞過去式的能力，并保留了規則動詞變形(conjugation)的能力。他們的網絡強調兒童學習過去式只有一種機制在起作用，通過改變模型的輸入，可以用同一機制模擬英語過去時態習得的三個階段。(Christiansen & Chater，2001：38)
    在該模型的基礎上，Plunket & Marchman、Daugherty & Hare等用“前饋”網絡對動詞過去時態的習得進行了模擬，驗證了Rumelhart & McClelland的假設，即人腦使用單一的、聯結主義類型的機制習得英語過去式。(Christiansen & Chater，2001：39—42)。
    　　4.4.2　分布草案加工及情景記憶網絡
    分布草案加工及情景記憶網絡將多個網絡連接起來，用以學習語音、語義及字型的關系。每個網圖本身只表達語音、語義或字型，但圖與圖之間通過赫伯學習法(Hebbian learning)來聯結，以模擬個語言層面可能產生的相互作用。該系統反映了資料統計規律的動態性，在人類記憶的計算模型和亞符號語言處理研究方面邁出了重要一步，說明聯結主義能夠勝任自然語言處理。
    　　4.4.3　自組聯結主義網絡
    李平等提出的自組聯結主義網絡屬于非指導學習的神經網絡，它相比傳統的BP網絡對語言習得有更大的心理現實性及生物有效性。在這種網絡中，學習通常在二維平面圖中進行，網圖中的每個單元都能對一個或多個輸入單位加以反射。隨著學習的深入，單元間的權值不斷調節，網絡中的單元數及網圖數目不斷增加。這種逐步調整和增加的過程可以更適當地反映兒童語言學習的過程（李平，2002）。
    　　5.0　聯結主義對心理語言學的影響
    對于聯結主義模型在心理語言學研究領域的應用，傳統的符號主義者一直持懷疑態度，其中原因之一是聯結主義模型在處理自然語言方面選用的數據過于簡單，因而無法完全模擬復雜的人腦處理語言的過程(Christiansen & Chater，2001：61)。盡管如此，聯結主義對心理語言學研究的推動作用是不容懷疑的，具體體現為：1)聯結主義模型為語言處理的幾個領域提供了一批完全顯性的、與心理學相關的計算模型；2)聯結主義模型的可學習性使人們恢復了對語言學習機制的興趣。應用聯結主義模型學習句法結構的嘗試對Chomsky堅持的內在信息中心論的語言觀提出了挑戰；3)聯結主義模型對輸入的統計特征的依賴引起了人們對統計因素在語言學習和處理中的地位的認真思考；4)聯結主義掀起了關于計算機制運用規則的辯論(Christiansen & Chater，2001：12-13)。
    　　收稿日期：200山東外語教學濟南3～7H1語言文字學李志2004200420世紀50年代以來，心理語言學的研究以符號方法為主。隨著上世紀80年代重新崛起的聯結主義與心理語言學研究成果的結合，心理語言學研究的新領域——聯結主義心理語言學——應運而生。聯結主義模型用新的方法對語言的理解、產生和習得進行了全方位的研究，掀起了心理語言學研究的新高潮。心理語言學/聯結主義模型/聯結主義心理語言學
    psycholinguistics/connectionism/connectionist psycholinguistics    山東大學東方考古研究中心，山東　濟南市　250100


        譯者單位：蘇州大學外國語學Connectionist Psycholinguistics: A New Approach to Psycholinguistic Research
  LI Zhi-xueEver since the 1950s, the field of psyeholinguistic research has been dominated, to a great extent, by the symbolic approach. But the rapid development of connectionism in the 1980s and its close contact with psycholinguistic results led to the emergence of Connectionist Psycholinguistics, a new area of psycholinguistic research. Connectionists have been providing new and realistic models for this field of research, in terms of language comprehension, production and acquisition, which adds vigor and vitality to psycholinguistics.李志雪(1968-)，男，河北棗強人，副教授，在讀博士生。研究方向：心理語目學和寫作教學。　解放軍外國語學院，河南洛陽　47100 作者：山東外語教學濟南3～7H1語言文字學李志2004200420世紀50年代以來，心理語言學的研究以符號方法為主。隨著上世紀80年代重新崛起的聯結主義與心理語言學研究成果的結合，心理語言學研究的新領域——聯結主義心理語言學——應運而生。聯結主義模型用新的方法對語言的理解、產生和習得進行了全方位的研究，掀起了心理語言學研究的新高潮。心理語言學/聯結主義模型/聯結主義心理語言學
    psycholinguistics/connectionism/connectionist psycholinguistics    山東大學東方考古研究中心，山東　濟南市　250100

網載 2013-09-10 21:37:58

[新一篇] 職業流動的性別差異及其成因　　——江蘇省第二期婦女地位調查數據分析

[舊一篇] 聯邦德國城市體系發展特點及其若干問題探討