機器翻譯與語言研究

>>>  古風悠悠—傳統政治與精神文明  >>> 簡體     傳統


  中圖分類號 H085 文獻標識碼 A 文章編號 1671-9484(2002)01-0047-15
    1 引言
  機器翻譯(Machine Translation)是指利用計算機程序把一種語言的文本(可稱為源語言文本)翻譯成另外一種語言的文本(可稱為目標語言文本)。很久以來,人們就夢想著有朝一日,能造出一種設備,清除人類交流過程中的“語言障礙”,使得使用不同語言的人能自由地相互交流。(注:可以訪問著名的《連線》(WIRED)雜志網站http://www.wired.com/wired/archive/8.05/timeline.html。這篇文章把機器翻譯的理想上溯到1629法國數學家兼哲學家笛卡兒(René Descartes)時代。)在當代信息社會,語言障礙問題更加突出。大量的政府文件、商業以及科技資料都需要在短時期內得到翻譯,互聯網的問世更是擴大了翻譯需求。可以說,人們現在比以往任何時候都迫切希望擁有自動翻譯技術。然而,過去50多年機器翻譯的研究歷史卻表明,機器翻譯的困難程度和復雜程度遠遠超出了最初倡導機器翻譯研究的先驅者們的想象。機器翻譯至今仍是一項十分具有挑戰性的研究課題。其進展不僅需要計算手段的創新,更要依賴于人們對語言本質以及語言計算模型認識的進展。可以說,語言學研究的水平對機器翻譯系統研制的成敗起著十分關鍵的作用。出于這樣的認識,本文將討論機器翻譯對語言研究的要求,希望吸引更多語言學研究者將機器翻譯作為思考語言學問題的一個參照系,使更多的語言研究成果可以為機器翻譯提供幫助。
  機器翻譯系統的研制工作從20世紀40年代末開始,至今已經發展出許多不同的方法。總體來看,現有的機器翻譯方法可以歸納為三種類型:一種是基于規則(rule-based)的方法;第二種是基于統計(statistic-based)的方法;第三種是基于實例(example-based)的方法。限于篇幅,這里我們主要介紹第一種方法的工作模式。
  基于規則的機器翻譯方法把翻譯過程看作是一個在語言學知識引導下的符號變換過程。這種方法要求把有關源語言和目標語言的知識以計算機可以操作(“看懂”)的形式表示出來。下面以漢英機器翻譯為例說明翻譯的基本過程。
  1.1 源語言的詞法分析
  這一階段利用源語言詞匯層面的知識,識別出源語言文本字符串中的單詞,并從詞典中獲得每個單詞的句法語義知識,以備在后續處理中使用。
  例如漢語句子“她把一束花放在桌上”,經過詞法分析,會得到下面的結果:(注:斜杠后字母是詞性標記,r表示代詞,p介詞,m數詞,q量詞,n名詞,ng名詞性語素,f方位詞,w標點符號(下文所用標記符號含義同此)。)
  她/r 把/p 一/m 束/q 花/n 放/v 在/p 桌/ng 上/f 。/w
  1.2 源語言詞串的句法分析
  為得到句法結構以及跟結構相關的特征結構(feature structure),這一階段的處理需要運用句法層面的知識,通常表示為擴展的上下文無關規則(本文第2節有更多的說明),由兩個部分組成,一個部分是上下文無關規則(Context Free Rule),指明了短語的組成關系,例如:一個名詞短語可以由一個數量結構和另外一個名詞短語組成,這個事實用上下文無關規則可以描述為:np→mp np。另外一個部分是一組“合一等式”(unification formula),主要描寫在什么條件下可以用這條規則進行組合以及組合之后得到的新的語言單位的屬性信息(詹衛東2000)。句法分析的結果可以表示為一棵句法樹。
  例如我們對上文所述的漢語句子進行句法分析,將會得到圖1所示的句法樹(注:樹形圖(包括下面的圖2、3)中漢語短語標記以小寫字母表示,英語短語標記以大寫字母表示。zj表示整句,dj小句,np名詞性短語,vp動詞性短語,pp介詞性短語,mp數詞性短語,sp處所詞性短語,SS英語的整句,CS小句,其他大寫標記含義與小寫標記相同。W是標點。)(這里略去了特征結構信息)。
  附圖H1NA43.JPG
    圖1
  1.3 源語言到目標語言的句法結構轉換
  結構轉換主要利用源語言結構和目標語言結構之間的對應關系進行,通過一組轉換規則的指導把源語言的句法樹轉換成目標語言的句法樹。轉換規則列出了源語言的句法結構以及對應的目標語言結構,并描述了這種轉換關系成立的條件,對于上述例子,圖2描述了這種結構轉換前后的對應關系,圖中右部是轉換后得到英語結構樹,其中每個樹結點都標有兩個以斜線分隔的范疇標記,斜線左邊的范疇是由斜線右邊的范疇轉換得到的。
  附圖H1NA44.JPG
    圖2
  1.4 目標語言結構的調整
  通常經過結構轉換得到的句法結構還保留著源語言結構的諸多痕跡,尚需根據目標語言的句法知識對該結構進行調整,對圖2所示譯文結構進行調整后可以得到如圖3所示的新的譯文結構。
  附圖H1NA45.JPG
    圖3
  1.5 源語言文本單詞的譯詞選擇
  譯詞選擇主要利用兩種語言之間的詞匯對譯知識進行,譯詞選擇并不是一件很容易完成的任務,通常一個源語言單詞在目標語言中往往對應著多個單詞(比如漢語的“開飛機”、“開門”中的“開”,翻譯成英文,要選擇的譯詞分別為“fly”和“open”),如何選擇正確的譯詞不僅要依賴于雙語對照詞典,同時還要綜合考慮該單詞的上下文語境。上述例子,存在下面的單詞對應關系:
  附圖H1NA46.JPG
  1.6 目標語言詞串的生成
  利用得到的目標語言句法結構以及經過譯詞選擇得到的目標詞語生成目標語言詞串,即將圖3所示的譯文句法結構樹的葉子(leaf)節點取出,按順序排列就可得到譯文。如果目標語言是有形態的語言,還要進行目標語言單詞的形態生成,把單詞的原始形式變成合適的變體形式,比如上例中“put”變為第三人稱單數形式“puts”,“flower”要變為復數形式“flowers”等,最終計算機會產生出如下的英語譯文(#表示空形式,譯文中“of”是憑“空”增加的)。
  附圖H1NA47.JPG
  從以上的介紹可以看出,機器翻譯涉及到源語言分析、源語言到目標語言的轉換、目標語言的生成等幾個大環節,(注:基于規則的機器翻譯系統也不一定都遵循本文描述的流程。而且不同系統在技術細節上還有許多差異。此外,基于統計的機器翻譯系統和基于實例的機器翻譯系統流程也都有自己的特點。可參看趙鐵軍(2000:7-22))每一環節都需用語言知識來告訴計算機做出正確的選擇。因此,獲取能夠為機器翻譯提供支持的語言知識,是機器翻譯系統能否取得成功的一個關鍵。語言研究若要面向機器翻譯做出貢獻,就必須了解機器翻譯的需求,從而進行有針對性的探索。
  下面我們將探討機器翻譯向語言研究提出了什么樣的要求。限于篇幅,討論將集中在漢外機器翻譯中的漢語分析環節。不涉及轉換和譯文生成環節的問題,不過應該認識到,像上面這句譯文,大致還過得去,但它很可能并不是一句地道的英語。在這句英語中,table前面應該有冠詞,put是否要變成puts也要看上下文語境。
  因此,譯文生成的研究也是十分重要而且艱巨的任務。盡管一個機器翻譯系統各個環節涉及到的具體語言知識內容有差異,但下文對面向機器翻譯的源語言分析環節的語言研究的認識也適用于轉換和譯文生成環節的語言研究。
    2 機器翻譯對語言研究的要求
  在以下討論中,我們試圖說明:跟面向人的語言研究一樣,機器翻譯也要求語言研究應該以發掘形式和意義之間的對應關系為目標。因為從語言研究的根本來說,無所謂面向人還是面向計算機,都是要對同形多義和同義多形的錯綜復雜的語言現象進行研究。不過,在具體操作層面上,面向機器和面向人的語言研究還是有差別的。因為機器和人對同形多義或同義多形,會有不同的界定標準,此外,機器跟人在具體的知識表示方面也存在差異,因而為適應機器翻譯的需求開展語言研究,確實應該有一定的針對性。下面分三個方面展開討論。
  2.1 發掘形式與意義的對應關系
  自從Chomsky提出一個好的語言理論的三個標準是觀察充分性(observational adequacy)、描寫充分性(descriptive adequacy)和解釋充分性(explanatory adequacy)(注:參見Chomsky(1965:18-37),之后隨著研究的深化和細化,又有一些語言學家在此基礎上做了發展,比如提出心理學充分性、類型學充分性、語用學充分性等要求。)以來,大多數語言學家已把這三個充分性作為語言理論追求的目標。(注:參見Van Valin & Randy LaPolla(1997:2-4),該書第1章將語言理論的目標表述為三個遞進的方面:描述語言現象,解釋語言現象,理解語言的認知基礎,跟Chomsky的提法是一致的。)中國的語法學者在進行語法研究時,強調研究的最高目標是揭示形式與意義之間的對應關系。這實際上可看作是把上面“三個充分性”貫穿起來的一個認識,即在觀察語言現象、描寫語言現象、解釋語言現象等不同層面上,都要圍繞一個共同的主題展開,就是清楚地說明一個語法形式跟它的語法意義之間的對應性。下面我們將通過實例從兩個方面來簡要說明以發掘形式與意義之間的對應關系為主旨的語法研究的一般模式。
  2.1.1 從形式到意義
  對表面上“相同(相似)”的形式進行分化,揭示其不同的意義。
  比如觀察下面A、B兩組例子之間的差別(朱德熙 1978):
     A        B
  在黑板上寫字  在舞臺上表演話劇
  在墻上涂顏料  在車上看書
  在郊區開飯館  在會議室開會
  A、B兩組例子的表面形式相同,都是“在+NL +V +N”(其中NL表示處所成分,V表示動詞,N表示名詞)這樣的格式(為稱說方便,記作S1)。但是,A組例子表示的意思是動作完成后,N所處的位置在NL,而B組例子并不在意N的位置,它表達的是在NL這個處所發生了什么事件。格式S1對應的這兩種不同意思可以通過變換方式顯現出來,那就是A組例子都能變換成“把+N+V+在+NL”這個格式(記作S2),而B組例子都不能做這樣的變換:
      A’         B’
  把字寫在黑板上  *把話劇表演在舞臺上
  把顏料涂在墻上  *把書看在車上
  把飯館開在郊區  *把會開在會議室
  不難看出,上面這樣的研究模式,就是對“一個”多義形式進行分化。分化的對象可以是從詞(多義詞)到短語(多義短語)到句式(多義句式)等等大小不同的語言單位。
  2.1.2 從意義到形式
  對表面上“意思相同”的形式進行辨析,揭示其在不同場合下的差異。比如觀察下面甲、乙兩組例子的異同(陸儉明1985):
    甲         乙
  A 1 去打球      1’打球去
    2 去看電影     2’看電影去
  B 1 去寄錢      1’寄錢去
    2 去坐火車     2’坐火車去
    3 去請張三     3’請張三去
  C 1 *去讓他     1’讓她去
    2 *去派他     2’派他去
  甲組例子是“去+V+N”格式(記作S3),乙組例子是“V+N+去”格式(記作S4)。僅看甲、乙兩組里的A類例子,可以得出結論說,漢語中S3與S4可以表達“相同”的意思,都是在說動作行為的主體發生位移,而位移的目的是進行“V+N”所表示的活動。但是,隨著觀察范圍的進一步擴大,我們就會看到S3和S4還有B類例子和C類例子這樣的情況。B類S3與S4也都能成立,但表達的意思不完全一樣,B類甲組S3表達的意思是某人發生位移,位移的目的是進行“V+N”表達的動作行為,而B類乙組S4表達的意思則有各種不同的情況,B1’表示動作所支配的對象“錢”的位移趨向,B2’表示動作行為的主體以某種方式發生位移,B3’是遞系結構,格式中的N主動發生位移;C類S3不能成立,S4可以成立。這樣就顯現出S3跟S4兩個格式之間的意思差異了。
  同樣不難看出,上面這樣的研究模式,就是對“多個”同義(近義)形式進行辨析。發掘多個格式之間意思相同和相異的條件。
  上述2.1.1和2.1.2這兩個方面又可以統一起來加以認識。從一個角度看,2.1.2是對表面上“意思相同”的兩個形式(S3和S4)進行辨析,從另一個角度看,2.1.2又是對S4這一個“多義形式”進行分化(即S4可以解釋為不同的語法意義)。因此無論是從形式到意義,還是從意義到形式的研究,遵循的實質上是同樣的模式,追求的也是同樣一個目標:盡可能地去系統地整理語言中一個形式與另一個形式之間的對應關系。
  從計算機的角度看,這一點更為明顯。對計算機來說,所謂“形式與意義之間的對應關系”,實質上等價于“一個形式與另一個形式之間的對應關系”(上文已經說過,機器翻譯的過程就是被看作為一個在語言學知識引導下的符號變換過程)。
  很顯然,上述以揭示同形格式的細微差別為追求的語言研究模式,對機器翻譯來說,無疑也是非常必要的。在這樣的研究模式下產生的成果,有很多都可以直接轉變為計算機可讀的形式,為機器翻譯系統所利用(俞士汶1999,詹衛東1997,2000)。比如上面在格式S1、S2、S3、S4等的異同比較基礎上得到的語言知識,很多都可以在句法分析中發揮作用。換句話說,面向人開展的語言研究所積累的語言知識成果,同樣可以為機器翻譯提供幫助。當然,并不是直接就可以用,而是要針對機器的特點做相應的適應性調整。下面的討論將說明在具體操作層面上,機器翻譯確實向語言研究提出了一些進一步的要求。
  2.2 拓寬語言現象的研究面
  自然語言中,形式與形式之間的對應關系錯綜復雜,常常會有一對多,多對一,甚至多對多這樣的情況,不像交通信號燈組成的符號系統(紅燈停、綠燈行),形式跟“意義”(形式)之間有明確的一一對應關系。而從機器的角度看形式與形式之間的對應關系,比從人的角度來看有更多的問題(可能在人看來很多問題都不成為“問題”)。下面我們分詞處理層次和短語結構分析層次兩方面來說明。
  先看詞處理層次上的問題。在詞語處理的層次上,主要是如何在“字串形式”跟“詞串形式”之間建立起對應關系,并進而在詞串和詞性標記串之間建立起對應關系的問題。在翻譯的第一個環節,就是將字串形式變換為詞串及其詞性標記串形式。用本文第1節所舉的例子圖示如下:
(1)字串    她把一束花放在桌上。詞串      她 把 一 束 花 放 在 桌 上 。詞性標記串   r  p  m  q  n  v  p ng  f w
  
  很顯然,從字串到詞串的形式變化過程,實際上是增加了信息(減少了不確定性)。對人來說,這個形式變換過程非常自然和容易。但對機器來說,在這個過程中,常常會碰到一對多的情形(人常常不會覺察到有“一對多”的問題),比如:
(2)字串 明年開始地鐵中將可以使用移動電話詞串1  明年 開始 地鐵 中 將 可以 使用 移動 電話詞串2  明年 開始 地鐵 中將 可以 使用 移動 電話
  
  人能很容易地將(2)中的字串變換為詞串1形式,但計算機卻會面臨在詞串1和詞串2之間進行選擇的問題。其中字串“中將”(注:“中將”作為一個詞時其中的“將”讀去聲調,作為兩個詞時“將”讀陰平調。從傳統語言學的角度看,這里面根本就是兩個不相干的“將”,一般不會把這里的“中將”聯系在一起作為一個歧義問題看待。)可能是兩個詞,也可能是一個詞。人們一般把這個問題稱為計算機分詞中的組合歧義(劉開瑛2000:84-91)。再看下面的(3):
(3)字串  張店區大學生不看重大城市戶口詞串1   張店區 大學生 不 看重 大 城市 戶口詞串2   張店區 大學生 不 看 重大 城市 戶口
  
  同樣,計算機也會面臨詞串1和詞串2之間的選擇問題。其中字串“看重大”可能是“看重”跟“大”這兩個詞,也可能是“看”跟“重大”這兩個詞。人們一般把這個問題稱為計算機分詞中的交叉歧義問題。下面再看從詞串到詞性標記串的變換中會碰到的問題。
(4)字串    把這篇報道編輯一下詞串     把 這 篇 報道 編輯 一 下詞性標記串1 p  r  q  n  n  m v詞性標記串2 p  r  q  n  n  m f……     ……
  
  (4)是將詞串變換為詞性標記串時出現一對多的情形,按照北大計算語言所“現代漢語語法信息詞典”(參看俞士汶等1998)的詞類劃分,“把”有介詞、動詞、量詞、名詞四個詞性標記,“這”有代詞一個標記,“篇”有量詞一個標記,“報道”和“編輯”都有名詞和動詞兩個標記,“一”有數詞和連詞(c)兩個標記,“下”有動詞、方位詞,量詞三個標記,這樣,這個詞串對應的詞性標記串就有4×1×1×2×2×2×3=96種可能性。人有能力在看到這個字串后馬上把它變成正確的詞串,進而在96種可能性中選擇正確的一種詞性標記串,計算機卻不容易做到這一點。
  要讓計算機能準確地進行形式變換,就要告訴計算機相應的語言知識。知識可以用規則的形式表示,也可以用統計數據的形式表示。比如對于(1),“上”的詞性標記有可能是v、q、f,“上”在例1所處的上下文環境是“在/p 桌/n+上+。/w”,我們可以專門為“上”寫一條規則,說明“上”如果左鄰兩個詞為介詞和名詞,右鄰句尾標記,那么“上”的詞性應該標為方位詞。
  但很明顯,這樣的規則形式有時候也會碰到問題,比如(4)中如果用規則來判斷“報道”的詞性,可能會猜測左鄰詞為量詞時,判定“報道”為名詞,在(4)的情形中,這樣判斷恰好是正確的,但在下面這個例句中,“報道”應該是動詞:
  (5) 這篇報道謝霆鋒的新聞是假的。
  這里“報道”的左鄰詞環境跟(4)的一樣,但詞性標記卻不同。如果用上面的規則做判斷依據,那么(5)的詞性標注就會出錯。
  針對規則方法的這類問題,人們又探索了用統計方法進行分詞和詞性標注的處理。從目前的實踐來看,在經過分詞和詞性標注處理的大規模語料庫基礎上訓練得到的漢語分詞和詞性標注軟件,達到了很好的處理效果。(注:北京大學計算語言所開發了人民日報標注語料庫。中科院計算所利用1個月標注語料(200萬字)進行訓練開發的ICTCLAS分詞與詞性標注系統在973評測中取得了很好的成績,分詞正確率最高達到98.44%(法制領域文本),詞性標注正確率最高達到88.55%(國際新聞領域文本)。)限于篇幅,這里不展開討論。
  下面再看短語結構分析的層面的問題。
  在短語結構分析中,也有許多形式變換問題需要引起語言研究者的注意。這些問題可以統稱為短語結構分析中的歧義問題。
  我們曾將歧義分為真歧義、偽歧義、準歧義等不同類型(詹衛東等1999),對人來說,比較容易注意到真歧義類型的歧義問題,但對計算機來說,后兩種歧義類型也需要關注。從處理上說,偽歧義比較容易對付。比如計算機對第一節的例子“她把一束花放在桌子上”進行分析,就會碰到偽歧義格式的分析問題。“把一束花放在桌上”對應著“pp vp pp”這樣的標記形式序列:
把一束花    放    在桌上 pp      vp     pp
  
  對計算機來說,在短語標記層面,就發生一個問題,vp到底是先左結合,還是先右結合?因為分析規則集中有這樣兩條動詞短語規則,使得上面這個短語類序列在組合時碰到多選問題:
  vp→pp vp
  vp→vp pp
  很顯然,這兩種結合方式并不造成更高層結合上的差異,因此,我們可以規定其中一種是正確的形式,避免產生不必要的分析結果。比如規定上面這個短語序列取[pp[vp pp]]這樣的結構形式。
  下面再看一個準歧義的例子。
  (6) A. 把衣物洗干凈的方法  B. 把群眾檢舉的貪官
  (6)A跟(6)B都對應著“p<把>np vp的np”這個短語格式,但兩個短語的結構分析結果卻不同,(6)A應該被分析為(或者說是將詞串形式變換為句法結構串形式):
  [[[[把衣物]洗干凈]的]方法]
  (6)B應該被分析為:
  [把[[[群眾 檢舉]的]貪官]]
  在計算機中常以這種加括號的一維線性串方式來表達二維的樹結構,人則更習慣看下面這樣的圖形表示方式:
  附圖H1NA48.JPG
  對人來說,從(6)A到樹形圖(a),從(6)B到樹形圖(b),不存在形式轉換的困難。但對計算機來說,如何做到不張冠李戴,把(6)A分析為b,把(6)B分析為a呢?這就需要研究者針對計算機分析的特點來發現有用的語言知識了。像這樣的問題,傳統的面向人的語言研究一般不太關注。
  上面分詞匯處理和短語結構分析兩個層面說明了機器翻譯要求語言研究者關注的問題范圍更寬一些。下面的例子可以進一步顯示,漢語中有些形式對應的問題介乎詞匯與短語之間。很難在所謂的詞匯分析與短語分析之間劃出一道截然的界限來。請看例子:
  (7) A 被侵略者逼上了絕路
  B 被檢舉人走進了法庭
  C 這個案子最終還是被調查人員找到了證據
  D 80%的被調查學生贊同校長的處理方式
  (7)中劃線部分都是“p<被>+v+n”形式的成分。(7)A中“被侵略者”形成一個pp成分;(7)B中“被檢舉人”更像是一個復合詞;(7)C中“被調查人員”也形成一個pp成分;(7)D中“被調查學生”功能上相當于“被檢舉人”,但詞感程度似乎低于“被檢舉人”的成詞度。不管是詞還是短語,這些例子都對應著“p<被>+v+n”這個形式,而有不同的分析結果,也是形式轉換中一對多的問題。同樣屬于面向計算機的語言研究應該關注的現象。
  上面這個例子是說不同層次的語言單位之間有界限模糊的情況,下面這個例子則試圖說明,計算機處理自然語言的句子雖然分成多個環節,但應該充分注意到,各個環節之間是相互影響的,因此還要特別注意不同層次上的處理之間的相互關聯性。比如:
  (8) 有三百多種樹
  計算機可能將(8)的結構層次分析為下面兩種可能性:
  附圖H1NA49.JPG
  上面這個例子,對人來說不大容易注意到它的歧義,一般都會很自然地把(8)解釋為B這個層次結構所對應的意思。但計算機分析時就會碰到歧義,因為其中的“種”實際上是個多音字,對應著不同的詞,讀上聲的“種”是量詞,讀去聲的“種”是動詞。在詞處理階段有兩種不同的形式轉換結果,在短語結構分析階段也對應著兩種不同的結果。即便人察覺到(8)可能有兩種解釋,不過分化這個歧義多半也會從口語和書面這個角度去談,因為在口語中,兩個“種”讀音不同,這樣也就是不同的語音形式了,所謂歧義自然就不存在了。但對計算機來說,處理書面文本時碰到這個例子,仍然會有歧義問題,而且是同時牽涉到詞處理層次和短語結構分詞層次的歧義問題。此外,這里只討論了一種語言內部的歧義問題。研究機器翻譯,還應當關注兩種語言之間的歧義問題(俞士汶1989),限于篇幅,就不展開討論了。
  2.3 語言研究結果的可操作性
  這個要求主要體現在兩個方面:一是語言研究得到的成果是關于人類自然語言的知識,面向人的語言研究通常用自然語言來表述,而面向計算機進行語言研究,強調研究在形式化的框架下進行,研究所得到的語言知識應以形式化的方式表示。二是面向機器翻譯的語言研究特別強調語言知識的系統性及對真實語料的覆蓋能力,即語言知識要達到一定的規模。
  下面先談第一個方面。
  本文第一節中已經提到,在基于規則的機器翻譯系統的各個環節中需要用到的語言知識都需要以計算機可懂的方式配備給計算機程序。這里不妨以一個簡單的例子來說明什么是計算機可懂的形式。
  比如“一件衣服”是漢語中一個具體的短語形式。如果用自然語言來描述這個短語對應的抽象規則(R),至少應包括這樣三方面的內容:
  第一,作為一個整體,這個表達式是一個名詞性范疇的語言成分;
  第二,這個表達式是由屬于數量范疇的語言成分加上屬于名詞性范疇的語言成分組成的;
  第三,要實現這樣一個組合,其中的名詞性成分應該是能受數量成分修飾的那類名詞,而且名詞跟量詞之間還需要滿足一定的搭配關系。
  上述規則R的作用是很明顯的。它可以解釋為什么“一件衣服”在漢語中是“合法的”的表達式,而排斥“*一件紙”、“*兩個心胸”這樣“非法的”表達式。如果計算機掌握了規則R,當碰到例a“一件紙做的衣服”,例b“兩個心胸寬闊的人”這樣的形式時,就能夠做出正確的判斷:對于例a,“一件”是修飾“衣服”的,而不是就近修飾同樣也屬名詞范疇的“紙”;對于例b,“兩個”是修飾“人”的,而不是就近修飾也屬名詞范疇的“心胸”。
  關于“件”能跟“衣服”搭配,不能跟“紙”搭配,“心胸”根本就不能跟任何個體量詞搭配(不單單是不能跟“個”搭配),等等諸如此類的語言知識,是可以事先在一個人們稱之為“詞典”的地方一一加以記錄的。也就是說,語法規則加上詞典中的語言知識,可以構成計算機進行推理判斷的已知條件(基礎)。
  在上面這個簡單的例子中,規則以及跟規則配合使用的詞典知識,都是用自然語言進行表述的。人容易理解,但計算機卻不容易看懂。要讓計算機掌握上述規則和相關的詞典知識,就需要表述為下面這樣的詞典知識和規則形式:
    詞典
  附圖H1NA50.JPG
    規則
  附圖H1NA51.JPG
  在詞典中以特征結構(即“特征名:特征值”)的方式記錄了關于詞語的語言知識。比如對詞語“件”,用特征結構“量詞子類:個體”表示“件”是個體量詞。不同的特征以逗號分隔開。一個特征可以有多個取值,這種析取型取值用“│”分隔開,比如“衣服”這個詞有特征“個體量詞:件│套”,就表示“衣服”的“個體量詞”特征取值既可以是“件”,也可以是“套”。“數量名:是”表示“衣服”前面可以受數量詞的修飾(有些名詞的前面不能受數量詞的修飾,比如“心胸、筆者”)。在詞典中記錄的關于詞語的特征結構描述,是在規則中進行合一運算的基礎。
  在“np→mp !np”這條產生式規則(R1)中,箭頭左部的np代表名詞短語(比如“一件衣服”),右部的“mp !np”表示左部np短語是由一個數量短語(mp)加上一個名詞短語(np)組成的。這樣,一條上下文無關文法的產生式規則實際上刻劃了自然語言成分的一個組合模式。
  產生式右部np前的“!”符號標記一個成分在一個組合式中是中心成分(head)。中心成分是個技術概念。其作用是將中心成分的語法語義屬性特征(特征結構)跟整個結構的語法語義屬性特征(特征結構)關聯起來。
  “::”是分隔符,它后面是各種類型的合一運算表達式。這里用“$”符號代表產生式箭頭左邊的非終結符(即一條規則的根節點);用“%”標記箭頭右邊符號的順序,(注:這個規則只有一個“%”的情況,體會不到順序問題。碰到“np→np !np”這樣的規則,就需要兩個“%”來區分規則右部第二個np(%%np)跟第一個np(%np)了。)“%mp”就表示箭頭右邊第一次出現的mp;用“.”號表示對特征的引用,“$.內部結構”就表示箭頭左部的np范疇的“內部結構”特征。
  上面規則中合一表達式①里的“$.內部結構=定中”就是一個最簡單的合一等式,合一的結果是箭頭左部np的“內部結構”這一特征的取值為“定中”(合一之前,np的“內部結構”取值為空,即未知)。“$.定語=%mp”表示左部np的“定語”特征取值為右部mp。“$.dingyu=否”表示左部np整體不能再充當定中結構的定語(注意跟規則R2中的合一表達式“$.dingyu=是”對比)。
  合一表達式②要求右部np的“數量名”特征值為“是”。這可以看作是一個測試條件。這樣像“衣服”這樣的詞就可以通過這條規則的測試,而“心胸”就不能通過測試。
  合一表達式③還引進了程序設計語言中常用的條件控制句“IF...THEN...ENDIF”來表示特定條件下才使用的合一,意思是:如果mp是由個體量詞形成的數量短語,就執行THEN后面的合一運算,即要求mp后面的np的“個體量詞”特征跟mp的“原形”特征(即mp的量詞本身)匹配,否則不執行THEN后面的合一運算。
  上面這個簡單的示例實際上勾勒了以產生式規則、特征結構及合一運算結合起來表示語言知識的基本圖景。目前主流的形式語法體系(包括LFG,GPSG,HPSG等),盡管技術細節各有不同,但其基本表達手段無不是由這三個部分組成,而在具體的知識系統的組成形式上,一般都可以劃分為兩塊:規則庫+詞庫。在規則庫中以產生式規則描述一種自然語言的結構模式,以合一關系來對各個結構模式進行約束;在詞庫中則以特征結構記錄該語言詞匯的多種屬性特征(包括語法屬性,語義屬性等)。規則與詞典相結合,將人類自然語言知識整理成形式化的知識庫,供計算機分析自然語言使用。
  作為一個實用的語言知識系統,必然就涉及到上文談到的可操作性問題的第二個方面,就是要求在形式化表達框架下建立起的語言知識系統要上規模。這也是機器翻譯向語言研究提出的一個要求。之所以這樣要求,主要有兩個理由:第一,這樣的成果能夠直接為包括機器翻譯在內的各種自然語言信息處理應用系統的開發服務,更具實用價值;第二,在大規模實踐中更能考驗一個語言理論體系的效能,同時對發展和改進一個語言理論體系來說,也是十分必要的。
  廣義的語義知識系統既包括詞庫和規則庫這樣的專家知識系統,也包括以帶標記的真實語料(annotated corpus)來體現語言知識的語料庫。國外學術界和信息產業界從20世紀70-80年代以來陸續發展出一批大規模機器可讀(machine readable)語言知識系統。其中有廣泛影響的,有代表性的語言知識工程如美國普林斯頓大學的WordNet,加州大學的FrameNet,賓州大學的句法樹庫(UPENN Treebank),英國劍橋大學等單位開發的綜合語言知識庫(ILD),Lancaster大學UCREL語料庫中心的LOB語料庫、句法樹庫(Lancaster-Leeds Treebank),美國微軟公司開發的MindNet等,都是值得我國學者參考和借鑒的。這些詞庫和語料庫作為公開的共享資源,既為語言的理論研究,也為自然語言處理系統的應用開發提供支持,極大地推動了研究工作的進展。
  我國學者從20世紀80年代后期開始,逐步認識到形式化語言知識的大規模資源建設的重要性(陳力為等1995)。比如北京大學計算語言所和北京大學中文系合作,以朱德熙先生的詞組本位語法理論體系為指導,逐步將這一理論體系下有關漢語句法結構的具體語言知識特征化,落實到數萬詞語的語法屬性描述上,形成了目前規模已達7.3萬詞的《現代漢語語法信息詞典》,在國內外中文信息處理領域已經產生很大影響,在包括機器翻譯和信息檢索在內的一些自然語言處理系統中發揮著重要的作用。除詞語語法信息的大規模知識庫外,我國學者在詞語語義信息的大規模知識庫建設方面也做出了許多努力,其中突出的代表性成果是董振東先生開發的面向概念描述的,包含中英文雙語詞條的“知網”(How-Net)知識庫。(注:可訪問http://www.keenage.com/查看“知網”的最新資料。)在詞語語義信息描述方面,北大計算語言所延續了與北大中文系建設語法信息詞典的合作,從20世紀90年代末開始,在配價理論的指導下,分階段完成了一部近5萬詞規模的中英文對照的語義詞典。目前還以WordNet詞庫為參照,開發一部與WordNet規模相當的中文概念詞典(CCD)。在建設大規模句法、語義詞庫的基礎上,大規模真實語料庫的加工和建設也相應地開展起來,從1999年開始到2001年,北大計算語言所歷時近三年完成了人民日報語料庫的詞語切分、詞性標注和全部人工校對工作,形成了一個2600多萬字的標注語料庫,這一資源已經開始對中文信息處理的一些應用產生積極影響(參見腳注8)。
  除應用價值外,大規模語言工程實踐對語言學理論本身的檢驗意義也是不言而喻的。(注:提出一套語義表述理論固然不易(比如“格語法”),而要在數萬詞的規模上實踐一套理論(不是用幾個漂亮例子展示一下理論的魅力)就更是要費工夫了。在這樣規模的實踐過程中,理論存在的問題才能比較清晰地暴露出來,從而引導我們去改進原來的理論。)語言學前輩學者在談到治學經驗的時候常常提醒人們注意要有系統觀念、全局意識,因為語言理論問題常常是“牽一發而動全身”。如果說在理論研究中領悟這樣的要求多少還有些抽象的話,那么在進行大規模的語言工程實踐的過程中,就能深切體會到這個經驗之談的重要性和實際意義。比如為滿足機器翻譯進行自動句法分析的需求全面歸納漢語的短語結構規則時,要寫關于“把”字結構的規則,毫不夸張的說,就會牽涉到漢語全部的句法結構。因為一條規則會通過各種途徑跟一個規則集中的其他多條規則發生關聯,“把”字句中會涉及到漢語短語結構中其他幾乎所有的范疇,這就時時提醒我們注意系統性,不能孤立地看待某個局部的語法現象。當我們宣稱自己在研究“把”字句時,實際上并不是在圈定研究范圍,而更應該看作是選擇了一個研究視角,也就是從“把”字句這個角度去思考跟漢語各種句法結構都相關的全局性的問題。從這點上說,在形式化的知識表示框架下開展研究工作,可以更有效地提醒我們注意結構之間的相互關聯,同時也讓我們時刻保持清醒的認識:關于語言結構,哪些東西真正說清楚了,哪些東西暫時還沒有辦法說清楚。在計算機的詞典里,是沒有“含糊”這個詞的,因此,在大規模的語言工程實踐中,我們可以把計算機當作一面鏡子,看看我們所篤信的語言理論信條是果如其然,還是并非如此。在不斷實踐與反思的交互作用中,一方面積累了寶貴的計算機可用的語言知識資源,一方面又為發展語言學理論提供了材料。
    3 結語
  著名的計算語言學家John Nerbonne在一篇文章中這樣描述理論語言學與計算語言學的關系:“在語言學和計算語言學之間存在著理論任務的自然分野,大致說來,語言學的責任是描述語言,而計算語言學提供算法和用于計算的體系結構。基于這種觀點,這兩個理論領域因為其共同關注的對象——語言——而發生緊密關系。”要讓計算機能“翻譯”一個句子,首先需要“理解”一個句子,而理解一個句子,實際上要解決下面這兩個核心問題:
  第一,一個句子的結構和意義是什么(如何呈現/表示一個句子的結構和意義)?
  第二,如何得到一個句子的結構和意義?
  第一個問題是“What”的問題,這是理論語言學關心的問題(語言學家也關心跟“What”相關的“Why”的問題,即一個句子的意義為什么是這樣的,而不是那樣的);第二個問題是“How”的問題,這是計算語言學關心的問題,是面向機器翻譯的語言研究需要關心的問題。本文以漢外機器翻譯中漢語句法分析環節的需求為例,指出了服務于機器翻譯的語言研究應該加強對形式變換的研究,應拓寬所關注的語言現象的范圍,應該重視研究成果的可操作性。這些方面都可以看作是為了回答“How”這個問題在進行努力。
  在具體落實上述要求時,語言學工作者應該比以往任何時候都重視研究手段和方式的更新。在信息時代的今天,語料庫越來越容易得到,計算機檢索和統計工具也越來越便于研究者使用,關系型數據庫的可視化程度也越來越高,互聯網的普及更是極大地提高了信息傳播的效率,這些都為我們的研究工作提供了便利和更為有效的手段。作為信息時代的語言學研究者,應該將語言研究的平臺建立在新科技的基礎上。
  [收稿日期]2002年10月11日 [定稿日期]2002年10月26日
語言科學徐州47~61H1語言文字學詹衛東/常寶寶/俞士汶20032003本文從機器翻譯的一般模式談起,討論了服務于機器翻譯的語言研究應該注意的問題,包括:應更加重視形式與意義之間對應關系的系統研究;應重視以機器為“標準”來擴大關注的語言現象的范圍;應重視在形式化的知識表示框架下進行大規模的語言工程實踐的研究工作。機器翻譯/語言研究/電子詞典/短語結構規則/形式化/語言知識庫  machine translation/language study/electronic dictionary/phrase structure rule/formalization/linguistic knowledge base本文的研究得到“高等學校全國優秀博士學位論文作者專項資金”和國家973課題“面向新聞領域的漢英機器翻譯系統”(項目號:G1998030507-4)資助,特此致謝。Machine Translation and Language Study  Zhan Weidong 1,Chang Baobao 2,Yu Shiwen 2  1 Department of Chinese Language & Literature,Peking University ,Beijing 100871  2 Institute of Computational Linguistics,Peking University,Beijing 100871First of all,this paper illustrates conventional workflow of rule-based machine translation systems.And then the authors try to answer the following question:what should linguists do with language formalization and representation required by study of machine translation?The authors claim that(1) the conditions of transformation between various linguistic forms should be paid more attention and studied systematically;(2) linguists should change their view on language ambiguity,for what ambiguity means in MT-oriented language research has been proved to be very different with human-oriented language research; (3) the linguistic knowledge should be readable or tractable by computer,and the scale of a knowledge base could also play a key role for practical purpose and the development of a linguistic theory.詹衛東,男,1972年生,浙江衢州人,1999年畢業于北京大學中文系,獲文學博士學位。主要研究領域為現代漢語語法、計算語言學、機器翻譯。北京大學中文系 北京 100871  常寶寶,男,1971年生,山西垣曲人,1999年畢業于北京大學計算機系,獲理學博士學位。主要研究領域為計算語言學、機器翻譯、語料庫。北京大學計算語言學研究所 北京 100871  俞士汶,男,1938年生,安徽宣州人,1964年畢業于北京大學數學力學系。現任北京大學計算語言學研究所副所長,博士生導師。主要研究領域為計算語言學、語言知識庫、中文信息處理。北京大學計算語言學研究所 北京 100871 作者:語言科學徐州47~61H1語言文字學詹衛東/常寶寶/俞士汶20032003本文從機器翻譯的一般模式談起,討論了服務于機器翻譯的語言研究應該注意的問題,包括:應更加重視形式與意義之間對應關系的系統研究;應重視以機器為“標準”來擴大關注的語言現象的范圍;應重視在形式化的知識表示框架下進行大規模的語言工程實踐的研究工作。機器翻譯/語言研究/電子詞典/短語結構規則/形式化/語言知識庫  machine translation/language study/electronic dictionary/phrase structure rule/formalization/linguistic knowledge base本文的研究得到“高等學校全國優秀博士學位論文作者專項資金”和國家973課題“面向新聞領域的漢英機器翻譯系統”(項目號:G1998030507-4)資助,特此致謝。

網載 2013-09-10 21:20:11

[新一篇] 朱熹理學對歐洲啟蒙思想家的影響  ——兼論中國文明對西方文明的作用

[舊一篇] 機械決定論的困惑——18世紀啟蒙思想家的“必然”觀
回頂部
寫評論


評論集


暫無評論。

稱謂:

内容:

驗證:


返回列表