古文字自動識別過程及其程序實現

>>>  史地研究雜志方面文獻收集  >>> 簡體     傳統


  一、大規模古文字自動識別實現的可能性
  隨著中文信息處理技術的發展,古文字自動識別技術也勢必成為研究的重點,而大規模古文字自動識別的實現則依賴于計算機硬件的升級、人工智能技術的發展、基礎資源的建設和理論研究的深入。如今,這四方面條件都取得了長足的進步,大規模古文字自動識別的實現也就可以預期了。大規模古文字自動識別技術對于我國古文宇考證、出土文物鑒定、古文字辭書編纂等都有著重要意義。
  1.計算機硬件的升級
  計算機硬件是指構成計算機系統的所有物質元器件、部件、設備,以及相關的工作原理與設計、制造、檢測等技術的總稱。元器件包括集成電路、印刷電路以及其他磁性元件、電子元件等。第一代計算機以電子管作為主要元器件,第二代計算機以晶體管作為主要元器件,這兩代計算機體積大、功耗大、故障率高、運算速度低、不能用于文字處理。從第三代計算機開始以集成電路作為主要元器件,集成電路的發展大大促進了計算機體系結構和硬件的完善。目前普遍使用的是第四代計算機,其主要元器件采用大規模集成電路,具有運算速度快、容量大、體積小、功耗少、可靠性高、應用范圍廣的特點,可以廣泛地應用于文字和文本處理;計算機系統的部件和設備包括中央處理器(central processing unit, CPU)、存儲器、輸入輸出設備和電源等。中央處理器是計算機內部對數據進行處理并對過程進行控制的部件,由運算器、控制器等組成。早期計算機為了節省成本,一般采用串行運算器,運算速度慢,后來逐漸采用并行運算器,大大加快了計算機運算速度,現在的計算機普遍采用浮點運算器,擴大了數據處理的應用范圍。現代計算機普遍采用微程序控制器(microprogrammed control unit, MCU),可以實現不同計算機間指令兼容問題。現代計算機的中央處理器有向微處理器發展的趨勢,即隨著大規模集成電路技術的迅速發展,芯片集成度越來越高,中央處理器可以集成在一個半導體芯片上,甚至一個芯片上能集成多個處理器,功能也不斷增強。存儲器是用來儲存程序所需的數據和指令信息。過去曾經使用磁心存儲器和磁鼓存儲器,存儲容量有限,現代計算機根據不同的功能、結構與工作原理,存儲器的介質也不相同,主要有半導體存儲器、磁盤存儲器、磁帶存儲器和光盤存儲器等。輸入輸出設備也由簡單的批次輸入(紙帶輸入機、軟盤輸入機)發展成為交互式輸入(鍵盤、鼠標、觸摸屏)和語音、文字、圖像輸入設備等,由單一的顯示輸出設備發展為印刷輸出設備、語音輸出設備和繪圖儀等。此外,計算機制造、檢測和維護等技術也日新月異,完全能適應大規模文本與文字處理的需求。
  2.人工智能技術的發展
  人工智能是研究解釋和模擬人類智能、智能行為及其規律的一門學科,其主要任務是建立智能信息處理理論,進而設計可以展現某些近似于人類智能行為的計算系統。人工智能的研究已經有近50年的歷史,發展是曲折的,目前在專家系統、機器翻譯、機器視覺和問題求解等方面的研究已有實際應用。近年來對人工神經網絡的知識表示、常識推理、機器學習和分布式人工智能等基礎性研究也取得了可喜的進展。初期的人工智能技術都是基于物理符號機制和啟發式求解的連接機制,近年來有人提出無需表示、無需概念的智能觀,對邏輯在人工智能中的作用、知識與概念化、認知與學習、認知與感知、計算智能與人工智能的關系等問題開展了有益的辯論。此外,多學科交叉、人機一體化等觀點也影響著人工智能的研究。
  人工智能計算系統的實現依賴于程序設計語言和計算機程序設計方法。程序設計語言的好壞不僅影響到程序使用是否方便,還涉及到程序員所寫程序的質量。程序設計語言的發展經歷了從低級到高級的發展階段,低級語言包括字位碼、機器語言和匯編語言,其特點是與特定的機器有關,功效高,但使用復雜、煩瑣、費時且易出差錯。高級語言的表示方法要比低級語言更接近于待解問題,其特點是易學、易用、易維護。程序設計語言的發展趨勢是模塊化、簡明性、形式化、并行化和可視化。模塊化是指不僅語言具有模塊成分,程序由模塊組成,而且語言本身的結構也是模塊化的。簡明性是指所涉及的基本概念不多,成分簡單,結構清晰,易學易用。形式化指要發展合適的形式體系,以描述語言的語法、語義和語用。并行化指發展具有合適并行成分的并行語言。可視化是指要發展“所見即所得”的程序設計語言;程序設計方法是針對某一領域或某一領域的特定一類問題所用的一整套特定的算法。程序設計的發展可以歸結為從順序程序設計到并發程序設計、并行程序設計和分布程序設計,從非結構化程序設計到結構化程序設計,從過程式程序設計到非過程式程序設計、邏輯式程序設計、函數式程序設計、對象式程序設計以及可視程序設計、文化程序設計等,從低級語言工具到高級語言工具。
  3.基礎資源的建設
  古文字字庫建設和漢字大字符集的編制是大規模古文字自動識別的最基本的基礎資源建設。《古文字詁林》的順利出版是我國古文字字庫建設的輝煌成果,也為實現和完善漢字大字符集提供了素材和佐證。
  《古文字詁林》全書約1400萬字,匯集了古今中外幾百位學者、專家對中國古文字的考釋和論證,搜集了近16萬個古字形,是迄今為止涉及古字形最多、考釋資料最全的研究古文字的特大型工具書。《古文字詁林》數據庫的構造既方便了古文字字庫的提取,又兼顧了漢字大字符集的擴充,是大規模古文字自動識別的最重要的基礎資源。
  《古文字詁林》數據庫由三個庫構成:字頭對象基本屬性數據庫、字形庫和文本資料庫。字頭對象基本屬性數據庫詳細記錄了部首分類屬性、拼音屬性、古隸定字筆畫屬性、楷定字筆畫筆順屬性和楷定字四角號碼的編碼屬性,共記錄了9832個《古文字詁林》字頭數據,并向用戶提供了檢索要素。字形庫由五部分組成:篆書字形庫、古隸定字形庫、古文字字形庫、擴充的GBK漢字字形庫以及排版專用的字形庫。其中古文字字形庫是由甲骨文、金文、陶文等八大類古文字字形組成,字形來自《甲骨文編》、《金文編》、《古陶文字徵》等十五部研究著作,經掃描、修補、分類整理而成。文本資料庫是由以字頭為基本記錄單元的文本文件匯集而成,每個文本文件中標有字頭標記,下有“字形記錄”與“釋義記錄”兩部分,相當于文本知識庫。文本文件具有標記性語言的特點,方便計算機自動存取文本。
  除了《古文字詁林》數據庫提供的古文字字庫,《小篆字庫》、《商周金文數字化處理系統》和《戰國楚文字數字化處理系統》等古文字數字化工具書都提供了相應的古文字字庫,可以應用于古文字自動識別處理。
  有了字庫,還需要有符合國際標準的字符集。從目前情況來看,計算機用漢字字符集已由GB2312-80(6763個字符)、GB13000.1(20902個字符)、GB18030(27564個字符)發展到ISO10646-2000(70275個字符)。而關于漢字古文字在國際標準字符集中編碼問題的國際標準化組織(IRG)會議則通過了(1)M22.9決議:IRG接受古漢字興趣組的報告,認為古漢字應當作為獨立于CJK統一漢字的文種而單獨編碼;(2)WG2M45.34決議:擴大IRG的工作范圍,新的工作范圍將包括古漢字和CJK筆畫的研究;(3)SC2M13-05決議:批準擴大IRG的工作范圍,新的工作范圍將包括古漢字和CJK筆畫的研究。
  此外,古文字結構特征庫、古文字句法規則標注集、古文字詞類標注集和古文字義項標注集等作為大規模古文字自動識別的基礎資源建設,現在也應根據研究現狀投入建設。
  4.理論研究的深入
  大批考古文字資料的發現使古文字理論研究,尤其是古文字結構字形研究取得了很大進展,出版了一批高質量的研究論著。
  甲骨文字的考釋和斷代研究等有新的收獲,一批甲骨學史研究的論文和著作相繼問世。對于甲骨文結構字形特征的研究,張桂光先生的《甲骨文形符系統特征的探討》等論著具有很高的參考價值;有銘銅器不斷出土使金文研究有了重要的發展,如圍繞陜西眉縣楊家村發現的窖藏青銅器及其銘文就發表不少高水平的論文。在收集新出金文、編纂金文索引和古文字信息化處理方面也有許多值得重視的新成果,張再興先生的《西周金文文字系統論》等論著很具有代表性;戰國秦漢文字研究方面成就非常突出,隨著新出土的戰國文字資料(尤其是楚簡)的公布,在學術界形成了戰國文字研究熱,這幾年也出版了一大批研究校讀戰國文字資料的論著和一批反映戰國秦漢文字研究成果的文字編。古文字研究的繁榮,一方面主要是由于新資料的不斷發現而影響巨大,新出古文字資料的整理研究取得很大成就;另一方面,世紀之交對百年來古文字研究的回顧和反思也促使一批綜合性的資料整理研究和學術史專題研究取得比較突出的成果。
  從大規模古文字自動識別的角度看,這種繁榮的背后也存在養許多值得關注的問題。如在甲骨文和金文研究方面,疑難文字的考釋工作進展不大;在古文字構形研究方面,一些關系漢字發展演變和構形規律的重要現象還缺乏系統全面的研究;最重要的是,用于信息處理的古文字構形研究尚未開展。因此應鼓勵和支持一些學者在這個領域開展長期而艱苦細致的研究工作。
  二、古文字自動識別過程
  漢字識別是指用計算機提取漢字特征,使其與機器中預先存放的特征集匹配判別,將漢字自動轉換成某種代碼(例如國際區位碼)的一種技術。這里,漢字特征可以是其構形特征,也可以是語義特征,也可以是語法特征,甚至可以是好幾種特征的集合。由此可見,對于現在業已人為考釋識別的古文字的研究尤其重要,對這些古文字的特征加以概括總結使之成為未考釋的待識別的古文字的特征集。同時,古文字通常是以拓片的形式加以識別的,因此,古文字識別同時又是一個圖像識別問題。圖像識別是對處理后的圖像進行分析,在分割的基礎上選擇需要提取的特征,并對某些參數進行測量,以便對這些特征進行匹配歸類。在這里,圖像特征可以是形狀特征,也可以是紋理特征,對古文字拓片圖像而言,則形狀特征主要是文字的結構特征,紋理特征則主要是灰度和點陣特征。由于目前人為考釋識別出的古文字數量有限且沒有進行專門的紋理特征分析,因此圖像識別主要還是依賴結構特征。綜上所述,古文字自動識別既涉及圖像識別,又涉及漢字識別,是兩者的綜合。一般來說,古漢字自動識別應包括以下步驟:(1)進入OCR系統,獲取識別圖像;(2)對文字圖像做預處理,獲取文字輪廓;(3)對文字進行切割,并提取其結構特征;(4)單字識別;(5)自動識別后處理;(6)必要的人工文字校對,識別結束。一般來說,對于識別結果正確的古文字要歸納入庫,再次提取其特征,為其他待識別的古文字提供特征模板。
  步驟(1):這是文字圖像獲取的過程。圖像獲取就是圖像的數字化過程,也是將圖像采集到計算機中的過程,它主要涉及成像及模數轉換技術。目前圖像獲取設備主要有黑白攝像機、彩色攝像機、掃描儀、數碼相機等,此外,顯微攝像設備、紅外攝像機、高速攝像機、膠片掃描器等專用設備也被用來獲取圖像。對于古文字圖像獲取而言,常用的設備就可以達到獲取目的了。目前常用的OCR系統是掃描輸入系統,文字拓片經掃描儀轉化成為圖像文件。有些發掘出的帶有古文字的文物不宜制作拓片,我們可以采用照相或攝像的形式獲取文字圖像。
  步驟(2):這是圖像預處理的過程。我們獲取的圖像一般為帶灰度值的數字信號,在預處理過程中應將256色灰度圖處理成二值(0,1)的。圖像獲取時,在光電掃描過程中紙張的質量、油墨的質量都會產生污點、飛白、斷筆、交連等干擾,稱之為“噪聲”,在預處理過程中要將這些噪聲去除。去除噪聲后的二值化文字點陣逐層剝去邊緣上的點,變成比畫寬度只有一個字節的文字骨架圖形,這叫做圖像的細化。基于細化的識別方法以比畫骨架為基礎,將待識別的字符的筆段細化為骨架后再作進一步的分析和處理。通常在特征提取之前,還要對文字圖像進行規范化。所謂規范化,就是把文字尺寸變換成統一大小,糾正文字位置(平移),文字比畫粗細變換等文字圖形的規格化處理。文字圖像的細化和規范化統稱為“抽取輪廓”。圖像預處理包括二值化、平滑化(去噪聲)和抽取輪廓等。
  步驟(3):這是特征提取過程。筆段特征和筆畫特征是漢字結構的本質字形特征,漢字筆畫形態多變,因此在漢字識別時通常將每一筆畫分成形態基本不變的若干筆段。筆段特征具有明顯的直觀性、緊湊性和普遍性,有利于建立通用性較強的文字識別系統,但它對于噪聲比較敏感而不易提取;筆畫特征具有明顯的抗干擾性、方向性和普遍性,此外,由于任何一個漢字的每一筆畫間都存在著一個相對的位置關系,我們可以利用筆畫間的特征信息來實現整字的識別。筆畫特征的難點在于筆畫分類的粗細以及筆畫特征點(端點、折點、歧點和交點)的判定。無論是筆段特征提取還是筆畫特征提取,都要將二值化后的文字圖像分解,這叫“文字切割”。
  步驟(4):這是文字識別過程。文字識別方法可以分為統計模式識別、結構模式識別以及人工神經網絡方法等。文字識別是一個復雜的過程,任何一種單一的方法都不能取得令人滿意的結果。人工神經網絡方法是新近發展起來的一種模式識別方法,但如果將其應用于特征復雜的文字識別,網絡規模將非常巨大,結構會很復雜,很難實用化。目前常用的是統計模式識別和結構模式識別相結合的決策樹識別方法。文字識別實際上是文字特征分類的問題,決策樹實際上就是多級分類器,決策樹的每個非終節點都包含一個獨立的單級分類器。也就是說,決策樹將復雜的文字結構特征統計分成了一個個獨立的識別系統,每個獨立的識別系統識別一類文字的結構特征,解決一部分問題,那么,一個決策樹各個分支所解決問題的總和就是該決策樹所解決的問題,也就是一個或一類漢字的識別結果。
  步驟(5):這是識別后處理過程。在進行初級識別后需要進行后處理,以進一步提高識別率。后處理可以是基于詞法分析的,也可以是基于語義判斷的,還可以是基于語法分析的。因此,對于古漢語,尤其是甲骨文、金文等文本要作詳細的分析,總結其詞法、語義和句法特征,編纂古漢語詞典、句典等并將其形式化,為古文字信息處理服務。
  步驟(6):這是人工校對過程。任何一個古文字自動識別系統識別的正確率都不會是100%,因此,自動識別結束后要輔以人工校對。其實,就目前研究現狀而言,我們并不指望計算機能夠準確地自動識別出所有待識別的古文字,只要該系統能夠為我們提供幾個可供選擇的字項及各自概率,然后由專家根據經驗來判定,那就足夠了。因此,對于古文字自動識別而言,人工校對過程其實才是決策階段,必不可少。
  三、古文字自動識別的程序實現
  任何一個文字自動識別系統都是由程序來實現的,而程序的實現又依賴于所需數據庫的建設。就古文字自動識別而言,所需的基本數據庫包括:(1)古文字字庫(字符集);(2)古文字結構特征庫;(3)古文字句法規則標注集;(4)古文字詞類標注集;(5)古文字義項標注集等。但目前這幾個數據庫的建設程度參差不齊,數據庫的規模也大小不一,因此,要實現大規模古文字自動識別,尚需假以時日,尚需各位有志同仁做些扎扎實實的基礎資源建設方面的工作,尚需考古學界、古文字學界、語言學界、詞典編纂學界以及計算機學界通力合作,更需有關部門的高度重視、政策鼓勵。基于目前的研究現狀,本文用Visual C++語言實現了古文字自動識別的部分步驟,具體包括:
  (1)程序名稱:detect.cpp。該程序用于獲取圖像的預處理,包括行的檢測,以及旋轉角度的檢測等。
  (2)程序名稱:common_gfx.h, common_gfx.cpp。該程序用于獲取圖像的預處理,包含局部自適應閾值二值化的算法以及相關的濾波函數。
  (3)程序名稱:segimage.h, sesimage.cpp。該程序用于獲取圖像的預處理,定義并實現了字符間分割的函數。
  (4)程序名稱:character.h, character.cpp。該程序用于文字特征提取與識別。
  以上程序都是在基于假定一切條件和數據庫都存在的前提下編寫,因此含有調用數據庫的函數命令。以上程序都具有良好的移植性和可擴充性,可以用于程序直接調用、嵌套或修改。
  四、結論
  把計算機引入古文字考釋領域,探討計算機與古籍整理研究的關系這一課題,已經引起了越來越多的人的關注和興趣。這是代表人類現代文明的計算機技術與代表人類古代文明的古文字考證的一種奇妙結合,這種結合始于上世紀80年代初期,到了80年代中期就隨著中文信息處理系統走向實用化和計算機的普及而呈現出不斷擴展其廣度和深度的態勢。大規模古文字自動識別是其典型的趨勢之一,在這一趨勢出現之初,很有必要對該課題的宏觀研究和管理,以避免大規模的重復勞動。
中國文字研究南寧37~41H1語言文字學張霄軍/陳小荷20062006
古文字/自動識別/程序化
計算機硬件的發展使得大規模古文字字庫建設成為可能,《古文字詁林》等大型古文字釋類工具書的編纂出版為古文字庫建設提供了豐富的資源,人工智能技術的不斷發展為古文字自動識別算法的演進提供了條件。眾多古文字學家和考古學家對古文字結構、異體、義釋、語法等方面的大量研究工作也使得古文字自動識別有了理論上的依據。因此,在硬件、資源、技術和理論四方面都取得長足進步的同時,古文字自動識別技術的研究和開發也就提上了議事日程。古文字自動識別的一般過程為:(1)進入OCR系統,獲取識別圖像;(2)對圖像預處理,獲取文字輪廓;(3)對文字進行切割,并提取其結構特征;(4)單字識別;(5)自動識別后處理;(6)必要的人工文字校對,識別結束。本文運用數字圖像識別與處理原理,在VisualCH1QC41.JPG下編譯了部分程序代碼,可以實現以上步驟,并具有一定擴展性。
作者:中國文字研究南寧37~41H1語言文字學張霄軍/陳小荷20062006
古文字/自動識別/程序化

網載 2013-09-10 21:42:39

[新一篇] 古文“夏”字考  ——夏朝存在的文字見證

[舊一篇] 古譜研究的回顧與展望
回頂部
寫評論


評論集


暫無評論。

稱謂:

内容:

驗證:


返回列表