您當(dāng)前的位置：中國(guó)甘肅網(wǎng) >> 書(shū)香隴原 >> 前沿觀點(diǎn)

人工智能如何輔助古文字研究

22-10-31 09:39 來(lái)源：光明網(wǎng)-《光明日?qǐng)?bào)》編輯：張?zhí)m琴

　　作者：李春桃（吉林大學(xué)考古學(xué)院古籍研究所教授，“人工智能識(shí)別古文字形體軟件系統(tǒng)研發(fā)與建設(shè)”項(xiàng)目負(fù)責(zé)人）

　　人工智能已經(jīng)參與到人們的生活、工作、學(xué)習(xí)等諸多方面，科研工作同樣如此。古文字專(zhuān)業(yè)雖然屬于傳統(tǒng)學(xué)科，卻與人工智能技術(shù)十分契合。相較于人文學(xué)科中的許多專(zhuān)業(yè)，古文字考釋更為客觀，其研究結(jié)論具有唯一性，研究過(guò)程也遵循一定的規(guī)律，在人文學(xué)科中最接近自然科學(xué)，這符合人工智能技術(shù)的工作原理。

　　那么，人工智能的哪些技術(shù)能夠輔助古文字研究？之前需要人力完成什么工作？學(xué)界目前又做到了什么程度？本文便擬談?wù)勥@些內(nèi)容。

　　古文字形體系聯(lián)圖譜

　　就古文字考釋而言，人工智能可以提供的幫助是多方面的。著名古文字學(xué)家唐蘭先生曾將古文字的考釋方法總結(jié)為形體對(duì)照法、推勘法、偏旁分析法與歷史考證法。人工智能中的圖像識(shí)別、自然語(yǔ)言處理、知識(shí)圖譜等技術(shù)正可與這幾種方法相互對(duì)應(yīng)。

　　形體對(duì)照法是把不同材料中的古文字形體加以比較、對(duì)照，利用已識(shí)字來(lái)考證未釋形體。這種方法需要研究者能夠熟記大量古文字形體，如此才能把不同材料聯(lián)系起來(lái)。而人工智能識(shí)別利用的是深度學(xué)習(xí)與計(jì)算機(jī)視覺(jué)技術(shù)和算法，只要提供足夠多的古文字形體來(lái)訓(xùn)練模型，就能實(shí)現(xiàn)識(shí)別功能。記憶方面，數(shù)以百萬(wàn)計(jì)的文字形體總量，人腦只能記住其中很小的一部分，而智能模型卻可以全面覆蓋，能力更為強(qiáng)大，識(shí)別推薦結(jié)果會(huì)給專(zhuān)家以有效提示。

　　推勘法是將出土材料與文獻(xiàn)中的記載進(jìn)行對(duì)勘，尋繹文義，進(jìn)而破解未釋形體。隨著深度學(xué)習(xí)技術(shù)的使用，尤其是2018年谷歌公司開(kāi)發(fā)的BERT預(yù)訓(xùn)練模型在自然語(yǔ)言處理領(lǐng)域的大規(guī)模使用，近年來(lái)，自然語(yǔ)言信息處理技術(shù)發(fā)展迅速，在命名實(shí)體識(shí)別、語(yǔ)義關(guān)系等方面有重大提升。經(jīng)過(guò)足夠的數(shù)據(jù)訓(xùn)練，模型能夠具有普通人甚至專(zhuān)家一般的能力。舉一個(gè)通俗易懂的例子，假設(shè)“過(guò)節(jié)了我們煮△▽吃”一句中的“△▽”二形是未釋字或殘損字。如果要考證這兩個(gè)形體，經(jīng)過(guò)訓(xùn)練的深度學(xué)習(xí)模型可以給出備選答案，如“餃子”“湯圓”“粽子”等相符合的詞語(yǔ)。因?yàn)橛?ldquo;過(guò)節(jié)”限定，所以“白粥”等普通熬煮食物不會(huì)被推薦；因?yàn)橛?ldquo;煮”字限定，“月餅”等非熬煮食品不會(huì)被推薦。深度學(xué)習(xí)模型完全能夠捕捉語(yǔ)句里面關(guān)鍵字詞的文意。對(duì)于例子中的這句話，普通人也能給出正確的判斷方向。但是如果面對(duì)的是古文字材料，情況就不同了，因?yàn)槎鄶?shù)人對(duì)古代漢語(yǔ)并不熟悉，即使專(zhuān)業(yè)學(xué)者也無(wú)法熟記大量的古代語(yǔ)料。所以，我們可以利用出土文獻(xiàn)的釋文數(shù)據(jù)和傳世古書(shū)的記載來(lái)訓(xùn)練語(yǔ)言模型，從而在研究過(guò)程中利用模型圈定待釋字的目標(biāo)范圍，有時(shí)甚至能夠鎖定正確答案，這能給予專(zhuān)家極大的幫助。

　　偏旁分析法是通過(guò)分析、識(shí)別偏旁來(lái)考釋古文字。歷史考證法是根據(jù)不同時(shí)期形體的特征及演變規(guī)律來(lái)考釋古文字。人工智能知識(shí)圖譜技術(shù)與這兩種方法相關(guān)。知識(shí)圖譜是描繪實(shí)體之間關(guān)系的智能網(wǎng)絡(luò)，能夠整合部件、字形、詞義幾個(gè)層次的古文字知識(shí)。可以根據(jù)文字偏旁系聯(lián)圖譜，從而展示出那些具有相同偏旁的文字及對(duì)應(yīng)形體；知識(shí)圖譜也具有挖掘文字演變規(guī)律的潛力，進(jìn)而為專(zhuān)家提供幫助?？梢?jiàn)，在古文字研究過(guò)程中，人工智能技術(shù)可以從多個(gè)維度為專(zhuān)家提供輔助。

　　當(dāng)然，隨著戰(zhàn)國(guó)竹簡(jiǎn)的公布，古文字的考釋方法也發(fā)生了變化，通過(guò)破解通假關(guān)系找到文字所代表的“詞”顯得尤為重要。這就需要專(zhuān)家做好通假現(xiàn)象標(biāo)注，經(jīng)過(guò)反復(fù)訓(xùn)練使模型具有通假語(yǔ)感。但是面對(duì)以往從未出現(xiàn)過(guò)的通假用例，模型是無(wú)能為力的，所以還需要音韻學(xué)家介入，從通假規(guī)律等角度進(jìn)行研究，讓模型同時(shí)掌握通假條件所需要的“實(shí)例”和“規(guī)律”。

　　筆者認(rèn)為，人工智能與古文字結(jié)合可分成三個(gè)階段：第一階段是人工塑造模型。古文字專(zhuān)家需要整理基礎(chǔ)數(shù)據(jù)，包括資料釋文、圖版切字、字形拆分、屬性標(biāo)注等等；計(jì)算機(jī)專(zhuān)家利用這些數(shù)據(jù)完成功能實(shí)現(xiàn)。這一階段費(fèi)時(shí)費(fèi)力，最為艱苦。第二階段是人工智能利用已經(jīng)實(shí)現(xiàn)的技術(shù)為專(zhuān)家提供輔助。這有可能是省時(shí)省力的資料對(duì)勘，有可能是思考方向的積極引導(dǎo)，也有可能是研究結(jié)果的智能推薦。此階段專(zhuān)家也會(huì)針對(duì)智能技術(shù)的不足進(jìn)行完善。第三個(gè)階段就是人工智能的獨(dú)立判斷，它可以綜合以上所有方面給出問(wèn)題的答案。目前在這一領(lǐng)域的研究，學(xué)界似乎尚處在第一階段。

　　以上重點(diǎn)談了人工智能與古文字考釋的關(guān)系。事實(shí)上，人工智能在其他方面也能給研究者提供幫助，如甲骨綴合、甲骨文分組分類(lèi)、青銅器斷代、竹簡(jiǎn)編聯(lián)等等?？梢灶A(yù)見(jiàn)，將來(lái)人工智能技術(shù)會(huì)在更多方面為古文字研究提供幫助。人們常說(shuō)，古文字學(xué)是一門(mén)古老而又年輕的學(xué)問(wèn)。由于人工智能技術(shù)的介入，古文字學(xué)的“年輕”也體現(xiàn)在研究的方法上，可以與最新的科技相互結(jié)合。相信新的研究資料與新的研究方法能讓古文字學(xué)一直年輕且充滿(mǎn)活力。

　　《光明日?qǐng)?bào)》（ 2022年10月30日 05版）

版權(quán)聲明：凡注有稿件來(lái)源為“中國(guó)甘肅網(wǎng)”的稿件，均為中國(guó)甘肅網(wǎng)版權(quán)稿件，轉(zhuǎn)載必須注明來(lái)源為“中國(guó)甘肅網(wǎng)”。