写意中国探寻汉字起源丨首次定义甲骨文全信息模型 现代“仓颉”破译甲骨密码

大河报·豫视频记者 黄婷

如果你是学生,在这里点击部首可以知道甲骨文的读音释义;如果你要写论文,在这里能检索关于甲骨文的专业论著;如果你是考古工作者,在这里甲骨碎片能够智能缀合。这个全世界最完善的甲骨数据免费平台,以人机协同助力甲骨破译和传承活化,让越来越多的公众触达甲骨文化,更加清晰地了解到汉字的源头和中华优秀传统文化的根脉。

【创新】这个全世界唯一在殷墟安阳

甲骨文是中国的一种古老文字,又称“契文”、“甲骨卜辞”,如何才能把三千年前契刻在骨头上的象形字输入电脑?甲骨文等古文字研究的研究资料和研究力量分散、沟通协同不够,是甲骨学研究长久以来的痛点。建立甲骨文数据库显得尤为重要。

2月17日,在安阳师范学院,计算机与信息工程学院院长刘永革向大河报·豫视频科创河南记者介绍,自2000年开始,他就带领研究甲骨文的两位老师,以甲骨文输入法为起点,开展甲骨文信息化研究。2018年7月,经教育部批准,安阳师范学院成立了甲骨文信息处理重点实验室,目前有甲骨文大数据平台、甲骨文识别与字形分析、甲骨文语言计算、甲骨文与殷墟科技考古四个稳定的研究方向,是全世界唯一的服务甲骨学研究的理工科实验室。

“因为我们要做甲骨文的大数据,首先必须把关于甲骨研究的纸质资料收集齐,目前我们资料室收集的关于甲骨文书有7359册,不敢说全部集齐了国内外关于甲骨100%的书籍,但是也有99%。”刘永革说。

安阳有着得天独厚的甲骨文渊源,加之完善的数据资料来源, 2019年,实验室发布甲骨文大数据基础平台 “殷契文渊”,收录了152种甲骨著录、23466个甲骨图像、4487个甲骨文字形,33368种甲骨论著,免费服务全球的甲骨文、考古、历史、文字等专业的研究专家。

从纸墨誊抄到互联网三维建模,3000年前的古老文字瞬间灵动了起来,不仅位居北京大学“甲骨金文”数据排行榜第一,同时也吸引了国内外的古文字爱好者、教师、书法爱好者前来查阅使用。

【成果】人工智能让甲骨精确重现

基于深度神经网络的甲骨文字检测系统,把碎片式的数据和文献进行归拢数字化,甲骨研究者从以前的图书馆查阅,到现在网络数据库,用拼音、汉字、部首的检索,免费读取甲骨的图像、释文、相关文献、重片、缀合库、字形库的信息。

大河报·豫视频记者观察到,“殷契文渊”数据库分别建立了手写甲骨字数集(HWOBC数据集)、甲骨文字检测数据集、甲骨拓片识别数据集(OBC306数据集),这些数据集用知识图谱技术,用扩散网络技术,把甲骨文所有的关系,字、文、图全部都建立关联,然后用计算机逻辑推理。

复旦大学教授、出土文献与古文字研究中心主任刘钊说,甲骨文发现120年以来,有约16万片的甲骨收藏遍布世界各地,这些分散的古人信息是中华优秀传统文化的根脉,急需破译和数字化回归。

“以前甲骨碎片都是靠记忆和手工一片一片地拼合。数据数字化以后,可利用人工智能图像技术进行自动缀合。目前我们已经缀合出37组,这是人类专家还没有缀合出来的37组。”刘永革骄傲地说。

为了启动对全球甲骨文资料的全面普查和采集,甲骨文信息处理重点实验室还利用最新科技手段,研发了甲骨三维建模的技术和设备,获取甲骨的拓本、彩色照片、尺寸、收藏信息等,近期将进行第一批甲骨文三维建模实验。

刘永革向记者介绍:“原来甲骨的图形都来自于照片和拓片,去年,实验室和腾讯联合研发打造的高精度、高速度、便携性的甲骨三维建模,调整与改进已有核心算法,提出一套点云融合方法,已完成12片甲骨三维模型,如今扫一下二维码就能看到,实现了甲骨藏品的精确重现。”

【突破】首次定义甲骨文信息模型

“这是实验室首次对外公布甲骨文全信息数字模型。”2月17日,在安阳师范学院,刘永革对大河报·豫视频记者说:“这是国际上首次提出了一个全信息的数据模型。分层次进行数据融合,实现了高保真互动化的对比展示。我们实验室讨论了多次,最终的名字还没有确定。”

在刘永革展示的解析图上,记者看到实验室研发的甲骨文全信息数据模型,是将信息分类分层,类似于手机地图一样,以坐标对齐的方式,让甲骨片按照类别进行分层叠加,每个观众可以根据不同的需要,看不同的信息。这些信息层次有标注释读、科学影像、三维数据、拓片、摹本、基础数据等。而传统的甲骨文著录,都是比较单一的用图片加文字注释。

以甲骨的拍摄为例,传统相机受限于光线和拍照人员的技术水平,使得甲骨上的细微线条很难拍摄完整。而在全信息数据模型中,利用高保真数据拍摄技术,使用光照变换矩阵可以把照片放大几十倍,不仅能分辨甲骨“伪片”、微痕、微量元素,还能清晰地看到渗透在甲骨下人眼看不到的甲骨文字墨迹。

研究甲骨文离不开考古,甲骨文数据信息技术的飞跃,也为殷墟考古注入了科技动力。在安阳小屯古工作站,实验室计划对殷墟40平方公里进行三维建模,为甲骨文信息处理提供相关知识和支撑。

记者了解到,实验室已联合腾讯,研发出“了不起的甲骨文”小程序,预计3月份将进行内测,拟在4月份向全球公布这个项目。刘永革说,这个小程序以介绍传播甲骨文知识为主,开发有闯关类小游戏,有过关奖励等玩法。利用微信用户的传播力度,让更多的公众触达到甲骨文化。

【传承】飞出书斋代有传人

在甲骨文信息处理重点实验室的走廊里,挂着一张照片,是2018年第一届甲骨文信息处理国际学术研讨会的合影,照片上有44个人。刘永革说,这已经是全世界研究甲骨文信息处理的大部分专家。

甲骨文信息处理,简单地说,就是把甲骨文的所有数据都归拢收集起来,用技术手段再次进行数据开发利用。因为研究的人太少,一度显得这个学科非常冷门。

“根据教育部对重点实验室的要求,安阳师范学院能请到中科院院士、清华大学教授戴海琼担任学术委员会主任,十分难得。甲骨学领军人物,中国社会科学院学部委员、研究员宋镇豪,更是把一生的研究成果和数据,无偿地捐献给了实验室。”刘永革动情地说,正是由于科研前辈的无私奉献和指导,“殷契文渊”数据库平台才能得以加快对全世界开放发布。

刘永革说:“习近平总书记致甲骨文发现和研究120周年的贺信,为我们的未来工作指明了方向。实验室紧紧围绕国家重大战略需求,以服务文化传承创新为主线,实行“开放、流动、联合、竞争”的运行机制,着力建设多学科协同创新、具有国际化水平的甲骨文大数据平台和甲骨文信息处理领域一流的科学研究、技术创新和人才培养基地。”

自2000年研究甲骨文输入法,23年的探索,实验室将研讨文字与文化传承多学科交叉融合。目前,实验室成员作为主持人承担了7项国家自然科学基金项目、3项国家社会科学基金重大委托项目、8项国家社会科学基金项目和50余项省部级、地厅级项目,这其中涉及科学、技术、人文和艺术。

在刘永革的支持下,安阳师范学院还开设了《甲骨文信息处理》特色课程。越来越多的大学生,从大一开始,就参与到甲骨文信息化课题研究和甲骨文大数据平台信息采集和录入工作。

刘永革说:“用计算机破译甲骨文,用知识图谱的推理,可以对缺失甲骨学语义进行补全或预测,从而实现甲骨学知识的自动发现和考古预测。我们实验室的终极梦想是破译出来一个新的甲骨文字,我们正在一步一步向这个目标靠近。”

来源:大河报·豫视频 编辑:张璇子

分享到