“乌蒙山连着山外山,
月光洒向了响水滩……”
这是近期在各大短视频平台爆火的《奢香夫人》的主题曲。奢香夫人是一位彝族“巾帼英雄”,这首同名歌曲不仅体现了大众对于少数民族文化的深厚兴趣,而且也见证了彝族历史文化生生不息的生命力。
为更好地保护古彝文,近日,静安科技企业合合信息公司与上海大学、华南理工大学联合发布业内首个古彝文基础编码数据库,该项目由合合信息与上海大学社会学院、华南理工大学文档图像分析识别与理解实验室共同推进,针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码,这标志着古彝文在数字社会有了“身份证号码”。
校企合力,
把七万多个字符“浓缩”成精简的字典
以往,古文字主要通过人工识别、校正和进行文献编撰,工作量繁多且效率低下。近年来,人工智能,特别是深度学习技术的发展,为古文字识别提供了高效的工具,极大地提高了古代文献和文字数字化进程的速度和效率,本次古彝文基础编码数据库的发布,将成为古文字数字化的重要成果之一。
当前,古彝文数字化方面的成果相对较少,其原因之一是古彝文字符集庞大,且缺乏成熟的手写样本库。
据《滇川黔桂彝文字集》中所有字符的合计,古彝文和现在仍然使用的各地的彝文,总数多达87046字,对如此庞大的字符集进行分类非常困难。另一方面,在彝文的发展过程中,由于种种因素,导致异体字、变体字特别丰富,字符和释义“一对多、多对一”是常态。古彝文手写体的随意性、多样性等,都给古彝文的识别带来了极大的挑战。
基于上述情况,合合信息与华南理工大学共同成立了文档图像分析识别与理解联合实验室,联合上海大学社会学院组建研究团队,共同解决数据库建设中的学术性、技术性难点。
项目技术负责人、华南理工大学电子与信息学院教授金连文表示,原生态彝文此前没有被系统性地进行数字化编码,古彝文没有公开数据集,标注困难,所以从最初语料的收集开始,就需要做大量的前置工作。再者,古彝文异体字繁多,每个字的异体写法少则两三种,多则几十种,且字体间风格差异大。因此,建立一个专门的数据库,通过基础编号将不同样式归纳,才能“破解”古彝文“一对多”的关系,解决文字查询问题。
在对7万6千字符的样本进行训练后,团队成功建立了包含上千个古彝文基础编码的数据库。通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛。
“古彝文数据库的发布并非一个最终的研究结果,而是一项非常重要的基础性工作。”
古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑表示,基础编码的发布,意味着这些文字在数字社会里从此拥有了“身份证号码”,能够被更多地展现在网络空间上,被更广泛的人群看见、认识、研究。
AI帮人类降低古彝文阅读难度
构建古彝文“大字典”需要解决的首要问题并非文字识别,而是低质量的图片资料处理。传统的古彝文大多被记录在岩书、布书、竹简等,在潮湿的自然环境下难以完整保存,往往会变得模糊不清或残缺不全。在资料文档数字化的过程中,采用科技手段优化图像质量问题是关键的一环。
在古彝文语料收集过程中,研究团队选取的古籍图片采集工具是合合信息旗下的智能扫描“扫描全能王”。该产品的“智能高清滤镜”功能基于AI技术及智能扫描引擎,可自动检测图像中存在的问题,并智能判定图像的优化方式,一键处理模糊、阴影、手指、屏幕纹等干扰因素,减轻后续图片处理工作,缩短内容识别、编码的操作周期。
2022年5月,**中央办公厅、***办公厅印发了《关于推进实施国家文化数字化战略的意见》,文件指出,到2035年,建成全面共享、重点集成的国家文化大数据体系。文化数据要素和人工智能技术的融合,将推动文化数字化战略的有效实施和文化产业的高质量发展,是优秀传统文化传承创新的有效路径。
合合信息在智能文字识别领域已有十七年深耕经验。此前,在AI识别甲骨文、西周钟鼎文(金文)领域,公司已进行了领先的探索和研究,为古彝文识别积累了经验,奠定了良好的技术基础。
加强文化遗产的保护、传承与合理利用任重道远,需要全社会共同行动。为发动更多的社会力量参与到古彝文识别和保护,扫描全能王已同步启动公益性活动,上线古彝文典籍上传入口,面向全社会征集古籍资料。研究团队在接收古籍后会将其转交给对应专家、部门进行研究,助力中华文化瑰宝传承。
最新发现
相关资讯
用AIGC为古彝文打造“身份证”?来看看校企携手的新“证”
“乌蒙山连着山外山,月光洒向了响水滩……”这是近期在各大短视频平台爆火的《奢香夫人》的主题曲。奢香夫人是一位彝族“巾帼英雄”,这首同名歌曲不仅体现了大众对于少数民族文化的深厚兴趣,而且也见证了彝族历史文
2025-07-10 10:06:33
突破:AIGC可能为传媒领域带来了更多的发展可能
伴随着OpenAI近日发布的一系列新应用,TMT板块连日来走势活跃。对此,泰信基金权益投资部总监助理董山青表示,生成式人工智能(AIGC)的迅猛发展,将为影视、游戏等传媒领域发展及其内容生态的创意启发带来更多可
2025-07-10 09:42:33
使用AIGC须声明,否则将构成学术不端
近日,中国科学技术信息研究所联合爱思唯尔、施普林格·自然、约翰威立国际出版集团发布《学术出版中AIGC使用边界指南》(以下简称《指南》),对人工智能内容生成(Artificial Intelligence Generated Content,以下
2025-07-10 09:18:33
AIGC赋能:如何解决网文作家痛点?将网络文学“拆解”后再利用AI
网络小说中常出现的穿越、玄幻、求真、修仙桥段都源于什么?9月23日,阅文集团公共事务副总裁王睿霆在南京举办的“2023文化和科技融合热点和趋势论坛”上,带来《数字赋能文化、创造阅读未来》的分享。阅文集团公共
2025-07-09 16:42:12
必看:AIGC报告《中国AIGC产业全景报告》-艾瑞发布
古人有云:日就月将,学有缉熙于光明。人类对人工智能学的潜心钻研终于再度获得重大突破,大模型的涌现能力与AIGC的应用普及为那不一定是AGI但一定更AI的未来提供了确定性的加速度。AI2 0时代的加速到来,不仅是
2025-07-09 16:18:11
aigc时代已来,在这里教你未来时代的新技能
日前,在虹口区科学技术协会指导下,DIISx新车间联合实践工坊举办的“生成式人工智能”工作坊在上海创新创意设计研究院拉开大幕。该活动也是2023年虹口区科普月系列科普活动的其中一项。AIGC是近年来迅速崛起的人工
2025-07-09 15:54:11
今日热榜
AI训练AI:研究显示越练越“傻”现象及应对策略
2025-05-05 19:14:00AI“魔改”短视频要严守二创边界
2024-12-20 01:31:46北京市将推进“人工智能+教育”新场景建设丰富学生课间活动
2024-12-24 13:05:09券商追逐大模型赋能投研,分析师用AI写研报再进一步
2024-12-24 13:45:17ENJOYAI!闵行项目亮相全球总决赛!
2024-12-26 15:36:24广电总局发文规范AI“魔改”短视频
2024-12-26 17:56:57第三届全国人工智能应用技术技能大赛决赛在山东省青岛市开幕
2024-12-27 16:58:06商汤向生成式AI发起冲刺
2024-12-27 18:18:19艾力斯:计划利用AI模型预测生物分子的相互作用,提高新药研究的效率
2024-12-30 11:36:56彩讯股份:AI原生云计算解决方案AICloud已在多个千亿参数级别的大模型训练等方面成功落地
2024-12-30 12:37:20热门推荐