大模型技术正随着科技革新实现广泛应用,满足多行业图像处理需求。但大模型一路“高歌猛进”的背后,隐藏着一场关于模型训练语料的“能源危机”。根据人工智能研究人员小组Epoch研究估计,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。
现阶段,大量的高质量语料数据存在于书籍、论文、研报、企业文档等文档之中,复杂的版面结构制约了大模型的训练语料处理及大模型文档问答的应用能力。文档解析技术的进步,让机器能够识别文档中的多种元素,更好地处理文本、表格、图像等多类型数据,还原文档阅读顺序,加速大模型训练与应用。
在近日举办的2024中国图象图形大会(CCIG 2024)大会中的《大模型技术及其前沿应用》论坛上。上海合合信息科技股份有限公司智能创新事业部研发总监常扬表示:“文档解析的难点在于如何准确识别文档中的各个元素,并理解其之间的逻辑关系,需要关注‘物理版面分析’和‘逻辑版面分析’”。据常扬介绍,物理版面分析侧重于视觉特征、文档布局,主要任务是把相关性高的文字聚合到一个区域,比如一个段落、一个表格等,并选用目标检测任务进行建模,使用基于回归的单阶段检测模型进行拟合,从而获得文档中各种各样的布局方式;逻辑版面分析侧重于对语义特征的分析,主要任务是把不同的文字块根据语义建模,例如通过语义的层次关系,形成一个目录树结构。
文档解析技术中文档元素检测、文字表格识别、文档版面分析、阅读顺序还原等任务涉及对版面元素和版面整体布局的判断,是文档处理领域典型的技术难题。
通过十几年技术积淀,合合信息已经打通电子档解析、扫描档图像处理、文字识别、表格识别、版面分析、版面还原和排版布局等文档智能化处理的全流程,面对电子文档及扫描件,能够灵活地识别文字、表格、无线表、跨页表格、页眉、页脚、公式、图像、流程图等版面元素,准确地还原文档阅读顺序,为大模型领域提供了精准的训练语料与文档问答应用体验。
“我们研究过程中发现,真实世界的文档有极为丰富的布局类型,没法单纯地用单栏,双栏、三栏等类别去定义。”常扬表示,近年来的开放词汇目标检测(OVD),视觉语义对齐(Alignment)等工作,以及生成式模型等前沿进展,将给版面分析带来新的研究思路,合合信息技术团队也将持续在智能文档处理领域深耕,让新技术在行业中更快速地产生价值。
最新发现
相关资讯
亮相CCIG合合信息破解大模型语料“饥荒”难题
大模型技术正随着科技革新实现广泛应用,满足多行业图像处理需求。但大模型一路“高歌猛进”的背后,隐藏着一场关于模型训练语料的“能源危机”。根据人工智能研究人员小组Epoch研究估计,机器学习数据集可能会在2026
2025-06-11 16:13:18
2024淄博机器人产业协同创新与生态建设大会成功举办
5月29日,聚焦新技术、新场景、新质效的2024淄博机器人产业协同创新与生态建设大会在齐盛国际宾馆举行。活动现场,来自北京、上海、济南等地及淄博本地的机器人企业纷纷带着核心产品前来亮相,人形机器人、四足机
2025-06-11 15:49:18
OpenAI推出为大学开发的ChatGPTEdu教育版,对话和数据不用于训练模型
IT之家 5 月 31 日消息,OpenAI 在 5 月 30 日宣布推出 ChatGPT Edu,该版本专为大学设计,面向学生、教职员工、研究人员和校园运营部署 AI,同时该版本的对话和数据不会用于训练 OpenAI 模型。ChatGPT Edu 由 GP
2025-06-11 15:25:18
OpenAI将重新启动之前被放弃的机器人团队
钛媒体App 5月31日消息,OpenAI将重新启动之前被放弃的机器人团队。
2025-06-11 15:01:18
欧盟人工智能法案推动风险治理
4月23日,在德国汉诺威工博会上,参观者与一款智能机器人进行“石头剪子布”游戏。 新华社记者 任鹏飞摄日前,欧盟理事会正式批准了《人工智能法案》。该法案已于今年3月份在欧洲议会高票通过,时隔2个多月后在欧盟
2025-06-11 14:37:18
赋能企业强化AIGC能力H3C&小米AIPC为千行百业降本增效
今年2月份,文生视频大模型Sora的问世进一步激发了市场对AIGC产业创新能力的期待,随着生成式AI在文本生成、视频创作、图片生成、数字人等应用场景的广泛落地,在为打造新质生产力提供了前所未有动力的同时,也给
2025-06-11 14:13:18
今日热榜
到2030年人工智能模型可扩大10000倍
2025-04-18 10:52:31大厂不想你有AI女友
2025-04-18 15:53:51人工智能赋能新质生产力发展,政协委员献策未来发展
2025-05-02 07:51:09四川人工智能产业地基坚固如何添砖加瓦?
2025-05-02 08:31:17人工智能驱动的服务模型加速故障排除
2025-05-02 08:51:19大模型的人才黑洞效应,还在持续,ResNet作者张祥雨,投身AI大模型
2025-05-02 09:51:29T3出行领行阡陌大模型国家备案与数字化智能化发展
2025-05-02 11:11:43T3出行领行阡陌大模型国家网信办算法备案通过
2025-05-02 11:31:45超威财报后暴跌,“AI服务器”真不赚钱?
2025-05-02 12:32:05AI学习机售价破万元引争议,物超所值还是智商税?
2025-05-02 13:32:18热门推荐