最近,一个备受关注的问题引发了广泛讨论:“13.11%和13.8%究竟哪个更大?”这个简单的数学问题竟然让多个知名AI大模型难以给出正确答案。
前不久,网络热门话题“13.11%和13.8%究竟哪个大”引发网友关注,有媒体就这一问题向部分知名问答大模型发起提问,结果发现这些大模型多数都无法正确回答。随后有报道称,“一道小学生难度的数学题竟然难倒了一众海内外AI大模型。”关于大模型对数字小数部分识别混淆的问题,业内早有关注,其本质原因并非是在数学计算方面遇到了困难,而是因“分词器”拆解错误和大模型技术架构使然,导致在审题时陷入了误区。除了数学类问题之外,包括在复杂字母图形的识别,复杂语句的梳理等场景下也都存在类似逻辑推理能力缺陷问题。对此现象,永信至诚智能永信团队在AI大模型安全测评“数字风洞”平台的大模型竞技场中,详细展示了相关技术原理。
永信至诚大模型竞技场相关负责人介绍,在处理数字问题时,因为神经网络特殊的注意力算法,AI大模型会通过比对小数点后面数值的大小来生成答案,所以AI大模型会得出错误结论。事实上,只需要统一数字格式将小数点后写至百分位,分词器便能够正确识别,进而帮助大模型进行准确的推理判断。
大模型分词器原理结合这一技术原理,该团队对阿里通义千问、百度千帆大模型、腾讯混元大模型、字节豆包大模型、360智脑等17个大模型产品开展同场横向对比,通过基础逻辑陷阱类问题,对各家大模型的表现进行测评。测评结果显示,除了基础设施安全、内容安全、数据与应用安全等领域外,大模型底层架构中还存在一些如“分词器”这样易被忽略的设计单元,这些设计单元的错误输出会影响到整个大模型的可靠性和安全性。这也说明大模型的的发展需要伴随持续的检测和改进。据介绍,“数字风洞”平台已将“大模型竞技场”功能面向体验用户开放,为大模型开发团队提供横向对比测评的功能,帮助快速检测不同大模型在数学计算、请求代码文档等场景下的回答,以便开发者选择使用开源基座模型进行开发ai应用、Agent或进行训练改进时,更直观对比不同大模型的异常反馈情况,便捷地开展大模型产品选型工作。
通过“数字风洞”平台的大模型竞技场,我们能够更清晰地了解不同大模型在处理复杂逻辑和数学推理时的表现差异,为开发者和研究人员提供了重要的选型和优化参考。AI大模型的未来发展,需要持续的技术检测和创新改进,以确保其在各类应用场景中的准确性和可靠性。
最新发现
相关资讯
AI大模型竞技场揭秘:“数字风洞”平台表现如何?
探讨AI大模型在处理数字逻辑时可能遇到的困难与挑战,分析“数字风洞”平台如何评估不同大模型在基础逻辑陷阱类问题上的表现,揭示大模型技术中分词器设计单元可能存在的错误输出对整体可靠性的影响。
2025-05-08 09:48:12
AIInfra:大模型应用背后的金矿时代
AI Infra作为连接大模型算力与应用的关键基础设施,在大模型应用爆发背景下显得尤为重要。本文探讨了AI Infra在模型训练、推理加速等方面的关键作用和市场潜力。
2025-05-08 09:28:05
AI赋能电影产业优化转型中国电影“以变求变”
本文探讨了在数字技术和人工智能迅速发展的背景下,中国电影如何通过AI技术赋能产业转型,特别是在今年暑期档的一次创新尝试,《传说》头顶AI光环的上映引发了业内关注。
2025-05-08 09:08:01
番茄小说AI协议引发网文作者抵制与反抗
番茄小说近日引发了网文作者的抵制与反抗,签约协议中涉及AI训练补充条款,导致作者担心创作权被侵害。文章探讨了AI对网文创作生态可能带来的影响和作者的反应。
2025-05-07 16:58:21
从“推理式AI”到“生成式AI”:AI时代个人化助手的崛起
2023年,全球AI市场爆发,从传统的推理式AI向更具创造性的生成式AI转变。本文探讨了AiNAS等本地化大模型的诞生,以及它们如何通过个人化定制与本地化部署改变用户生活。
2025-05-07 16:38:15
AI手机价格战,首款麦芒305G售价不到2000元引爆市场
AI手机价格战正式打响!中国电信推出首款AI手机麦芒305G,售价低于2000元,引发消费者热议。华为、魅族等品牌也纷纷加入竞争,展开激烈的定价优惠。本文详细报道了各大品牌的最新动态和市场反应。
2025-05-07 16:18:06
今日热榜
聚焦人工智能“互联网之光”博览会今日开幕
2025-01-15 10:48:35《广东省本科高校人工智能人才培养实施方案》在华工发布
2025-01-16 15:05:31AI造谣乱象“野蛮生长”?专家:可设置敏感关键词禁止生成显著违法信息内容
2025-01-15 10:28:26云南省第十三届“挑战杯”大学生课外学术科技节“大数据与人工智能创新科技作品”专项竞赛暨第四届中国移动“梧桐杯”大数据创新大赛云南赛区决赛顺利落幕
2025-01-16 14:25:24中国大模型助力AI技术更开放更高效
2025-03-17 10:28:27AI端侧爆发,桌面机器人迎量产,产业链上市公司加码“抢鲜”
2024-12-24 14:45:31AI推理时代来了?ASIC被看好
2024-12-25 13:48:15《爱、死亡与机器人》司马华鹏用AI重新定义生命的边界
2024-12-30 17:18:22AI眼镜风口来了!剑指千亿级规模、百万台销量,小度狂飙
2025-01-22 10:19:37聚焦人工智能,“海淀之夜”发布新产品新成果
2025-02-24 13:53:48热门推荐