基于庞大数据和超高算力的“暴力美学”,是当前生成式人工智能的核心打法,也是以OpenAI为代表的一众企业的发展密码。简单来说,在同等条件下,喂的数据越多,人工智能就越强在全球范围内,数据存量的增长速度远远低于数据集规模的增长速度。据人工智能研究机构epoch的研究预测,语言数据可能在2030~2040年耗尽,其中能训练出更优性能的高质量语言数据甚至可能在2026年耗尽中国的数据量很大,但没有真正产业化,相对标准化的数据服务商还比较少,因为大数据服务不赚钱,公共数据企业没有意愿去清洗,定制化服务又一般收费比较高文 |《瞭望》新闻周刊记者 郭方达在阿西莫夫经典科幻小说《最后的问题》当中,两个喝得醉醺醺的“程序猿”向人工智能询问了这样一个问题:“怎样使宇宙的总熵大幅降低?”“数据不足,无法作答。”人工智能未能在第一时间解答这个问题。尽管在小说的最后,这个仿若翻版ChatGPT的人工智能在时间的尽头交出了答卷,但贯穿整个宇宙生命的过程中,它始终都在做一件事:收集数据。数据,是人工智能赖以发展的核心资源。小说的情节固然戏剧化,但其内容却与发展生成式人工智能的现实矛盾不谋而合。当前,“百模大战”如火如荼,头部企业竞相投身人工智能赛道,但有效数据不足,特别是高质量中文语料的短缺以及部分领域封闭式的数据生态给人工智能发展带来了掣肘。如何解决“数据瓶颈”是未来一段时期我们即将面临——或已经面临的挑战。
中国科学院自动化研究所人形机器人攻关团队研制的谱系化人形机器人(2024年1月31日摄) 金立旺摄/本刊数据海洋的“圈地运动”海滨港口、城市霓虹、幼犬互动……近日,由美国人工智能文生视频大模型Sora生成的数个视频迅速吸引了世界目光。与“文生图”不同,Sora发布的视频长达60秒,具有丰富的运动变化,其中物品相互之间的作用关系、物理规律的刻画都达到了近乎以假乱真的地步。从物体互动到光影斑驳,屏幕上像素点的变换令人击节叹赏。像Sora这样的生成式人工智能并不是“无中生有”。不同于以往为人们所熟悉的判别式人工智能,生成式人工智能本质上是一种建立在大模型和预训练基础上的运用海量数据所生成的“模拟器”。海国图智研究院院长、暨南大学教授陈定定认为,快速涌现人工智能成果高度依赖于大量、多样化的数据。华大集团首席执行官尹烨说,发展人工智能,拼的不仅是“象牙塔尖”的算法更新,更是来源于开放性市场庞大的数据积累。基于庞大数据和超高算力的“暴力美学”,是当前生成式人工智能的核心打法,也是以OpenAI为代表的一众企业的发展关键。简单来说,在同等条件下,喂的数据越多,人工智能就越强。有数据显示,从GPT到GPT2再到GPT-3,OpenAI将模型参数从1.17亿提升到15亿,然后爆炸式地提升到1750亿,以至于GPT-3比以前同类型的语言模型参数量增加了十倍以上。作为数字之海的基本构成要素,海量、优质的数据争夺已经成为国家和企业间的无声战场。OpenAI旗下产品的使用条款就明确提及,企业将保留交互数据的使用权。基于数字技术形成的通用数据、优质数据垄断,可能将成为这场数字拓荒当中,后发者无法逾越的天堑。在一定程度上可以说,掌握数据,就掌握了包括人工智能等众多未来产业的主导权。AI“肥料”不足如果说数据是人工智能成长的“肥料”,那么人类或许将很快面临“无肥可施”的境地。清华大学公共管理学院教授梁正在接受采访时提到,全球范围内,数据存量的增长速度远远低于数据集规模的增长速度。据人工智能研究机构epoch的研究预测,语言数据可能在2030~2040年耗尽,其中能训练出更优性能的高质量语言数据甚至可能在2026年耗尽。优质中文语料的大面积缺失,让AI学会说好中文成为一件难事。业内人士介绍,全球目前最有科学性和经过验证的语料来自学术资料库,包括期刊和文化、出版物,遗憾的是,在这些载体上发表文章的语言绝大部分都是英语。一项研究显示,1900~2015年,收录于SCI的有3000多万篇文章,其中,92.5%的文章是以英语发表的;SSCI出版的400多万篇文章中,93%的文章是用英语发表。在ChatGPT的训练数据中,中文语料比重不足千分之一,英文语料占比超过92.6%。业内人士表示,目前我国仍有大量专业领域的信息数据处于相对封闭的状态,只能在机构内部的数据库和图书馆查看,数据缺失使大模型存在一定的领域盲区,开发潜力不足。例如,在医疗数据方面,由于历史和习惯等复杂原因,医疗机构之间存在严重的“数据孤岛”问题。《全民健康信息化调查报告》的数据显示,2021年,我国的三级医院平均只有不到20%的医疗机构采用了医疗大数据应用,二级医院更低,不足5%。清华大学苏世民书院院长、人工智能国际治理研究院院长薛澜在近期的公开演讲中谈到,中国数据质量比较低也是一个问题。中国的数据量很大,但没有真正产业化,相对标准化的数据服务商还比较少,因为大数据服务不赚钱,公共数据企业没有意愿去清洗,定制化服务又一般收费比较高。因此,数据市场如何构建也是需要解决的问题。数实融合解“数据瓶颈”对于生成式人工智能来说,其核心技术特性是概率计算+标注训练。依赖大量的高质量标注数据,它才能够有效地学习并做出正确的预测和决策。在2024年全国**上,有代表委员建议建立数据合规的监管机制和评估办法,加强数据安全和知识产权的保护措施,加快高质量中文数据集的开发与利用。面对可能出现的“数据荒”,梁正认为,除了此前数字化建设中已有的结构化数据资源,还有大量以语音、视频、工艺参数、操作记录等形式构成的非结构化产业数据尚可开发。此外,由计算机模拟或算法生成的带有注释的合成数据也可用于大模型训练之中,进一步提高数据质量和数量、降低数据采集和处理的成本。不少业内人士推测,Sora可能已经通过使用了基于数据驱动的Unreal Engine5(虚幻引擎5)大量生成了合成数据作为训练集。3月23日,国内首个千亿参数多模态金融大模型“财跃F1金融大模型”在2024全球开发者先锋大会(GDC)上首发。随着国内大模型在垂直领域加速落地,各类精细化的产业数据,又将成为新一轮的“金矿”。“挑战在于产业数据生态的构建”,深圳开鸿数字产业发展有限公司首席执行官王成录等专家认为,“必须克服各人自扫门前雪的单兵作战思维。”“海量工业数据由于缺乏采集而逸散。”一位从事制造行业多年的企业家表示,我国产业数据采集存在现实软肋,加强产业数据自有化,推动行业间形成数据平台,是走向垂类人工智能的必经之路。
最新发现
相关资讯
瞭望|人工智能的“数据瓶颈”
基于庞大数据和超高算力的“暴力美学”,是当前生成式人工智能的核心打法,也是以OpenAI为代表的一众企业的发展密码。简单来说,在同等条件下,喂的数据越多,人工智能就越强在全球范围内,数据存量的增长速度远远
2025-02-18 09:12:27
OpenAI、微软、谷歌等签署欧盟《人工智能公约》
当地时间9月25日,欧盟委员会公布了《人工智能公约》(AI Pact)的首批100多家签署方名单,该协议旨在促使企业就如何处理和部署人工智能发布“自愿承诺”。虽然欧盟《人工智能法案》(the AI Act)已于上月生效,但
2025-02-17 17:40:58
智谱AI成立新公司注册资本3亿元
上证报中国证券网讯(记者 邓贞)9月25日,上证报记者从天眼查App获悉,近日,北京智谱兴曜科技有限公司成立,法定代表人为刘德兵,注册资本3亿元人民币,经营范围含人工智能基础软件开发、人工智能应用软件开发
2025-02-17 17:20:51
AI或助石油“降价延寿”
参考消息网9月25日报道据《日本经济新闻》9月23日报道,原油期货难以维持在高位,主要原因在于随着世界经济增速放缓,市场警惕石油需求或将逐渐减少。另外不可忽视的一点是,原油供应方生产效率提高,在一定程度
2025-02-17 17:00:44
三次错失风口,OpenAI前员工杀回AI编程赛道,老东家捧金相助
Open AI正成为继谷歌之后,AI界新的“黄埔军校”。Jacob Jackson,OpenAI的前员工,在2024年2月创立AI编程公司Supermaven近日宣布完成1200万美元的A轮融资,本轮融资由Bessemer Venture Partners领投,OpenAI联合创
2025-02-17 16:40:35
2024全球数字贸易创新大赛决赛拉开序幕,北京理工华汇、西恩科技荣获机器人与人工智能赛道金奖
9月25日,为期4天的2024全球数字贸易创新大赛(以下简称“数贸大赛”)在浙江杭州拉开帷幕。在首日举行的“机器人与人工智能”赛道决赛中,北京理工华汇智能科技有限公司、哈尔滨西恩科技有限公司摘得金奖,北京睿科
2025-02-17 16:20:35
今日热榜
科大讯飞“牵手”中国华能集团,打造人工智能赋能能源电力行业典型示范
2024-12-27 15:57:44水滴打造AI大模型保险质检解决方案
2025-01-17 10:43:34马来西亚设立国家人工智能办公室
2024-12-19 16:44:28中美AI竞赛开启:既决高下,也决生死
2024-12-31 12:33:04通用人工智能,是个啥智能?
2025-01-06 17:44:07鸟儿报到,AI知晓
2025-01-13 14:42:17首届中医人工智能高质量发展论坛开幕
2025-01-16 15:45:46聚焦智慧民航|人工智能:推动民航业发展的新一代“隐形引擎”
2025-01-23 13:52:32聚焦企业出海、人工智能等热点,安永携首发新品亮相进博
2025-01-23 16:53:27路演开启!一起见证人工智能最新成果→
2025-01-24 12:32:30热门推荐