最新研究指出,仅使用AI生成数据训练大语言模型可能带来意想不到的后果。在研究中,研究人员发现,模型的性能可能会因为这种方式的训练而逐渐下降,这被称为“模型崩溃”。这一现象不仅限于大语言模型,还涉及到其他AI技术,如高斯混合模型和图片生成器。
对于人工智能(AI)大语言模型来说,通常给予的训练数据越多,模型就会越“聪明”。但英国《自然》杂志新发表的一项关于大模型的研究显示,如果只用AI生成的数据来训练大模型,会使模型性能下降、越练越“傻”。
英国牛津大学、剑桥大学等机构研究人员发现,如果在训练大模型时,只用AI生成的内容,会导致大模型出现不可逆的缺陷,逐渐忘记真实数据的分布,这被称为“模型崩溃”。
研究人员首先使用大语言模型创建类似维基百科词条的文本,然后利用这个内容来训练该模型的新版本,并反复使用前代模型生成的文本训练更新的版本。随着AI生成的信息“污染”训练集,模型的输出逐渐失去意义。在模型的第九次迭代中,它完成了一篇关于英国教堂塔楼的文章,其中一段文字却在讲述野兔尾巴的多种颜色。
研究发现,导致“模型崩溃”的重要原因是,由于模型只能从其训练数据中采样,一些在第一代数据中本就低频出现的词汇,在每次迭代后出现的频率变得更低,而一些常见词汇出现的频率则逐渐增加。
这种变化的结果就是,模型逐渐无法正确模拟真实世界的复杂性。随着时间推移,这种错误会在迭代中被层层累积、逐渐放大,最终导致“模型崩溃”。这有点像生物学中“近亲繁殖”会导致后代缺陷,如果不能保证基因库的多样性,最终会导致一个物种的崩溃。
研究人员还发现,由于训练数据被“污染”而导致“模型崩溃”的情况不止发生在大语言模型中,高斯混合模型、图片生成器等也可能出现类似情况。
不过,应对“模型崩溃”并非束手无策。研究人员发现,如果能在模型微调过程中保留10%左右的真实数据,崩溃就会发生得更缓慢。还可使用水印技术,将AI生成的数据与真实数据区分开来,这需要大型科技公司的协作。此外,在AI生成的文本重新进入数据池之前,可由人类先筛选过滤。
然而,研究人员也提出了几种有效的应对策略,包括在模型微调中保留真实数据、使用水印技术和人工筛选生成文本。这些措施有望减缓甚至避免“模型崩溃”带来的问题,为AI技术的持续发展提供更可靠的基础。
最新发现
相关资讯
AI训练AI:研究显示越练越“傻”现象及应对策略
英国《自然》杂志最新研究表明,仅使用AI生成的数据训练大语言模型可能导致模型性能下降,出现“模型崩溃”现象。本文探讨了研究发现的原因及其影响,并提出了应对策略。
2025-05-05 19:14:00
OpenAI发布SearchGPTAI搜索引擎,结果大翻车
OpenAI深夜发布了全新的AI搜索引擎SearchGPT,号称能快速找到用户想要的信息,但展示时出现多处错误,引发广泛关注和讨论。
2025-05-05 18:53:54
多名院士专家谈人工智能发展:中国不能靠“堆芯片”
多名院士专家在2024中国算力发展专家研讨会上探讨中国人工智能发展策略,强调不能简单跟随美国“堆芯片”道路。他们认为,中国需通过超智融合和主权级大模型计划,解决大模型算力挑战。
2025-05-05 18:33:48
国际奥委会主席巴赫:阿里巴巴开启奥运人工智能时代
国际奥委会主席巴赫在巴黎香榭丽舍开馆仪式上称赞阿里巴巴为奥运会带来的人工智能革新,阿里廊的智能助手展示了AI云计算与电商的未来。阿里云在奥运转播中的关键角色和巴黎奥运会首次广泛应用AI技术也在文章中有
2025-05-05 18:13:46
2024白云智慧城管系统成果展:监督环卫收费、堵漏卫生死角
2024年白云智慧城管系统在广州展示成果,解决环卫收费不透明、堵漏卫生死角等问题,引领城市治理智能化进程。
2025-05-05 17:53:43
科技感拉满!人工智能创新成果展在绵阳盛大开展
首届人工智能先进技术成果供需对接大会的重要活动之一,人工智能创新成果展在中国(绵阳)科技城会展中心A馆举行,展示了来自150多家企业的300多件领先技术展品,包括人形机器人、智能控制无人系统等。现场设置先进
2025-05-05 17:33:40
今日热榜
AI推理时代来了?ASIC被看好
2024-12-25 13:48:15《爱、死亡与机器人》司马华鹏用AI重新定义生命的边界
2024-12-30 17:18:22AI造谣乱象“野蛮生长”?专家:可设置敏感关键词禁止生成显著违法信息内容
2025-01-15 10:28:26聚焦人工智能“互联网之光”博览会今日开幕
2025-01-15 10:48:35国网克州供电公司:人工智能赋能输电线路巡视缺陷识别应用
2025-01-15 11:48:49北信源AI能力平台首亮相,人工智能供需对接大会引关注
2025-05-04 20:57:05谷歌发布新一代人工智能技术
2024-12-19 16:43:53聚焦人工智能、区块链、量子科技等9大前沿领域,2024年上海市产业青年创新大赛颁奖大会在静安举行
2024-12-19 17:08:14科大讯飞“牵手”中国华能集团,打造人工智能赋能能源电力行业典型示范
2024-12-27 15:57:44一个半月可理解50年的视频量视频AI工具InstMind发布
2024-12-31 12:53:14热门推荐