DeepSeek发布最新开源模型DeepSeek-Coder-V2,性能比肩GPT-4o,具有良好的通用性能,并且支持32K上下文。
蓝鲸新闻6月18日讯(记者 朱俊熹)在火热的大模型竞赛中,比拼性能已不再是一件新鲜事。随着技术迭代的加速,几乎每隔一段时间就能看到又一代更新版的AI大模型,挂上“比肩GPT-4”的名号。
6月17日,AI公司深度求索(DeepSeek)正式上线开源模型DeepSeek-Coder-V2。据DeepSeek介绍,该模型在代码、数学的多个榜单上位居全球第二,介于最强闭源模型 GPT-4o和GPT-4-Turbo之间。
此外,DeepSeek-Coder-V2开源大模型还具有良好的通用性能,在中英通用能力上位列国内第一梯队。DeepSeek表示,该模型沿用了上一代DeepSeek-V2模型的创新架构,具有2360亿总参数,但处理每个token时只需激活210亿参数,不仅能够减少内存使用,也能提高计算效率。
DeepSeek最新的开源模型支持32K上下文,并延续了此前的定价,每百万tokens输入价格为1元、输出价格为2元。DeepSeek此前率先拉低大模型定价,随后字节跳动、阿里云、百度等行业巨头加入低价队列,引发国内大模型价格战。
为了彰显性能排名的权威性,各企业在发布大模型时通常会附上评测榜单,其中涵盖了不同的评测集。评测集就像是AI大模型的考卷,用来测试其在各类任务和场景下的表现,但考察的侧重点会有所不同。通过给大模型打分,可以直观地对比它们的性能高低。
具体而言,在评估大模型代码生成能力的HumanEval评测集上,DeepSeek新推出的开源模型得分为90.2,仅次于分数为91.0的GPT-4o。在数学算数领域,GSM8K是由OpenAI发布的大模型数学推理能力评测基准,DeepSeek-Coder-V2模型的该项得分为94.9,同样超过了众多开闭源模型。
但是在通用能力的评测上,以目前使用最多的MMLU评测集为例,DeepSeek-Coder-V2模型的得分为79.2,与GPT-4仍有一定差距,也不及其他几家开源模型。阿里云在6月初发布的开源模型Qwen2-72B获得82.3的分数,而Meta的Llama3-70B模型为80.2。
DeepSeek表示,虽然DeepSeek-Coder-V2较前一代模型的综合得分更高,但两个模型在实际应用中各有所长,“DeepSeek-V2是文科生,DeepSeek-Coder-V2是理科生,精通的技能点不同”。最新发布的大模型更擅长代码编程、数学计算和逻辑推理,而上一代模型则在文本创作、任务规划等方面表现更优。
当地时间6月14日,“AI卖铲人”英伟达宣布开源Nemotron-4 340B(3400亿参数)系列模型。据称该模型的表现超过了一众开源竞争对手,包括Llama3-70B、Qwen2-72B、法国创企Mistral AI的Mixtral-8x22B等,甚至能够与闭源模型GPT-4o相媲美。
图片来源:英伟达
Nemotron-4 340B系列包括了基础模型Base、指令对齐模型Instruct和奖励模型Reward。其中,Base模型在ARC-c、Winogrande等评估大语言模型常识推理能力的基准测试中获得了较高分数,表现确实优于其他开源模型。Reward模型则是在此基础上进一步优化得到的,能够通过反馈输出更符合人类预期的高质量结果,在专门用于评估奖励模型的基准测试RewardBench中获得92.0的最高分数,远超得分为84.7的GPT-4o。
英伟达称,这三类模型形成了一个管道,能够生成高质量的合成数据,用于大语言模型的训练中。在指令对齐模型Instruct的训练过程中,英伟达就使用了超过98%的合成数据。合成数据也被认为是解决大模型训练“数据荒”的有效手段之一。
至少目前来看,此轮AI浪潮的最大受益者仍然是英伟达。当地时间6月17日,英伟达市值曾一度赶超苹果,距排名第一的微软仅差100亿美元。截至收盘,英伟达市值达3.22万亿美元,为全球市值第三大公司。
总体而言,本文总结了买家市场和大模型的最新趋势,包括价格战等,展示了大模型领域的竞争格局和发展前景。
最新发现
相关资讯
DeepSeek发布最新开源大模型DeepSeek-Coder-V2,性能比肩GPT-4o
DeepSeek发布最新开源模型DeepSeek-Coder-V2,性能比肩GPT-4o,具有良好的通用性能,并且支持32K上下文,获取高分数的评测结果。而英伟达宣布开源Nemotron-4 340B系列模型,在 ARC-c、Winogrande等评估中表现优秀
2025-05-30 11:13:42
山东大模型产业加速发展,如何培育更多产业集群
省工信厅发布指导意见,鼓励济南、青岛等市培育大模型产业集群。着力打造基础级、行业级、场景级大模型,开展重点技术攻关,推进融合应用。山东力争到2025年建设50家头部企业,年度收入增幅不低于25%,成为全国大
2025-05-30 10:49:43
一键去衣技术致7000张裸照流出,AI技术犯罪始末曝光
近7000张裸照被使用AI技术深度伪造流出,涉及多名女性,犯罪嫌疑人用AI换脸技术制作、贩卖淫秽照片,影响恶劣。文章揭示技术原理、案例细节,警示AI技术可能被不法分子利用。专家建议加强个人信息保护意识,谨防
2025-05-30 10:25:42
利用多模态大模型构建自动驾驶场景检索解决方案-创新场景50评选指南
本文介绍了利用多模态大模型构建自动驾驶场景检索解决方案的方法。针对自动驾驶数据挑战,亚马逊云科技提供了简便易用的解决方案,通过大语言模型和图像文本多模态嵌入空间架构,帮助企业优化自动驾驶算法。同时
2025-05-30 10:01:42
世优波塔AI数字人多模态交互系统,开启智能文旅新时代
数字化正在引领文旅产业变革,世优波塔AI数字人为文旅行业带来智能化升级,实现多模态交互,提供丰富文化旅行体验。AI数字导游服务升级,文旅品牌传播升级,营销转化更便捷,预示着智能文旅新时代的到来。
2025-05-30 09:37:43
金山办公WPSAI海外版正式发布,基于亚马逊云科技AI技术打造一站式智能办公平台
金山办公WPS AI海外版正式发布,基于亚马逊云科技Amazon Bedrock等生成式AI技术与服务,为用户提供智能办公平台。内容包括语义检查、内容改写、文档润色和PPT生成等功能。项目自测试以来,海外产品月活设备数超两
2025-05-30 09:13:42
今日热榜
上海推进“人工智能+”行动
2025-03-21 17:17:08英伟达新品发布,这些人工智能企业应声上涨!基金提前布局
2025-03-24 15:27:062025人工智能行业趋势报告|大模型之家年度专题
2025-03-25 11:02:09中泰证券:AI进入推理时代,看好通信板块投资机会
2025-03-26 13:06:37DeepSeek再爆火AI竞赛崛起中国创新势力
2025-03-26 13:46:47为什么说“人工智能”这个词不够准确?
2025-03-27 12:54:47人工智能是必须要拥抱的新方向
2025-04-03 12:04:18月活用户超百万AI类App达11个
2025-04-04 13:12:24360发布全新AI搜索产品“纳米搜索”
2025-04-15 11:53:31人工智能如何重塑未来生活:重庆峰会汇聚全球AI专家探讨应用
2025-04-16 10:43:19热门推荐