LMM将会全面替代大语言模型?人工智能新里程碑GPT-V美国预先公测,医疗领域/OCR实践+166页GPT-V试用报告首发解读
ChatGPT Vision,亦被广泛称为GPT-V或GPT-4V,代表了人工智能技术的新里程碑。作为LMM (Large Multimodal Model) 的代表,它不仅继承了LLM (Large Language Model) 的文本处理能力,还加入了图像处理的功能,实现了文本与图像的多模态交互。与传统的LLM相比,GPT-V更加强大和灵活,能够更深入地理解和生成与图像相关的内容。这种进化打开了无数新的应用可能性,从图像描述、创意设计到复杂的图文结合任务,GPT-4V都展现出了卓越的性能和广泛的潜力。
使用方法:GPT-V目前对于美国区ChatGPT Plus账户开放。
相关链接:ChatGPT can now see, hear, and speak
相关介绍:GPTV_System_Card.pdf
166页GPT-V试用报告:Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
性能:对于ChatGPT-4,速度比纯文本中文prompt慢40%左右。(注意,当从GPT-4切换到GPT-V后,纯文本中文Prompt速度提升了大概200%)
花费:$20美元一月,限速3小时25条,尚未开放API
调研版本:10-12 ChatGPT Vision(图片聊天/GPT多模态功能) ChatGPT September 25 Version
本文图片部分为实践(OCR/医学等),部分来自网络(推特/Arxiv试用报告),题图由ChatGPT DALL-E 3生成。
本文尝试从以下案例,对AI新里程碑LMM进行探索:
TLDR总结:
ChatGPT Vision更偏向于有创造性的图片理解,而非机器性细节识别。ChatGPT Vision试图以大模型的涌现能力,从高层次理解整个图片,将图片如同文字一般对待,而非是OCR式的匹配识别。ChatGPT Vision和OCR的区别,与语义搜索和关键词搜索的区别类似。ChatGPT Vision具有较大幻觉问题,Few-shot/CoT等Prompting方法也无法改善这一点(涌现能力不足),说明ChatGPT Vision仍处于像当年ChatGPT v3一样的初期阶段。预计未来几年随着参数规模的进一步提升,多模态大模型可能会复现文本大模型的发展路径。(图1:Few-shot方法不能提高GPT-4V获取仪表板信息的准确性,红色代表回答错误)
(图2:CoT方法不能稳定质变提高GPT-4V数苹果的准确性,红色代表回答错误,绿色代表正确)
适用场景:
上下文概念性工作,如文章头图的自动审核初筛、皮肤病的照片辅助筛选,DR/CT照片影像学诊断,提供HTML alt text等。图片创意性工作,如1.3节 商品销售文案生成、商品使用建议生成、商品创意名称生成等。不适用场景:
有精确性要求的文字工作:如1.1节 患者诊疗单等OCR场景。主体过多的复杂图片,如1.3节 前端网页代码复刻。有潜力的场景:
清晰图片/截图的总结性工作,包括1.3节 图片的复杂理性/感性分析,如网络热图解释、教育场景高纬度大模型推理,如1.3节 辨别电影/景点、客服、气候分析、设计图/网站设计建议等(图3:研究者输入了多张购物账单小票/菜单图片,GPT-4V做出了正确回答)
(图4:对于使用箭头/画圈标识的图片,GPT-4V能做出了正确理解和回答)
患者诊疗单(给GPT的是原图,以下图片经过二次处理模糊了患者信息)
muin on X: “GPT-4V will be able to transcribe and translate manuscripts and texts. I am excited to try out Arabic manuscripts to see how well it does. It does a phenomenal job with transcription even better than most humans. https://t.co/K6y6WffLvz” / X
图像来源:GitHub – linhandev/dataset: 医学影像数据集列表 『An Index for Medical Imaging Datasets』https://github.com/linhandev/dataset https://www.kaggle.com/datasets/nih-chest-xrays/data#:~:text=Class%20descriptions,Hernia
1.肺炎:
◦置信度: 0.7
◦原因: X光片上下肺区的密度增加可能提示肺炎的存在,但根据图片无法明确确定。
2.肺水肿:
◦置信度: 0.6
◦原因: 下肺区的密度增加可能与液体积聚有关,如心力衰竭导致的肺水肿。
3.间质性肺病:
◦置信度: 0.5
◦原因: 有一些间质改变的迹象,但需要与先前的影像进行比较。
4.支气管炎:
◦置信度: 0.4
◦原因: 慢性支气管炎可能导致一些观察到的不透明度。
5.结核病:
◦置信度: 0.3
◦原因: 尽管结核病可表现为不透明和可能的固实化,但该图像并不强烈地表现出结核病的典型特征。
6.肺癌:
◦置信度: 0.2
◦原因: 虽然没有明确的结节或肿块,但由于X光在显示其他结构后面的小结节时的局限性,肺癌不能完全排除。
数据源:ISIC Archive
https://gallery.isic-archive.com/#!/topWithHeader/onlyHeaderTop/gallery?filter=[]
◦ 信心分数: 0.6
▪ 原因: 该皮损表现出与常见痣相似的特征,中央有深**域。50岁左右的人群中很常见。
老年性角化病◦ 信心分数: 0.4
▪ 原因: 老年性角化病是老年人中常见的非癌性皮肤生长,颜色可能会有所不同。
异型痣◦ 信心分数: 0.5
▪ 原因: 这类痣与常见痣有所不同,通常较大。鉴于大小 (1.4mm) 和位置 (下肢),需要考虑此诊断。
黑色素瘤◦ 信心分数: 0.3
▪ 原因: 黑色素瘤是一种皮肤癌,虽然所提供的图像有可能与黑色素瘤一致的特征,但需要皮肤科医生进行全面评估才能确诊。
基底细胞癌◦ 信心分数: 0.2
▪ 原因: 它是最常见的皮肤癌形式,但所提供的图像没有基底细胞癌的典型迹象。但鉴于患者的年龄,仍需考虑。
血管瘤◦ 信心分数: 0.2
▪ 原因: 血管瘤是由血管组成的良性肿瘤。图像中的红色可能暗示这一点,但从整体外观看,可能性较小。
数据源:ISIC Archive
该图像显示了皮肤的放大视图,老年疣在头部和颈部区域较为常见,且经常出现在中老年人群中,因此我给予了较高的置信度。
(绿色代表正确,红色代表错误,黄色代表幻觉)
红色代表错误
Abran Maldonado on X: “One of my favorite demos I tested out, in honor of football season, ChatGPT Vision will forever change coaching and sports analytics. Whether i build it or not, ChatGPT for coaching will be on every sideline in the league. Mark my words. https://t.co/uUYhsKpEGh” / X
幻觉(该运动员使用的是反手Backhand,而非正手forehand):
X: “ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm https://t.co/paG0hMshXb” / X
结果:
Mckay Wrigley on X: “You can give ChatGPT a picture of your team’s whiteboarding session and have it write the code for you. This is absolutely insane. https://t.co/bGWT5bU8MK” / X
https://twitter.com/mckaywrigley/status/1707101465922453701
Pietro Schirano on X: “This is absolutely wild. I am completely speechless. https://t.co/wGTAx1hFgS” / X
https://twitter.com/skirano/status/1706874309124194707?
Mckay Wrigley on X: “ChatGPT breaks down this diagram of a human cell for a 9th grader. This is the future of education. https://t.co/L0Za0ZB5rs” / X
Alex Northstar on X: “Thanks ChatGPT, that can read understand better than humans! https://t.co/TgVSuHgf8j” / X
https://twitter.com/NorthstarBrAIn/status/1707668600281063514
(图中,用户以不可见的浅色字添加了Sephora化妆品促销水印,人眼无法察觉,但GPT-V可感知)
(图中,用户以不可见的浅色字使GPT-4V一定对这份简历会给出雇佣建议)
当 GPT-4 在2023年3月首次发布时,GPT-4V面部识别功能可能存在安全和隐私问题,因此 GPT-4V(具备视觉功能的 GPT-4)被暂缓发布。
在早期的模型中,用户本可以理论上上传人物照片,并要求识别他们,这显然是对隐私的侵犯。根据技术论文,GPT-4V(为 ChatGPT Vision 提供支持)现在拒绝此类请求的时间达到了98%。
GPT-4V(ision) technical work and authors
作者:京东健康 李卓伦
来源:京东云开发者社区 转载请注明来源
最新发现
相关资讯
收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?
LMM将会全面替代大语言模型?人工智能新里程碑GPT-V美国预先公测,医疗领域 OCR实践+166页GPT-V试用报告首发解读ChatGPT Vision,亦被广泛称为GPT-V或GPT-4V,代表了人工智能技术的新里程碑。作为LMM (Large Mult
2025-07-06 17:00:48
生成式AI+电商、亲子AIoT、柔性定制玩具、AI新硬件正在到来|2023WEB3.0AIGC高峰论坛
今年,AI在全世界掀起了科技浪潮,关于AIGC的落地场景越来越多。无疑,AI正在催发生产力革新,引领产业变革。10月16日,中国玩具协会和婴童用品协会联手界面新闻娱乐资本论,在上海浦东区共同举办了“AI新时代 产
2025-07-06 16:36:48
“智能涌现生成未来”通用人工智能产业创新发展论坛|人工智能科学家对话AI多元范式
10月21日,以“智能涌现 生成未来”为主题的第二十五届中国科协年会通用人工智能产业创新发展论坛在安徽合肥召开。本次论坛由中国科学技术协会、安徽省人民政府主办,中国自动化学会承办,中国电子学会、中国颗粒学
2025-07-06 16:12:48
Gartner《2024年10大技术趋势》,生成式AI入选!
人们使用生成式人工智能模型进行搜索、创作艺术、撰写论文和进行对话——无论是礼貌的还是其他的。但企业如何利用这些强大的工具来满足现实世界的业务需求?生成式人工智能,顾名思义,可以生成图像和文本。人工智
2025-07-06 15:48:48
生成式AI出版学术图书了!《GPT在财务、合规和审计中的应用》,该书使用AI技术5个月完成!
知名科学出版机构施普林格·自然(Springer Nature)近日发布信息称,继2019年出版世界上第一本由机器生成的科研图书之后,集团和作者近期又通过生成式AI共同创造出一本全新的学术书籍——德文图书《GPT在财务、合规
2025-07-06 15:24:48
让模型自曝「系统提示词」!系统prompt居然被人扒出来了!
ChatGPT 语音对话,发布即惊艳全网 ——凭借表达自然流畅,嘎嘎乱杀一众 AI 对话产品。而现在,其背后秘诀 —— 系统提示词居然被人扒了出来!原来对话过程中,ChatGPT 要遵循下面这么多规则:使用自然、对话性强、清
2025-07-06 15:00:48
今日热榜
南京科技赋能反诈宣防:AI数字人和语音外呼技术的创新应用
2025-02-27 17:27:31AI训练AI:研究显示越练越“傻”现象及应对策略
2025-05-05 19:14:00慈文传媒转型泛文化公司,AI技术助力影视革新
2025-05-14 09:39:43AI“魔改”短视频要严守二创边界
2024-12-20 01:31:46北京市将推进“人工智能+教育”新场景建设丰富学生课间活动
2024-12-24 13:05:09券商追逐大模型赋能投研,分析师用AI写研报再进一步
2024-12-24 13:45:17ENJOYAI!闵行项目亮相全球总决赛!
2024-12-26 15:36:24广电总局发文规范AI“魔改”短视频
2024-12-26 17:56:57第三届全国人工智能应用技术技能大赛决赛在山东省青岛市开幕
2024-12-27 16:58:06商汤向生成式AI发起冲刺
2024-12-27 18:18:19热门推荐