首页 > AI教程资讯

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

发布时间:2025-07-06 17:00:48 来源:AI视频贴吧

LMM将会全面替代大语言模型?人工智能新里程碑GPT-V美国预先公测,医疗领域/OCR实践+166页GPT-V试用报告首发解读

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

ChatGPT Vision,亦被广泛称为GPT-V或GPT-4V,代表了人工智能技术的新里程碑。作为LMM (Large Multimodal Model) 的代表,它不仅继承了LLM (Large Language Model) 的文本处理能力,还加入了图像处理的功能,实现了文本与图像的多模态交互。与传统的LLM相比,GPT-V更加强大和灵活,能够更深入地理解和生成与图像相关的内容。这种进化打开了无数新的应用可能性,从图像描述、创意设计到复杂的图文结合任务,GPT-4V都展现出了卓越的性能和广泛的潜力。

使用方法:GPT-V目前对于美国区ChatGPT Plus账户开放。

相关链接:ChatGPT can now see, hear, and speak

相关介绍:GPTV_System_Card.pdf

166页GPT-V试用报告:Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

性能:对于ChatGPT-4,速度比纯文本中文prompt慢40%左右。(注意,当从GPT-4切换到GPT-V后,纯文本中文Prompt速度提升了大概200%)

花费:$20美元一月,限速3小时25条,尚未开放API

调研版本:10-12 ChatGPT Vision(图片聊天/GPT多模态功能) ChatGPT September 25 Version

本文图片部分为实践(OCR/医学等),部分来自网络(推特/Arxiv试用报告),题图由ChatGPT DALL-E 3生成。

本文尝试从以下案例,对AI新里程碑LMM进行探索:

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

TLDR总结:

ChatGPT Vision更偏向于有创造性的图片理解,而非机器性细节识别。ChatGPT Vision试图以大模型的涌现能力,从高层次理解整个图片,将图片如同文字一般对待,而非是OCR式的匹配识别。ChatGPT Vision和OCR的区别,与语义搜索和关键词搜索的区别类似。ChatGPT Vision具有较大幻觉问题,Few-shot/CoT等Prompting方法也无法改善这一点(涌现能力不足),说明ChatGPT Vision仍处于像当年ChatGPT v3一样的初期阶段。预计未来几年随着参数规模的进一步提升,多模态大模型可能会复现文本大模型的发展路径。收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

(图1:Few-shot方法不能提高GPT-4V获取仪表板信息的准确性,红色代表回答错误)

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

(图2:CoT方法不能稳定质变提高GPT-4V数苹果的准确性,红色代表回答错误,绿色代表正确)

适用场景:

上下文概念性工作,如文章头图的自动审核初筛、皮肤病的照片辅助筛选,DR/CT照片影像学诊断,提供HTML alt text等。图片创意性工作,如1.3节 商品销售文案生成、商品使用建议生成、商品创意名称生成等。

不适用场景:

有精确性要求的文字工作:如1.1节 患者诊疗单等OCR场景。主体过多的复杂图片,如1.3节 前端网页代码复刻。

有潜力的场景:

清晰图片/截图的总结性工作,包括1.3节 图片的复杂理性/感性分析,如网络热图解释、教育场景高纬度大模型推理,如1.3节 辨别电影/景点、客服、气候分析、设计图/网站设计建议等

1.0 基础功能

多图片上下文识别能力

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

(图3:研究者输入了多张购物账单小票/菜单图片,GPT-4V做出了正确回答)

理解图中标识(如箭头)和强调(如红圈标红)

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

(图4:对于使用箭头/画圈标识的图片,GPT-4V能做出了正确理解和回答)

1.1 OCR功能(幻觉严重,中文效果差)

中文:电脑截图(准确)

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

中文:清晰中文表格图片(幻觉严重)

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

中文:有复杂信息的真实患者诊疗单(幻觉严重)

患者诊疗单(给GPT的是原图,以下图片经过二次处理模糊了患者信息)

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

英文:准确:强对比度、轻微镜头畸变、中等像素噪声图片

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

阿拉伯语:部分准确:手写体转译英文

muin on X: “GPT-4V will be able to transcribe and translate manuscripts and texts. I am excited to try out Arabic manuscripts to see how well it does. It does a phenomenal job with transcription even better than most humans. https://t.co/K6y6WffLvz” / X

1.2 医学诊断(高准确率)

肺部X光:肺炎判断(准确)

图像来源:GitHub – linhandev/dataset: 医学影像数据集列表 『An Index for Medical Imaging Datasets』https://github.com/linhandev/dataset https://www.kaggle.com/datasets/nih-chest-xrays/data#:~:text=Class%20descriptions,Hernia

图片输入

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

GPT-V判别结果:(肺炎, 0.7)

1.肺炎:

◦置信度: 0.7

◦原因: X光片上下肺区的密度增加可能提示肺炎的存在,但根据图片无法明确确定。

2.肺水肿:

◦置信度: 0.6

◦原因: 下肺区的密度增加可能与液体积聚有关,如心力衰竭导致的肺水肿。

3.间质性肺病:

◦置信度: 0.5

◦原因: 有一些间质改变的迹象,但需要与先前的影像进行比较。

4.支气管炎:

◦置信度: 0.4

◦原因: 慢性支气管炎可能导致一些观察到的不透明度。

5.结核病:

◦置信度: 0.3

◦原因: 尽管结核病可表现为不透明和可能的固实化,但该图像并不强烈地表现出结核病的典型特征。

6.肺癌:

◦置信度: 0.2

◦原因: 虽然没有明确的结节或肿块,但由于X光在显示其他结构后面的小结节时的局限性,肺癌不能完全排除。

皮肤病:黑色素瘤判断(部分准确)

数据源:ISIC Archive

https://gallery.isic-archive.com/#!/topWithHeader/onlyHeaderTop/gallery?filter=[]

图片输入

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

GPT-V判别结果(常见痣 0.6,黑色素瘤 0.3)

黑色素细胞痣 (常见痣)

◦ 信心分数: 0.6

▪ 原因: 该皮损表现出与常见痣相似的特征,中央有深**域。50岁左右的人群中很常见。

老年性角化病

◦ 信心分数: 0.4

▪ 原因: 老年性角化病是老年人中常见的非癌性皮肤生长,颜色可能会有所不同。

异型痣

◦ 信心分数: 0.5

▪ 原因: 这类痣与常见痣有所不同,通常较大。鉴于大小 (1.4mm) 和位置 (下肢),需要考虑此诊断。

黑色素瘤

◦ 信心分数: 0.3

▪ 原因: 黑色素瘤是一种皮肤癌,虽然所提供的图像有可能与黑色素瘤一致的特征,但需要皮肤科医生进行全面评估才能确诊。

基底细胞癌

◦ 信心分数: 0.2

▪ 原因: 它是最常见的皮肤癌形式,但所提供的图像没有基底细胞癌的典型迹象。但鉴于患者的年龄,仍需考虑。

血管瘤

◦ 信心分数: 0.2

▪ 原因: 血管瘤是由血管组成的良性肿瘤。图像中的红色可能暗示这一点,但从整体外观看,可能性较小。

老年疣(0.7)

数据源:ISIC Archive

图片输入

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

GPT-V判别结果(老年疣 0.7)

老年疣 – 置信度:0.7黑色素痣 – 置信度:0.5基底细胞癌 – 置信度:0.4日光角化症 – 置信度:0.4鳞状细胞癌 – 置信度:0.3

该图像显示了皮肤的放大视图,老年疣在头部和颈部区域较为常见,且经常出现在中老年人群中,因此我给予了较高的置信度。

其他脑部/胸部X光诊断(高准确率)

(绿色代表正确,红色代表错误,黄色代表幻觉)

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

1.3 高纬度识别能力(高质量,虽有幻觉问题)

大众点评/小红书文案

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

商品使用建议(左),商品销售文案(右)

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

车祸车辆识别

红色代表错误

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

理解流程图

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

解释笑话

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

商品新颖命名

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

电路图描述

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

地标描述

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

菜谱生成

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

分析球类运动局势/运动员姿势(存在幻觉)

Abran Maldonado on X: “One of my favorite demos I tested out, in honor of football season, ChatGPT Vision will forever change coaching and sports analytics. Whether i build it or not, ChatGPT for coaching will be on every sideline in the league. Mark my words. https://t.co/uUYhsKpEGh” / X

幻觉(该运动员使用的是反手Backhand,而非正手forehand):

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

识别电影/相机/景点等

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

给予用户产品安装/摄像等的建议和帮助

X: “ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm https://t.co/paG0hMshXb” / X

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

辅导扑克(存在幻觉)

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

网页截图到HTML代码(理解不足)

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

结果:

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

白板骨架到前端项目

Mckay Wrigley on X: “You can give ChatGPT a picture of your team’s whiteboarding session and have it write the code for you. This is absolutely insane. https://t.co/bGWT5bU8MK” / X

https://twitter.com/mckaywrigley/status/1707101465922453701

清晰图片的复杂理性/感性分析

Pietro Schirano on X: “This is absolutely wild. I am completely speechless. https://t.co/wGTAx1hFgS” / X

https://twitter.com/skirano/status/1706874309124194707?

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

Mckay Wrigley on X: “ChatGPT breaks down this diagram of a human cell for a 9th grader. This is the future of education. https://t.co/L0Za0ZB5rs” / X

主体多的复杂图片的复杂理性分析

Alex Northstar on X: “Thanks ChatGPT, that can read understand better than humans! https://t.co/TgVSuHgf8j” / X

https://twitter.com/NorthstarBrAIn/status/1707668600281063514

1.4 不足与风险

图片(含人眼不可见文字)的注入风险

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

(图中,用户以不可见的浅色字添加了Sephora化妆品促销水印,人眼无法察觉,但GPT-V可感知)

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

(图中,用户以不可见的浅色字使GPT-4V一定对这份简历会给出雇佣建议)

不能使用于人脸识别

当 GPT-4 在2023年3月首次发布时,GPT-4V面部识别功能可能存在安全和隐私问题,因此 GPT-4V(具备视觉功能的 GPT-4)被暂缓发布。

在早期的模型中,用户本可以理论上上传人物照片,并要求识别他们,这显然是对隐私的侵犯。根据技术论文,GPT-4V(为 ChatGPT Vision 提供支持)现在拒绝此类请求的时间达到了98%。

收藏!36种场景分析多模态GPT-4Vision能力,LMM是什么?会全面替代大语言模型吗?

GPT-4V(ision) technical work and authors

作者:京东健康 李卓伦

来源:京东云开发者社区 转载请注明来源

最新发现

相关资讯

今日热榜

热门推荐