机器学习模型虽然功能强大,但可能会出错,并且通常难以使用。为了帮助用户了解何时以及如何信任模型的预测,科学家们开发了各种解释方法。然而,这些解释往往十分复杂,可能涉及数百个模型特征,有时还以多层次的可视化形式呈现,这让缺乏机器学习背景的用户难以完全理解。
为了解决这一问题, MIT 的研究人员利用 LLMs 将基于图表的解释转化为通俗易懂的语言。他们开发了一套系统(包含两个部分),先将机器学习模型的解释转换为人类可读的文字段落,然后自动评估这些叙述的质量,从而让终端用户了解这些解释是否值得信任。
通过为系统提供一些示例解释作为提示,研究人员能够定制系统输出的内容,以满足用户的偏好或特定应用场景的需求。
从长远来看,研究人员希望在这一技术基础上进一步发展,使用户能够在现实环境中向模型提出后续问题,了解其预测的依据。
“我们开展这项研究的目标是迈出第一步,最终实现用户能够与机器学习模型进行深入对话,了解模型为何做出特定预测,从而更好地判断是否采纳模型的建议。”
MIT 电气工程与计算机科学研究生、论文第一作者 Alexandra Zytek 表示。
该论文的合著者包括 MIT 博士后研究员 Sara Pido,EECS 研究生 Sarah Alnegheimish,法国国家可持续发展研究院研究主管 Laure BERTi-Équille,以及论文的资深作者、MIT 信息与决策系统实验室首席研究科学家 Kalyan Veeramachaneni。
这项研究将在 IEEE 大数据会议上展示。
解读模型背后的逻辑
研究人员重点研究了一种流行的机器学习解释方法——SHAP。在 SHAP 解释中,模型会为每个特征分配一个数值,以表明该特征对预测结果的影响。例如,当一个模型用于预测房价时,房屋位置可能是其中一个特征,而位置这一特征将被赋予一个正值或负值,表示它对模型整体预测的增减作用。
SHAP 解释通常以柱状图形式展示哪些特征最重要或最不重要,然而,当模型包含超过 100 个特征时,这种柱状图可能变得难以解读。
“作为研究人员,我们必须对展示内容做出许多选择。如果我们只显示前 10 个特征,用户可能会质疑其他特征为什么没出现在图中。而使用自然语言可以免除我们做出这些选择的负担。”资深作者 Kalyan Veeramachaneni 解释道。
但不同于直接使用 LLM 生成自然语言解释,研究人员采用 LLM 将已有的 SHAP 解释转化为可读的叙述,以减少生成过程中可能引入的误差。
研究人员开发的系统名为 EXPLINGO,包含两个协作部分。第一部分名为 NARRATOR,利用 LLM 将 SHAP 解释转化为符合用户偏好的自然语言叙述。通过向 NARRATOR 提供 3 至 5 个手写的示例叙述,LLM 可以模仿这些样例的风格生成文字。
Zytek 指出:“与其让用户定义他们需要什么样的解释,不如让他们直接写下想要看到的内容,这样更简单。”
这种方法使 NARRATOR 可以通过不同的手写示例轻松适应新的应用场景。
在 NARRATOR 生成通俗语言解释后,第二部分 GRADER 会利用 LLM 根据四项指标对叙述质量进行评估:简洁性、准确性、完整性和流畅性。GRADER 会自动将 NARRATOR 生成的文字与对应的 SHAP 解释一起输入 LLM 进行验证。
Zytek 表示:“我们发现,即使 LLM 在执行任务时可能出错,它在验证和检查任务时通常不会出错。”
此外,用户还可以根据需求调整 GRADER 中各指标的权重。“比如在高风险场景下,可以优先考虑准确性和完整性,而降低对流畅性的要求。”她补充道。
优化自然语言叙述
对 Zytek 及其团队来说,调整 LLM 以生成自然流畅的叙述是他们面临的最大挑战之一。通常情况下,添加越多的风格控制规则,LLM 越容易在解释中引入错误。
“我们在提示调优上花了很多时间,一次次发现问题并逐个修复。”她说道。
为测试他们的系统,研究人员使用了九个带有解释的机器学习数据集,并让不同用户为每个数据集撰写叙述。他们用这些样例来评估 NARRATOR 模仿不同写作风格的能力,同时利用 GRADER 从简洁性、准确性、完整性和流畅性四个维度对每条叙述进行评分。
最终,研究表明他们的系统可以生成高质量的自然语言解释,并成功模仿不同的写作风格。
研究结果显示,提供少量手写示例显著提升了叙述风格的质量。然而,这些示例需要非常精心编写。比如,加入“更大”之类的比较词汇,可能会导致 GRADER 错误地将准确的解释标记为不正确。
基于这些成果,研究团队计划探索更好的技术,以帮助系统更好地处理比较词。此外,他们希望通过为解释加入逻辑推理功能,进一步扩展 EXPLINGO 的能力。
从长远来看,他们希望将这项研究发展为一个交互式系统,使用户能够就某一解释向模型提出后续问题。
“这在决策过程中非常有帮助。如果用户对模型的预测结果有异议,我们希望他们能迅速判断自己的直觉是否正确,或者模型的直觉是否正确,并找到分歧的来源。”Zytek 解释道。
最新发现
相关资讯
河北省举办首届NeuroMaster脑科学人工智能挑战赛
河青新闻网讯 11月17日,2024世界机器人大赛——河北省首届NeuroMaster脑科学人工智能挑战赛,在石家庄市第一中学成功举办。NeuroMaster脑科学人工智能挑战赛竞赛方向围绕脑机接口在典型领域的应用发展,竞赛内容设
2025-01-15 11:08:38
聚焦人工智能“互联网之光”博览会今日开幕
大江网 大江新闻客户端讯 全媒体记者陈春伟报道:11月19日,由世界互联网大会和浙江省人民政府共同主办的2024年世界互联网大会“互联网之光”博览会在乌镇盛大开幕。本届博览会设置了五大活动板块,包括展览展示、
2025-01-15 10:48:35
AI造谣乱象“野蛮生长”?专家:可设置敏感关键词禁止生成显著违法信息内容
央广网北京11月19日消息(记者王迟)近年来,人工智能(AI)技术发展迅速,成为全球科技领域的热点。AI已经从单纯的学术研究发展成为改变人类生活方式的重要力量。然而,却有一些别有用心之人将其变为造谣、敛财
2025-01-15 10:28:26
“互联网之光”博览会今天开幕全面聚焦人工智能
作为2024年世界互联网大会乌镇峰会的重要活动之一,今天上午,“互联网之光”博览会正式开幕。在2024年世界互联网大会“互联网之光”博览会的现场,记者看到,“互联网之光”的开幕式就在这里进行。今年,“互联网之光”
2025-01-15 10:08:24
探营世界互联网大会“互联网之光”博览会:看AI如何打败AI
上传一张照片,就能利用AI技术鉴别照片是不是其他AI的伪造品;不法分子使用了AI换脸技术,也能被AI精准识破。11月19日,2024年世界互联网大会乌镇峰会开幕,人工智能再次成为热议话题。在“互联网之光”博览会的蚂
2025-01-15 09:48:17
你会给AI署名吗?
近日,微信公众号封面图已经可以在后台选择AI生成,AI作为工具,在新闻人工作场景中的使用也越来越普及。那么,AI生成的插图需要署名吗?新闻产品中AI的运用,该如何拥有姓名?01是否署名成行业分歧你有没有发现
2025-01-15 09:28:08
今日热榜
语文学习新解法:海豚AI学用科技因材施教
2025-01-06 17:23:58马来西亚设立国家人工智能办公室
2024-12-19 16:44:28通用人工智能,是个啥智能?
2025-01-06 17:44:07谷歌发布新一代人工智能技术
2024-12-19 16:43:53聚焦人工智能、区块链、量子科技等9大前沿领域,2024年上海市产业青年创新大赛颁奖大会在静安举行
2024-12-19 17:08:14花6.5万元购“AI数字人”直播带货被禁播?买家能解约吗?法院
2024-12-19 21:30:55通用人工智能国赛为何连续两年落地安徽?
2024-12-19 23:31:31新华网评:AI技术不应用来造谣生事
2024-12-20 06:52:57首部《中国通用人工智能发展报告》蓝皮书发布
2024-12-20 13:34:15欧盟《人工智能法案》生效在即
2024-12-20 14:14:25热门推荐