为了账号安全,请及时绑定邮箱和手机立即绑定

揭秘AI透明度新范式:追踪语言模型输出的训练数据源头

语言模型从神秘的黑匣子转变为可信的工具,每个说法都能轻松验证。
想想看
你向一个大型语言模型提问,不仅会得到一个清晰的答案,还可以探索背后的训练数据。看看形成你回答的来源,透明且未被筛选。

想象一个世界,每个语言模型的回答都附带一个可点击的追踪链接,追溯到它被训练的数据。

不再有黑箱人工智能,不再对信息来源进行猜测。

这是最近研究中引入的一个开创性系统OLMoTrace,它可能彻底改变我们与AI互动的方式。

斯坦福大学、加州大学伯克利分校、华盛顿大学等的研究结果

如果这种方法变得普遍,它将开启一个更加透明的时代,让语言模型像可以自行验证引文的书一样开放。

这是朝着问责制迈出的一大步,类似于检索增强生成 (RAG) 和互联网搜索引擎提供链接到其来源引用,确保用户可以信任并追踪这些信息。

OLMOTRACE 是第一个能够实时追踪语言模型输出,追根溯源到其完整的数万亿令牌训练数据的系统。

在 playground 里,我查询了 OLMo 32B 模型,它给了我一个简短的答案。在底部窗口中,UI 提示我点击查看源数据或训练数据,这很可能是提供此信息的数据。

揭秘语言模型

它设计用来通过展示模型输出与训练数据的逐字匹配,来让语言模型变得更加透明,就像为AI提供一个参考文献列表一样。

追踪语言模型的输出源头到其训练数据很重要。

然而,需要注意的是,虽然RAG能够实时从外部数据库获取信息,OLMoTrace则主要依赖于预先存在的训练数据集,这可能会限制其范围,仅限于模型最初训练时的数据。

这两个系统都旨在让AI更加透明易懂,而OLMoTrace则更上一层楼,直接将输出与源头关联起来。

OLMo 2 模型系列包括具有 70 亿、130 亿和 320 亿参数量的版本。

这里有目前可用的一些模型:

该研究发现,OLMoTrace是首个能够实时追踪语言模型输出至其多万亿级的训练数据的系统。

它可以精确匹配模型说的话和它学习的文档内容,几秒钟内就能得到结果。

这是在炫耀技术吗?

有人可能会说,但它确实具有实际影响。例如,它可以通过揭示模型的输出是否基于其训练数据,还是已经偏离到胡言乱语领域,来帮助核实声明的真实性。

它也揭示了关于创造力的情况,展示了模型是在模仿数据还是在生成新内容。

OLMoTrace之所以突出,是因为它能增强用户的力量。

研究人员、记者,甚至是好奇的民众可以用来验证 AI 生成的信息,确保这些信息不仅看起来合理,而且确实是有据可查的。

这可能会成为游戏规则的改变者,用于打击虚假信息,因为用户可以追踪数字足迹来验证模型的主张是否经得起考验。除此之外,它还开启了研究AI行为的新方法,帮助开发者调整模型,使之更加准确和符合伦理。

在上方的窗口中,我选择了查看左侧的训练数据列表,这样我可以更深入地查看更详细的训练数据视图以及数据的网络链接。

系统的开源特性又是一个亮点

研究人员公开了OLMoTrace,邀请大家合作和实验,这可能会加快它在各行业的应用。

想象人工智能平台将这作为标准功能之一集成进来,每个聊天机器人的回复都带有“一个出处”按钮。这符合人们对人工智能越来越高的透明和负责任的需求。

当然了,将输出追溯到训练数据并不能保证真实性——训练数据集可能包含偏见和错误。

另外,系统的有效性还取决于数据的质量和多样性。

不过,OLMoTrace是向未来迈出的一大步,在这里,AI不仅回答问题,还能展示它的思考过程。

首席布道师@Kore.ai | 我热衷于研究人工智能与语言的交汇点。从语言模型、AI代理到代理应用,再到开发框架和数据驱动的生产力工具,我分享关于这些技术如何影响未来的见解和想法。点击这里了解更多关于我的文章和见解。

OLMoTrace:追踪语言模型的输出,回溯到其数万亿的训练标记。我们推出了OLMoTrace,第一个将语言模型输出回溯到其完整训练数据的系统。arxiv.org

你可以在这里找到AllenAI的互动平台: https://playground.allenai.org/

柯布斯·格雷林:AI与语言的交汇 | 语言模型,代理,代理应用,开发框架及数据驱动。

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消