Nature:大模型公司的“开源洗白”,严重阻碍科学可重复性和创新

⭐发布日期:2024年10月10日 | 来源:西瓜视频

⭐作者:薛·米契尔 责任编辑:Admin

⭐阅读量:306 评论:2人

【Ww77766开奖码】

【2024澳门码今晚开奖结果记录】

【澳门管家婆-肖一码】 【2024澳门天天开彩开奖结果查询】 【2024演门精准正版资料】 【2024年澳门六开彩开奖结果查询】 【今晚澳门天天开彩免费】 【澳门今晚开奖结果是什么优势】 【新澳门开奖结果澳门开奖结果】 【2024香港今期开奖号码马会2024年第39期开奖结果】
【新澳免费资料大全精准版】 【澳门彩资料】 【2024澳门今天晚上开什么生肖啊】 【新澳天天开奖资料大全三中三】 【2024澳门今天晚上开什么生肖】 【2024年新澳门王中王资料】 【刘伯温四肖八码期期准精选风险】 【澳门今一必中一肖一码西肖】

【编者按】科技巨头所声称的开源 AI 模型,是否是真正意义上的开源模型?近期 Nature 上的一篇报道或许可以给我们一些启示。


日前,Nature 杂志编辑 Elizabeth Gibney 刊文深入分析了大语言模型(LLM)的透明度和开放性,揭示了所谓的“开源”背后隐藏的问题。


作者指出,许多声称开源的 AI 模型,实际上在数据和训练方法上并不透明,无法满足真正的科学研究需求。这种“开源洗白”(open-washing)现象严重阻碍了科学的可重复性和创新。


通过对多种模型的详细评估,文章提出了一份开放性排行榜,揭示了当前 AI 开源的现状。尤其值得关注的是,一些小型公司和研究团队在有限资源下,反而表现出了更高的透明度和开放性。


在这个 GenAI 时代,真正的开源不仅仅是代码的开放,更是数据、训练方法和模型细节的全面透明。这不仅是为了科学的进步,也是为了确保 AI 技术在社会中的负责任应用。


学术头条在不改变原文大意的情况下,做了简单的编译。内容如下:


许多支持聊天机器人的 LLM 被声称是开源的,但限制了对代码和训练数据的访问。


分析了许多流行聊天机器人模型的研究人员表示,像 Meta 和微软这样的科技巨头将他们的 AI 模型描述为“开源”,但未能披露有关底层技术的重要信息。


关于 AI 模型的开源定义尚未达成一致,但支持者表示,“完全”开源有助于科学研究,并且让 AI 更加负责任也至关重要。当欧盟的人工智能法案生效时,什么算作开源可能会变得更加重要。该立法将对被归类为开源的模型实施不那么严格的监管。


一些大公司声称拥有开源模型,并从中获益,但试图“尽可能少地披露信息”,荷兰奈梅亨拉德堡德大学的语言科学家 Mark Dingemanse 说。这种做法被称为“开源洗白”。


Dingemanse 和他的同事、计算语言学家 Andreas Liesenfeld 一起创建了一个排行榜,列出了开源最多和开源最少的模型(见表)。Dingemanse 说:“令我们惊讶的是,资源相对较少的小公司却开源更多。” 他们的研究结果于 6 月 5 日发表在 2024 ACM FAccT 的会议论文集中(见表)。



开源模型到底有多“开源”?


两位语言科学家评估了各种聊天机器人模型的不同组件是否是开源(✔)、部分开源(~)或闭源(X)。


都柏林圣三一学院(Trinity College Dublin)的认知科学家、位于加州 Mountain View 的非营利组织 Mozilla Foundation 的人工智能问责顾问 Abeba Birhane 表示,这项研究消除了“围绕当前开源辩论的许多炒作和废话”。



什么是开源?


“开源”一词来源于软件领域,意指可以访问源代码且对程序的使用或发行没有限制。但考虑到大型 AI 模型的复杂性和涉及的数据量庞大,使它们开源远非易事,专家们仍在努力定义开源 AI。Dingemanse 表示,将模型所有方面开源对于公司来说并不总是可取的,因为这可能会使它们面临商业或法律风险。其他人也认为,完全自由地发布模型有被滥用的风险。


但被贴上开源的标签也能带来巨大好处。开发者通过展示自己严谨和透明的形象,已经可以获得公共关系的回报,而且很快会产生法律上的影响。今年通过的欧盟人工智能法案将免除一定规模的开源通用模型的广泛透明度要求,并让它们承担较少的义务,目前这些义务尚未定义。Dingemanse 说:“公平地说,在受欧盟人工智能法案管辖的国家,‘开源’一词将具有前所未有的法律权重。”


在他们的研究中,Dingemanse 和 Liesenfeld 评估了40个大语言模型(LLM)——这些系统通过在大量数据中进行词语和短语之间的关联来学习生成文本。所有这些模型都声称是“开源”或“开放”的。他们通过评估模型在代码和训练数据的可用性、发布的文档内容以及模型的易访问性等14个参数,制作了一个开放性排行榜。对于每个参数,他们判断这些模型是开源的、部分开源的还是闭源的。


专注于开源技术的伦敦非营利公司OpenUK的首席执行官Amanda Brock表示,这种分析开源的滑动尺度方法非常实用。


研究人员发现,许多声称是开放或者开源的模型——包括Meta的Llama和Google DeepMind的Gemma——实际上只是“开放权重”(open weight)。


这意味着外部研究人员可以访问和使用这些训练过的模型,但不能检查或自定义它们。他们也无法完全了解这些模型是如何针对特定任务进行微调的;例如,使用人类反馈。Dingemanse说:“你并没有开源太多……然后你就能获得开源的信誉。”


作者们表示,特别令人担忧的是,模型训练数据不是透明的。他们表示,在他们分析的模型中,大约有一半没有提供关于数据集的详细信息,仅有泛泛的描述。


谷歌发言人表示,公司对描述模型使用的语言“非常精准”,选择将其Gemma大型语言模型标为开放而非开源。“现有的开源概念并不总是能直接应用于AI系统”,他们补充道。微软的发言人称,公司试图“尽可能准确地描述可用的内容及其程度”。“我们选择公开模型、代码、工具和数据集等材料,因为开发者和研究社区在推动AI技术进步方面发挥着重要作用。”Meta未回应Nature的评论请求。


分析发现,小型公司和研究团队制作的模型往往比大科技公司制作的模型更开源。作者们以由一个国际性、主要是学术合作项目构建的BLOOM为例,强调它是一个真正开源的AI。



同行评审“过时了”


他们发现,详细介绍这些模型的科学论文极其罕见。同审评审似乎“几乎完全过时了”,被挑选案例的博客文章或缺乏细节的公司预印本所取代。Dingemanse说,公司“可能会在其网站上发布一篇看起来很炫的论文,表面上看起来非常技术化。但是如果你仔细阅读,根本没有任何关于该系统使用了哪些数据的具体说明。”


目前尚不清楚这些模型中有多少符合欧盟对开源的定义。根据该法案,开源指的是在“自由和开放”的许可下发布的模型,例如允许用户修改模型,但对访问训练数据没有任何规定。该论文指出,细化这一定义可能会成为“企业游说和大公司瞄准的一个焦点”。


Dingemanse表示,开放性对科学发展很重要,因为它对可重复性至关重要。“如果你无重复它,那就很难称之为科学,”他说。研究人员创新的唯一方法是通过调整模型来实现,而要做到这一点,他们需要足够的信息来构建自己的版本。


不仅如此,模型还必须接受审查。Dingemanse说:“如果我们无法了解内部运作,我们也不知道是否应该对此印象深刻。”例如,如果一个模型通过了某个特定测试,但它是通过大量训练测试样本实现的,那就不算是一个成就。而且没有数据问责制,没人知道是否使用了不当或有版权的数据,他补充道。


Liesenfeld说,他们希望帮助同行科学家在寻找用于教学和研究的模型时,避免“陷入我们曾经陷入的同样陷阱”。


原文链接:

https://www.nature.com/articles/d41586-024-02012-5

【2024澳门天天开好彩大全免费】 【新澳天天开奖资料大全最新】
【2024年天天开好彩资料】 【新澳天天开奖资料大全最新54期】
【2024澳门天天开好彩大全53期】 【澳门天天开彩期期精准】
【2024全年资料免费大全】 【新澳天天开奖资料大全】
【澳门内部最精准免费资料】 【2024澳门天天开好彩大全】
【2024年新奥门天天开彩免费资料】 【新澳2024今晚开奖资料】 【澳门六开奖结果】
上一条新闻 下一条新闻

推荐文章

发表评论

李舜弦

2秒前:分析了许多流行聊天机器人模型的研究人员表示,像 Meta 和微软这样的科技巨头将他们的 AI 模型描述为“开源”,但未能披露有关底层技术的重要信息。

IP:89.88.4.*

王易从

8秒前:Dingemanse说,公司“可能会在其网站上发布一篇看起来很炫的论文,表面上看起来非常技术化。

IP:47.22.4.*

克里斯蒂娜·科尔

9秒前:一些大公司声称拥有开源模型,并从中获益,但试图“尽可能少地披露信息”,荷兰奈梅亨拉德堡德大学的语言科学家 Mark Dingemanse 说。

IP:20.97.2.*

西瓜视频APP介绍

APP图标

2024白小姐一肖一码今晚开奖APP名:西瓜视频

版本:V7.99.970

更新时间:2024-10-09 15:15

一肖一码精准这是一个功能强大的70349.com新奥门APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:该立法将对被归类为开源的模型实施不那么严格的监管。

2024新澳三期必出一肖APP介绍

APP图标

2024澳门天天六开彩结果APP名:西瓜视频

版本:V1.29.610

更新时间:2024-10-09 22:22

新澳门六开彩开奖结果近15期这是一个功能强大的新澳门六会精准免费开奖APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:今年通过的欧盟人工智能法案将免除一定规模的开源通用模型的广泛透明度要求,并让它们承担较少的义务,目前这些义务尚未定义。

新澳天天彩免费资料APP介绍

APP图标

白小姐三肖必中生肖开奖号码刘佰APP名:西瓜视频

版本:V7.25.211

更新时间:2024-10-09 14:14

新澳新澳门正版资料这是一个功能强大的澳门4949开奖现场直播+开APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:Dingemanse表示,开放性对科学发展很重要,因为它对可重复性至关重要。

香港正版308兔费资料APP介绍

APP图标

新澳门最新开奖记录大全优酷APP名:西瓜视频

版本:V9.94.190

更新时间:2024-10-09 13:23

澳门开奖网站这是一个功能强大的澳门开奖4949.885cbmAPP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:所有这些模型都声称是“开源”或“开放”的。

香港二四六开奖资料大全2022年APP介绍

APP图标

香港澳门彩开奖结果查询记录APP名:西瓜视频

版本:V1.59.776

更新时间:2024-10-09 18:15

澳门4949开什么这是一个功能强大的新奥彩2024历史开奖记录查询大全表格APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:Dingemanse 表示,将模型所有方面开源对于公司来说并不总是可取的,因为这可能会使它们面临商业或法律风险。

2024澳门天天六开彩开奖结果APP介绍

APP图标

澳门六开奖结果2023开奖记录查询网站APP名:西瓜视频

版本:V6.44.137

更新时间:2024-10-09 17:16

新奥门资料大全正版资料2023这是一个功能强大的澳门100%最准一肖一码APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:”在他们的研究中,Dingemanse 和 Liesenfeld 评估了40个大语言模型(LLM)——这些系统通过在大量数据中进行词语和短语之间的关联来学习生成文本。

香港内部资料精准大全APP介绍

APP图标

2024今晚澳门开特马开49图库APP名:西瓜视频

版本:V8.92.426

更新时间:2024-10-09 20:14

新澳精准资料免费提供网站有哪些这是一个功能强大的2024新澳门天APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:分析发现,小型公司和研究团队制作的模型往往比大科技公司制作的模型更开源。

香港4777777最快开码走势APP介绍

APP图标

新澳门特马今期开奖结果APP名:西瓜视频

版本:V5.33.455

更新时间:2024-10-09 24:18

2024新奥开奖记录这是一个功能强大的澳门4949彩论坛高手APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:” 他们的研究结果于 6 月 5 日发表在 2024 ACM FAccT 的会议论文集中(见表)。