杭州网2024年10月13日发布:Nature重磅:大模型的谎言如何“破”?

⭐发布日期:2024年10月13日 | 来源:杭州网

⭐作者:奥托·法兰特 责任编辑:Admin

⭐阅读量:641 评论:9人

【新澳新澳门正版资料】

【澳门正版刘伯温资料网站】

【新澳六最准精彩资料】 【ww4949现场直播开奖】 【2024澳门开奖结果王中王】 【2023澳门天天开好彩大全】 【澳门天天最快开奖结果】 【十二生肖开奖结果今晚2024年】 【一肖一码一中一特】 【澳门管家婆免费开奖大全】
【奥门全年资料免费大全一】 【7777788888管家婆澳】 【老澳六开彩开奖号码记录】 【管家婆最快开奖结果】 【新澳门今晚开特马结果查询】 【澳门码开奖结果2024开奖记录】 【香港二四六开奖资料大全2022年】 【澳门六开彩今晚开奖结果查询表最新】

世界卫生组织(WHO)的人工智能健康资源助手 SARAH 列出了旧金山本不存在的诊所的虚假名称和地址。

Meta公司“短命”的科学聊天机器人 Galactica 凭空捏造学术论文,还生成关于太空熊历史的维基文章。

今年2月,加拿大航空被命令遵守其客户服务聊天机器人捏造的退款政策

去年,一名律师因提交充满虚假司法意见和法律引用的法庭文件而被罚款,这些文件都是由 ChatGPT 编造的。

……

如今,大语言模型(LLM)胡编乱造的例子已屡见不鲜,但问题在于,它们非常擅长一本正经地胡说八道,编造的内容大部分看起来都像是真的,让人难辨真假。

在某些情况下,可以当个乐子一笑而过,但是一旦涉及到法律、医学等专业领域,就可能会产生非常严重的后果

如何有效、快速地检测大模型的幻觉(hallucination),已成为当前国内外科技公司和科研机构竞相关注的热门研究方向。

如今,牛津大学团队提出的一种新方法便能够帮助我们快速检测大模型的幻觉——他们尝试量化一个LLM产生幻觉的程度,从而判断生成的内容有多忠于提供的源内容,从而提高其问答的准确性

研究团队表示,他们的方法能在LLM生成的个人简介,以及关于琐事、常识和生命科学这类话题的回答中识别出“编造”(confabulation)。

该研究意义重大,因为它为检测 LLM 幻觉提供了一种通用的方法,无需人工监督或特定领域的知识。这有助于用户了解 LLM 的局限性,并推动其在各个领域的应用。

相关研究论文以“Detecting Hallucinations in Large Language Models Using Semantic Entropy”为题,已发表在权威科学期刊 Nature 上。

在一篇同时发表的“新闻与观点”文章中,皇家墨尔本理工大学计算机技术学院院长Karin Verspoor教授指出,该任务由一个LLM完成,并通过第三个LLM进行评价,等于在“以毒攻毒”

但她也写道,“用一个 LLM 评估一种基于LLM的方法似乎是在循环论证,而且可能有偏差。”不过,作者指出他们的方法有望帮助用户理解在哪些情况下使用LLM 的回答需要注意,也意味着可以提高LLM在更多应用场景中的可信度。

如何量化 LLM 的幻觉程度?

我们先来了解一下,大模型的幻觉是如何产生的。

LLM的设计初衷是生成新内容。当你问聊天机器人一些问题时,它的回答并不是全部从数据库中查找现成的信息,也需要通过大量数字计算生成。

这些模型通过预测句子中的下一个词来生成文本。模型内部有成千上亿个数字,就像一个巨大的电子表格,记录了词语之间的出现概率。模型训练过程中不断调整这些数值,使得它的预测符合互联网海量文本中的语言模式。

因此,大语言模型实际上是根据统计概率生成文本的“统计老虎机”,摇杆一动,一个词便出现了。

现有的检测 LLM 幻觉的方法大多依赖于监督学习,需要大量的标注数据,且难以泛化到新的领域。

在这项研究中,研究团队使用了语义熵的方法,该方法无需标注数据,且在多个数据集和任务上表现出色。

语义熵(semantic entropy)是一种衡量语言模型生成的文本中潜在语义不确定性的方法,通过考虑词语和句子在不同上下文中的意义变化来评估模型预测的可靠性。

该方法能检测“编造”(confabulation)——这是“幻觉”的一个子类别,特指不准确和随意的内容,常出现在LLM缺乏某类知识的情况下。这种方法考虑了语言的微妙差别,以及回答如何能以不同的方式表达,从而拥有不同的含义。

图|语义熵与虚构内容检测简述

如上图所示,传统的基于熵的不确定性度量在精确答案的识别上存在局限,例如,它将“巴黎”、“这是巴黎”和“法国的首都巴黎”视为不同答案。然而,在涉及语言任务时,这些答案虽表述不同但意义相同,这样的处理方式显然不适用。语义熵方法则在计算熵之前,先将具有相同意义的答案进行聚类。低语义熵意味着大语言模型对其内容含义具有很高的确定性。

另外,语义熵方法还能有效检测长段落中的虚构内容。研究团队首先将生成的长答案分解为若干小事实单元。随后,针对每个小事实,LLM 会生成一系列可能与之相关的问题。然后,原LLM会为这些问题提供M个潜在答案。接着,研究团队计算这些问题答案的语义熵,包括原始的小事实本身。高平均语义熵表明与该小事实相关的问题可能存在虚构成分。在这里,由于即使用词差异显著,但生成的答案通常传达相同意义,语义熵成功将事实1分类为非虚构内容,而传统的熵方法则可能忽略这一点。

研究团队主要在以下两个方面对比了语义熵与其他检测方式的差别。

1.检测问答和数学问题中的虚构内容

图|检测句子长度生成中的虚构内容。

从上图中可以看出,语义熵优于所有基线方法。在 AUROC 和 AURAC 两个指标上,语义熵均展现了更好的性能,这表明其能够更准确地预测 LLM 错误,并提高模型拒绝回答问题时的准确率。

2.检测传记中的虚构内容

图|检测段落长度传记中的 GPT-4 虚构内容。

如上图所示,语义熵估计器的离散变体在 AUROC 和 AURAC 指标(在 y 轴上得分)上均优于基线方法。AUROC 和 AURAC 都明显高于两个基线。在回答超过 80% 的问题时,语义熵的准确性更高。只有当拒绝最有可能是虚构内容的前 20% 答案时,P(True) 基线的剩余答案准确性才好于语义熵。

不足与展望

研究团队提出的概率方法充分考虑了语义等价性,成功识别出一类关键的幻觉现象——即由于 LLM 知识缺乏而产生的幻觉。这类幻觉构成了当前众多失败案例的核心,且即便模型能力持续增强,由于人类无法全面监督所有情境和案例,这类问题仍将持续存在。虚构内容在问答领域中尤为突出,但同样在其他领域也有所体现。

值得注意的是,该研究使用的语义熵方法无需依赖特定的领域知识,预示着在抽象总结等更多应用场景中也能取得类似的进展。此外,将该方法扩展到其他输入变体,如重述或反事实情景,不仅为交叉检查提供了可能,还通过辩论的形式实现了可扩展的监督。这表明该方法具有广泛的适用性和灵活性。语义熵在检测错误方面的成功,进一步验证了LLM在“知道自己不知道什么”方面的潜力,实际上可能比先前研究所揭示的更为出色。

然而,语义熵方法主要针对由 LLM 知识不足导致的幻觉,比如无中生有或张冠李戴,对于其他类型的幻觉,比如由训练数据错误或模型设计缺陷导致的幻觉,可能效果不佳。此外,语义聚类过程依赖于自然语言推理工具,其准确性也会影响语义熵的估计。

未来,研究人员希望进一步探索语义熵方法在更多领域的应用,并与其他方法相结合,从而提高 LLM 的可靠性和可信度。例如,可以研究如何将语义熵方法与其他技术,比如与对抗性训练和强化学习相结合,从而进一步提高 LLM 的性能。此外,他们还将探索如何将语义熵方法与其他指标相结合,从而更全面地评估 LLM 的可信度。

但需要我们意识到的是,只要 LLM 是基于概率的,其生成的内容中就会有一定的随机性。投掷100个骰子,你会得到一个模式,再投一次,你会得到另一个模式。即使这些骰子像 LLM 一样被加权来更频繁地生成某些模式,每次得到的结果仍然不会完全相同。即使每千次或每十万次中只有一次错误,当你考虑到这种技术每天被使用的次数时,错误的数量也会相当多。这些模型越准确,我们就越容易放松警惕。

对于大模型的幻觉,你怎么看?

参考资料:

https://www.nature.com/articles/s41586-024-07421-0

https://www.technologyreview.com/2023/12/19/1084505/generative-ai-artificial-intelligence-bias-jobs-copyright-misinformation/

【20333管家婆一肖一码】 【澳门六开彩开奖结果开奖记录2024年】
【新奥门资料免费资料大全】 【澳门开奖结果查询今晚历史开奖】
【2024香港开奖结果今开奖结果记录】 【新澳门2024年开奖记录查询结果】
【2024年正版资料全年资料大全】 【今晚澳门特马开的什么号码2024】
【2024年澳门六今晚开奖结果】 【二四六澳门免费资料大全】
【www.49图库】 【澳门六开彩开奖结果号码直播】 【2024新澳门天天开好彩大全】
上一条新闻 下一条新闻

推荐文章

发表评论

刘屹宸

5秒前:这有助于用户了解 LLM 的局限性,并推动其在各个领域的应用。

IP:34.27.8.*

许姗

5秒前:在某些情况下,可以当个乐子一笑而过,但是一旦涉及到法律、医学等专业领域,就可能会产生非常严重的后果。

IP:30.50.2.*

孙蛟龙

3秒前:语义熵方法则在计算熵之前,先将具有相同意义的答案进行聚类。

IP:96.35.6.*

杭州网APP介绍

APP图标

香港管家婆资料大全一APP名:杭州网

版本:V7.59.479

更新时间:2024-10-12 20:24

澳门管家婆免费查询这是一个功能强大的2024澳门六开彩开奖结果直播APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:但需要我们意识到的是,只要 LLM 是基于概率的,其生成的内容中就会有一定的随机性。

新澳历史查询结果APP介绍

APP图标

澳门六开彩今年未开号码APP名:杭州网

版本:V2.50.751

更新时间:2024-10-12 23:22

无论是香港澳门6合开彩开奖网站记录快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

新澳天天开奖资料大全最新APP介绍

APP图标

澳门天天彩期期精准天天精准APP名:杭州网

版本:V9.85.478

更新时间:2024-10-12 16:14

管家婆精准一肖一码100%l?应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

新澳六开彩开奖结果近15期APP介绍

APP图标

澳门近15期开奖结果记录查询APP名:杭州网

版本:V2.19.384

更新时间:2024-10-12 16:20

2024澳门码今晚开奖结果记录这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

2024年新澳门六开彩天天开奖结果APP介绍

APP图标

2024老澳历史开奖记录今晚APP名:杭州网

版本:V7.11.294

更新时间:2024-10-12 23:13

这是一款功能强大的新澳门历史开奖结果近期十五号应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:即使这些骰子像 LLM 一样被加权来更频繁地生成某些模式,每次得到的结果仍然不会完全相同。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

新澳门开奖结果查询APP介绍

APP图标

新澳六开彩开奖号码记录APP名:杭州网

版本:V5.89.440

更新时间:2024-10-12 18:14

这是一款功能强大的澳门开奖结果+开奖记录澳应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:例如,可以研究如何将语义熵方法与其他技术,比如与对抗性训练和强化学习相结合,从而进一步提高 LLM 的性能。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

新澳门资料大全正版资料2023年免费APP介绍

APP图标

澳门一码中精准一码的投注技巧APP名:杭州网

版本:V3.98.781

更新时间:2024-10-12 13:14

这是一款功能强大的刘伯温四肖八码期期准选应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:去年,一名律师因提交充满虚假司法意见和法律引用的法庭文件而被罚款,这些文件都是由 ChatGPT 编造的。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

老澳门今期开奖结果查询APP介绍

APP图标

2024澳门天天六开彩免费APP名:杭州网

版本:V5.38.867

更新时间:2024-10-12 19:18

今天的最新动态包括:不足与展望研究团队提出的概率方法充分考虑了语义等价性,成功识别出一类关键的幻觉现象——即由于 LLM 知识缺乏而产生的幻觉。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

2024.085.澳门彩资料APP介绍

APP图标

2024澳门今天晚上开什么生肖啊APP名:杭州网

版本:V2.24.481

更新时间:2024-10-12 17:23

这是一款功能强大的2024年新澳门开奖结果应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:在这项研究中,研究团队使用了语义熵的方法,该方法无需标注数据,且在多个数据集和任务上表现出色。。

新澳资料免费最新APP介绍

APP图标

2024新澳门免费资料大全APP名:杭州网

版本:V2.23.600

更新时间:2024-10-12 21:13

这款功能强大的香港近15期历史开奖记录查询应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

管家婆精准一肖一码必中一肖APP介绍

APP图标

澳门天天开彩历史开奖记录查询APP名:杭州网

版本:V9.82.402

更新时间:2024-10-12 22:20

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

2024年今晚澳门特马APP介绍

APP图标

香港澳门6合开彩开奖结果查询APP名:杭州网

版本:V3.28.238

更新时间:2024-10-12 24:17

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。