徐小妙儿2024年10月13日发布:Scaling Law瓶颈,Curor编程为什么这么强?新研究掏出秘密武器

⭐发布日期:2024年10月13日 | 来源:徐小妙儿

⭐作者:姬麒麟 责任编辑:Admin

⭐阅读量:408 评论:7人

【2024年今晚澳门特马开奖结果】

【2024香港开奖结果今开奖结果记录】

【2024澳门开什么特马】 【2024新澳门天天开好彩大全】 【澳最新开门奖历史记录】 【2024新奥正版资料免费提供】 【香港资料正版大全2024】 【2024今晚香港开特马37期】 【澳门今晚开奖结果是什么香】 【2024新奥马新免费资料】
【2024新澳精准资料大全】 【今晚新澳门特马开什么生肖】 【澳门特马今天开奖结果】 【2024年新澳开奖记录】 【新澳门精准资料大全管家婆料】 【7777788888新澳门正版】 【494949开奖结果最快】 【2024澳门码今晚开奖结果】

机器之心报道

编辑:Panda、佳琪

近段时间,AI 编程工具 Cursor 的风头可说是一时无两,其表现卓越、性能强大。近日,Cursor 一位重要研究者参与的一篇相关论文发布了,其中提出了一种方法,可通过搜索自然语言的规划来提升 Claude 3.5 Sonnet 等 LLM 的代码生成能力。

具体来说,他们提出的方法名为 PlanSearch(规划搜索)。主导团队是 Scale AI,本文一作为 Scale AI 研究者 Evan Wang。二作 Federico Cassano 现已加入如今炙手可热的 AI 编程工具公司 Cursor。他曾参与创立了 GammaTau AI 项目,该项目的目标是实现 AI 编程的民主化。此外,他也是 BigCode 项目的活跃贡献者,该项目负责开发用于 AI 编程的 StarCoder 系列大型语言模型。

  • 论文标题:Planning In Natural Language Improves LLM Search For Code Generation
  • 论文地址:https://arxiv.org/pdf/2409.03733

论文开篇,该团队提到强化学习教父 Sutton 的经典文章《The Bitter Lesson(苦涩的教训)》揭示的 Scaling Law 的两大核心原则:学习和搜索。随着大型语言模型的迅猛发展,人们对于「学习」是否有效的疑虑已基本消除。然而,在传统机器学习领域中表现出色的「搜索」策略,将如何拓展大模型的能力,还是个未知数。

目前阻碍模型应用「搜索」的主要难题是模型给出的答案过于雷同,缺乏多样性。这可能是由于在预训练的基础上,模型会在特定的数据集上进行进一步的训练,以适应特定的应用场景或任务所导致的。

经过大量实证研究证明,许多大语言模型往往会被优化,以产生一个正确的答案。比如下图中所示,
DeepSeek-Coder-V2-Lite-Base 的表现不如其基础模型,但随着回答的多样性的减少,情况发生了逆转。多个模型都存在这种现象:经过特别指令调整的模型在只生成一个答案的情况下(pass@1)通常比基础模型表现得好很多,但当需要生成多个答案时,这种优势就不明显了 —— 在某些情况下,甚至完全相反。

模型在生成答案时缺乏多样性,这对于搜索的效果非常不利。特别是在极端情况,比如采用「贪心解码」,模型给出的答案会非常相似,因为它们是从模型中重复抽取的。这种情况下,即使模型花费更多推理时间,也难以获得更好的搜索结果。

通行的大模型排行榜,例如例如 LMSYS Chatbot Arena、LiveCodeBench、OpenLLMLeaderboard,很难反应模型在回答多样性方面的不足。这些排行榜主要关注模型在单一样本上的通过率,没有考虑到模型在更广泛场景下的表现。由于模型需要很快地响应用户的需求,单一样本的回答质量是衡量一个聊天机器人的关键指标,但这一指标并不足以全面评估模型在允许更充裕推理时间时的综合性能。

针对以上问题,研究人员对如何在大语言模型推理过程中提高回答的多样性进行了探索。对此,他们提出了假设,想让模型输出的答案更加丰富,需要在自然语言的概念或想法的空间内进行搜索。

为了验证这个假设,研究人员进行了一系列实验。首先,研究人员发现,如果给模型一些简单的草图(这些草图是从已经能解决问题的代码中「回译」而来),模型就能根据这些草图写出正确的最终程序。其次,研究人员还发现,如果让模型在尝试解决问题之前,先在 LiveCodeBench 上想出一些点子(这个过程叫做 IdeaSearch / 思路搜索),然后看看模型能不能用这些点子解决问题。

结果发现,模型要么完全解决不了问题(准确度为 0%),要么就能完美解决问题(准确度为 100%)。这表明当模型尝试解决一个问题时,成功与否主要取决于它最初的那个想法(草图)对不对。

根据这两个实验的结果,研究人员认为一种提升 LLM 代码搜索能力的自然方法是:搜索正确的思路,然后实现它!

于是,规划搜索(PlanSearch)方法诞生了。

不同于之前的搜索方法(通常是搜索单个 token、代码行甚至整个程序)不一样,规划搜索是搜索解决当前问题的可能规划。这里,规划(plan)的定义是:有助于解决某个特定问题的高层级观察和草案的集合。

为了生成新规划,规划搜索会生成大量有关该问题的观察,然后再将这些观察组合成用于解决问题的候选规划。

这个操作需要对生成的观察的每个可能子集都执行,以最大化地鼓励在思路空间中进行探索,之后再将结果转译成最终的代码解决方案。

该团队的实验发现,在推理时有效使用计算方面,规划搜索方法优于标准的重复采样方法以及直接搜索思路的方法。

方法

在这项研究中,该团队探索了多种不同方法,包括重复采样(Repeated Sampling)、思路搜索(IdeaSearch)以及新提出的规划搜索(PlanSearch)。其中前两种方法顾名思义,比较直观,这里我们重点关注新提出的规划搜索。

该团队观察到,虽然重复采样和思路搜索能成功地提升基准评测的结果。但在很多案例中,多次提示(pass@k)(即使在温度设置很高)只会导致输出代码发生很小的变化,这些变化只会改变一些小方面,但无法改善思路中的缺陷。

下面来看具体的规划搜索过程:

1. 通过提示来获取观察

首先假设有一个问题陈述 P,通过向 LLM 发送提示词来获取对该问题的「观察」/ 提示。这里将这些观察记为 O^1_i,其中 i ∈ {1, . . . , n_1};这是因为它们是一阶观察。通常而言,n_1 的数量级在 3 到 6 之间。具体数量取决于 LLM 输出。为了利用这些观察结果来启发未来的思路,该团队创建了 O^1_i 的集合 S^1 的且大小至多为 2 的所有子集。其中每个子集都是观察结果的一个组合。这里将每个子集记为 C^1_i,其中 i ∈ {1, . . . , l_1},而

2. 推导新的观察

这样一来,所有观察结果的集合都可以定义为深度为 1 的有向树,其中根节点为 P,并且每个 C^1_i 都有一条从 P 指向 C^1_i 的边。

然后,在每个叶节点 C^1_i 上重复上一步流程,从而生成一个二阶观察集 S^2。为了得到二阶观察,该团队的做法是在给模型的提示词中包含原始问题 P 和 C^1_i 中包含的所有观察 —— 这些观察被构造为解决 P 所必需的原始观察。然后再提示 LLM,让其使用 / 合并在 C^1_i 中找到的观察来得出新的观察。

这个过程可以继续延伸,但由于计算限制,这里在深度为 2 时对该树进行了截断操作。

3. 将观察变成代码

在得到了观察之后,必须先将它们实现成具体思路,然后再将它们转译成代码。

具体来说,对于每个叶节点,将所有观察以及原始问题 P 放入提示词来调用 LLM,以便生成问题 P 的自然语言解决方案。为了提升多样性,对于每个生成的思路,该团队通过假设该思路是错误的来生成一个额外的思路,并要求 LLM 给出批评 / 反馈,从而将提议的思路翻倍了。

然后,再将这些自然语言解决方案转译成伪代码;再把这些伪代码转译成真正的 Python 代码。

实验

实验采用了三个评估基准:MBPP+、HumanEval+ 和 LiveCodeBench。参数设置等细节请参阅原论文。

至于结果,该团队报告了三种方法的结果,包括重复采样、思路搜索和规划搜索,见表 1、图 1 和图 5。

可以看到,规划搜索和思路搜索的表现明显优于基础的采样方法,其中规划搜索方法在所有实验方法和模型上都取得了最佳分数。

图 7、8、9 展示了在每个数据集上的详细 pass@k 结果。

可以看到,在 Claude 3.5 Sonnet 上使用规划搜索方法时,在 LiveCodeBench 基准上得到了当前最佳的 pass@200 性能:77.0%。该表现优于不使用搜索时获得的最佳分数(pass@1 = 41.4%)以及标准的 best-of-n 采样方法的分数(pass@200 = 60.6%)。

此外,使用小型模型(GPT-4o-mini)执行规划搜索时,仅仅 4 次尝试后就能胜过未使用搜索增强的大型模型。这佐证了近期一些使用小模型进行搜索的有效性的研究成果。

在另外两个编程基准 HumanEval+ 和 MBPP+ 上,规划搜索也能带来类似的提升。

通过研究特定模型的差异,该团队注意到 pass@k 曲线所呈现的趋势在所有模型中并不统一;事实上,每条曲线看起都不一样。该团队猜想部分原因是思路多样性的变化。

该团队还得到了一个有趣的观察结果:规划搜索并不利于某些模型的 pass@1 指标,其中最明显的是 Sonnet 3.5 在 LiveCodeBench 上的表现 —— 这是实验中表现最好的组合。

该团队基于直觉给出了解释:提升思路多样性可能会降低生成任何特定思路的概率,同时增加在给定池中至少有一个正确思路的几率。因此,pass@1 可能会略低于平常,但也正是由于这个原因,pass@k 指标可能会优于缺乏多样性的思路池。

另外,表 1 和图 1 给出了在尝试 / 完成上经过归一化的主要结果。其中针对每个问题,每种搜索方法都可以尝试 k 次。

最后,该团队还发现,在思路空间中观察到的多样性可用于预测搜索性能,这可通过模型 / 方法的 pass@1 与其 pass@200 之间的相对改进计算得到,如图 6 所示。

虽然熵是最常见的多样性度量是,但由于种种原因,熵不足以精确衡量 LLM 的多样性。

因此,该团队测量多样性的做法是在所有生成的程序上使用简单的配对策略,将其置于思路空间中进行计算。具体算法请访问原论文。

【2024年澳门资料冷门号码】 【二四六香港内部资料期期准】
【澳门码今晚开的什么】 【新澳2024资料免费大全】
【香港开彩开奖+结果记录】 【4949澳门开奖现场开奖直播】
【2024天天彩资料大全免费】 【香港今晚六给彩开奖结果八十九期】
【新澳门最新快资料】 【2024管家婆奥门开桨结果】
【2024年新奥门开奖结果】 【2024澳门免费最准资料】 【一肖一码100准管家婆】
上一条新闻 下一条新闻

推荐文章

发表评论

刘志龙

6秒前:将观察变成代码在得到了观察之后,必须先将它们实现成具体思路,然后再将它们转译成代码。

IP:70.48.9.*

伊登·黑赫斯特

7秒前:通行的大模型排行榜,例如例如 LMSYS Chatbot Arena、LiveCodeBench、OpenLLMLeaderboard,很难反应模型在回答多样性方面的不足。

IP:66.12.7.*

雯昭

3秒前:通过提示来获取观察首先假设有一个问题陈述 P,通过向 LLM 发送提示词来获取对该问题的「观察」/ 提示。

IP:76.32.5.*

徐小妙儿APP介绍

APP图标

新澳今天最新资料APP名:徐小妙儿

版本:V1.45.167

更新时间:2024-10-12 19:19

2024今晚新澳门开奖结果这是一个功能强大的澳新彩近39期开奖记录APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:03733论文开篇,该团队提到强化学习教父 Sutton 的经典文章《The Bitter Lesson(苦涩的教训)》揭示的 Scaling Law 的两大核心原则:学习和搜索。

2024澳门今天晚上开什么生肖APP介绍

APP图标

2024新澳正版免费资料大全APP名:徐小妙儿

版本:V2.12.326

更新时间:2024-10-12 24:18

无论是2024澳门特马今晚开奖现场回放快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

新澳好彩免费资料查询石狮APP介绍

APP图标

新澳2024年精准资料期期APP名:徐小妙儿

版本:V1.41.299

更新时间:2024-10-12 15:14

新奥资料免费精准2024应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

2024年的澳门开奖APP介绍

APP图标

最新澳门开奖结果开奖APP名:徐小妙儿

版本:V3.38.374

更新时间:2024-10-12 20:21

2024新澳最新开奖结果查询这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

六开彩澳门开奖结果查询APP介绍

APP图标

澳门2024开奖最新开奖结果查询APP名:徐小妙儿

版本:V8.37.662

更新时间:2024-10-12 15:23

这是一款功能强大的今晚澳门特马开的什么号码应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:.。无论是获取信息还是提升效率,这款APP都是您理想的助手。

.2024新澳门特马今晚开奖APP介绍

APP图标

澳门今晚开码开什么号APP名:徐小妙儿

版本:V6.44.470

更新时间:2024-10-12 17:21

这是一款功能强大的2024澳门天天六开好彩应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:其中每个子集都是观察结果的一个组合。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

2024年新奥门开奖结果查询APP介绍

APP图标

新澳开奖结果记录史免费APP名:徐小妙儿

版本:V1.23.143

更新时间:2024-10-12 16:23

这是一款功能强大的新澳历史开奖记录查询结果应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:.,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

管家婆一肖一码最准资料公开APP介绍

APP图标

澳门6合开奖直播APP名:徐小妙儿

版本:V7.45.360

更新时间:2024-10-12 17:18

今天的最新动态包括:其中前两种方法顾名思义,比较直观,这里我们重点关注新提出的规划搜索。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

2024澳门特马今晚开奖38期APP介绍

APP图标

2024澳门马会资料大全APP名:徐小妙儿

版本:V4.33.438

更新时间:2024-10-12 24:23

这是一款功能强大的新澳好彩免费资料查询小龙女应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:为了验证这个假设,研究人员进行了一系列实验。。

2024新澳今晚资料66期APP介绍

APP图标

2024今晚澳门开特马APP名:徐小妙儿

版本:V8.86.504

更新时间:2024-10-12 24:22

这款功能强大的2024年香港今晚开奖结果查询表应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

2024年澳门开奖结果APP介绍

APP图标

2024年新澳门今APP名:徐小妙儿

版本:V8.11.977

更新时间:2024-10-12 14:14

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

2024年香港开奖结果记录APP介绍

APP图标

新奥门开奖结果2024APP名:徐小妙儿

版本:V1.42.856

更新时间:2024-10-12 14:16

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。