阿里推出AI数据科学家,全流程自动化,科研小白也能用

⭐发布日期:2024年09月25日 | 来源:美食杰

⭐作者:克丽丝塔·B·艾伦 责任编辑:Admin

⭐阅读量:722 评论:6人

【2o24澳门正版精准资料】

【2024澳门资料大全免费新版】

【王中王免费资料大全料大全一一香港】 【2024年正版澳门资料免费大全】 【澳门今一必中一肖一码一肖】 【二四六香港玄机资料大全】 【澳门三肖三码精准100%-码】 【澳门精准正版免费大全】 【澳门今晚必中一肖一码】 【澳门一肖一码100准免费资料】
【奥门第177期出什么肖】 【2024澳门资料免费大全十二生肖】 【2024香港正版挂牌】 【2024年奥门特马资料图59期】 【新澳六开合历史纪录】 【官老婆一码一肖资料免费大全】 【新澳门资料大全正版资料】 【2024管家婆资料正版大全澳门】

魔搭社区 投稿

量子位 | 公众号 QbitAI

基于开源Agent框架,可自动解决复杂数据科学问题的Agent来了!

具体来说,Data Science Assistant(以下称DS Assistant)是基于Modelscope-Agent框架开发的数据科学助手。

有了它,我们只需给需求,这个助手就能自己跑完探索性数据分析(EDA)、数据预处理、特征工程、模型训练,模型评估等步骤。

当然,除了本文将重点提到的DS Assistant,它背后的Modelscope-Agent框架也值得说道。

这个框架由阿里开源,主要特点包括:

可通过vllm、ollama等工具接入各主流开源模型,也可以直接调用模型API; 提供RAG组件支持开发者快速接入知识库; 工具生态丰富,支持大量的Modelscope社区模型作为工具,也支持直接调用langchain的工具,还接入了各类常用的工具,如web-browsing、文生图、code-interpreter等;

更妙的是,Modelscope-Agent框架允许开发者无需编码即可交互式地创建Agent助理。

这不,啪的一下,咱们的数据科学助手“诞生”了~

复杂数据科学任务自动化

实现复杂数据科学任务自动化一直存在挑战。

传统的ReAct(Reasoning and Action)框架对于简单的任务比较有效,但是有以下缺点:

每次工具调用都需要一个LLM调用。 LLM一次仅计划1个子问题。这可能会导致任务的轨迹更加不可控,因为它不会被迫“推理”整个任务。

而DS Assistant使用了plan-and-excute框架,这是一种新兴的Agent框架,通过明确计划和执行步骤高效完成复杂任务。

langchain官网对Plan-and-execute Agent的描述:https://blog.langchain.dev/planning-agents/

具体而言,其工作流程括以下几个步骤:

1、任务计划:Agent接收用户输入的任务描述,进行语义理解,将任务分解为多个可执行子任务。

2、子任务调度:基于任务之间的依赖关系和优先级,智能调度子任务的执行顺序。

3、任务执行:每个子任务分配给特定的模块执行。

4、结果整合:汇总各子任务的结果,形成最终输出,并反馈给用户。

基于上述框架,咱们接着看整个系统架构,DS Assistant整套系统有4个主要模块

先说右侧的DS Assistant,它作为整个系统的大脑,负责调度整个系统的运转。

Plan模块负责根据用户的需求生成一系列Task列表,并对Task先后顺序进行拓扑排序。

在这一阶段,DS Assistant根据用户输入的复杂数据科学问题,自动将其分解为多个子任务。

这些子任务根据依赖关系和优先级被组织和调度,确保执行顺序符合逻辑且高效。

接下来到了Execution模块,负责任务的具体执行,保存任务执行结果。

在这里,每个子任务被具体化为可执行的操作,如数据预处理、模型训练等。

最后是Memory management模块,负责记录任务中间执行结果,代码,数据详情等信息。

在所有Task执行完成后,DS Assistant会将中间数据的执行情况 ( 包括每个task生成的代码和结果,消耗token数,任务时间 ) 保存为文件。

案例实战

下面,我们以一个具体的例子来了解DS Assistant的执行过程。

我们选用Kaggle上的一个比赛任务ICR - Identifying Age-Related Conditions作为示例:

该任务是一项机器学习任务,主要目的是通过分析各种数据(如医疗记录、基因数据、生活方式数据等),识别与年龄相关的健康状况。

最终结果将用来帮助医疗专业人员及早发现老年人群中常见的健康问题,并提供个性化的预防和治疗方案。

废话不多说,我们这就开始~

首先,对于选用的LLM,我们需要配置一下。

我们引入MetaGPT的Data Science工具和Tool Recommender,可以根据任务类型向DS Assistant推荐合适的数据科学工具。

接着,我们需要将任务的具体要求传给DS Assistant。需要注意的是,在要求中需向DS Assistant指明数据文件的路径:

frommodelscope_agent.agents.data_science_assistantimportDataScienceAssistant

frommodelscope_agent.tools.metagpt_tools.tool_recommendimportTypeMatchToolRecommender

llm_config={

model:qwen2-72b-instruct,

model_server:dashscope,

}

tool_recommender=TypeMatchToolRecommender(tools=["<all>"])

ds_assistant=DataScienceAssistant(llm=llm_config,tool_recommender=tool_recommender)

ds_assistant.run(

"Thisisamedicaldatasetwithoverfiftyanonymizedhealthcharacteristicslinkedtothreeage-relatedconditions.Yourgoalistopredictwhetherasubjecthasorhasnotbeendiagnosedwithoneoftheseconditions.ThetargetcolumnisClass.Performdataanalysis,datapreprocessing,featureengineering,andmodelingtopredictthetarget.ReportF1Scoreontheevaldata.Traindatapath:‘./dataset/07_icr-identify-age-related-conditions/split_train.csv,evaldatapath:‘./dataset/07_icr-identify-age-related-conditions/split_eval.csv."

)

Plan阶段,DS Assistant会根据用户需求生成任务列表,将整个数据处理流程进行分解,接着对任务列表进行按顺序处理。

可以看到,DS Assistant生成了5个任务,分别是数据探索,数据预处理,特征工程,模型训练和预测。

然后这5个任务进入了Execute阶段,下面咱们挨个看一下。

Task 1: 数据探索

可以看到生成的代码在执行时报了如下错误,原因是没有引入numpy包

DS Assistant根据报错进行了反思,并重新生成代码并执行,成功输出数据探索的结果。

最后,code judge会对代码进行质检,确保本次生成代码逻辑正确。

Task 2: 数据预处理

在数据预处理阶段,DS Assistant分别对数值型数据和类别型数据进行了合适的缺失值处理,并清除了ID列。

Task 3:特征工程

在修复了两次错误后,DS Assistant对数据进行了特征工程的处理,对类别型变量进行编码。

同时对之前定义的categorical_columns变量进行了更新,去除了ID列。

Task 4:模型训练

DS Assistant主动安装了合适的依赖,并选择了多个模型(随机森林,梯度提升,逻辑回归)进行训练,并选择了结果最好的模型。

Task 5:模型验证

DS Assistant选择了训练集中F1分数最高的模型对验证集进行测试,并计算了这个模型在验证集上的F1分数,成功地完成了任务。

执行完以上任务后,DS Assistant支持将运行结果保存为Jupyter Notebook类型的文件,并记录运行的中间过程。

Jupyter Notebok

中间过程记录JSON文件 实验效果

我们使用ML-Benchmark作为测试集(指路论文“Data Interpreter: An LLM Agent For Data Science”),分别从Normalized Performance Score (NPS) ,total time,total token三个维度对DS Assistant效果进行评测。

其中NPS是一种将不同任务或模型的性能指标标准化的方法,使得不同指标之间可以进行比较。

它的计算通常涉及以下步骤:

步骤1:确定指标优化方向,判断性能指标是“越大越好”还是“越小越好”。

步骤2:规范化计算。如果指标是“越大越好”(如准确率、F1分数、AUC),NPS等于原始值;如果指标是“越小越好”(如损失值),则需要将原始值映射到接近1的较高NPS值。

规范化后的性能得分范围通常是0到1,其中1表示最优性能,0表示最差性能

实验任务详情和结果如下(绿色代表当前任务下最优指标 ):

可以看到,在部分复杂的数据科学任务上,DS Assistant在规范化性能得分(NPS),任务时间,消耗token数的指标上取得超过开源SOTA的效果。(其中开源SOTA效果指MetaGPT实测值)

完整实验日志:https://modelscope-agent.oss-cn-hangzhou.aliyuncs.com/resources/DS_Assistant_results.zip

总结

对不同的人来说,DS assistant有不同作用

不熟悉数据分析流程但是又有需要的同学,可以快速根据生成的任务以及处理过程,了解处理数据的思路,以及技术点。 对于了解数据分析流程的同学,可以通过详细的描述,来影响数据处理的方法,方便做不同的实验参照比较。 对于所有人,可以自动化的快速实现对于当前手上文件的更深层次的理解,仅需提问即可。

下一步,DS assistant将从三个方向展开优化

1、进一步提高任务执行成功率

a)对于Code Agent来说,传入信息量过大(报错信息,中间数据信息,已生成代码信息)会导致模型生成代码正确率下降,可以在未来考虑使用LLM进行总结,对信息进行筛选。

b)同一个Task可进行进一步的分解,以降低对LLM推理能力的要求。

2、对话交互式,可以将任务和任务的执行展示分开,通过对话的方式推进任务,并影响执行结果。

3、支持批处理相同任务多批文件的场景。

更多细节可进一步查看Modelscope-Agent官方仓库中Data Sciecne Assistant示例。

https://github.com/modelscope/modelscope-agent/blob/master/examples/agents/data_science_assistant.ipynb

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里?关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

返回搜狐,查看更多

责任编辑:

【2024澳门天天开好彩大全免费】 【新澳天天开奖资料大全最新】
【2024年天天开好彩资料】 【新澳天天开奖资料大全最新54期】
【2024澳门天天开好彩大全53期】 【澳门天天开彩期期精准】
【2024全年资料免费大全】 【新澳天天开奖资料大全】
【澳门内部最精准免费资料】 【2024澳门天天开好彩大全】
【2024年新奥门天天开彩免费资料】 【新澳2024今晚开奖资料】 【2004新澳精准资料免费提供】
上一条新闻 下一条新闻

推荐文章

发表评论

Ståhlberg

2秒前:csv.

IP:49.57.1.*

迈克尔·尼曼

7秒前:完整实验日志:https://modelscope-agent.

IP:99.84.3.*

Galison

1秒前:它的计算通常涉及以下步骤:

IP:34.43.1.*

美食杰APP介绍

APP图标

香港正版资料大全更新时间APP名:美食杰

版本:V1.78.739

更新时间:2024-09-24 15:22

澳门王中王100%的资料论坛这是一个功能强大的澳门准六肖期期准免费公开APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:责任编辑:

演澳门资料大全APP介绍

APP图标

澳门2024年正版资料大全APP名:美食杰

版本:V9.56.235

更新时间:2024-09-24 16:13

澳门最快最准的资料免费大全这是一个功能强大的2024澳门天天开好彩资料APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:Task 3:特征工程

4949澳门彩结果发现APP介绍

APP图标

澳门一肖一码100%准确APP名:美食杰

版本:V6.96.331

更新时间:2024-09-24 21:14

新澳好彩免费资料查询石狮这是一个功能强大的刘伯温资料大全免费查看最新玄机APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:传统的ReAct(Reasoning and Action)框架对于简单的任务比较有效,但是有以下缺点:

2024年新澳门天天APP介绍

APP图标

2024新澳门管家婆资料APP名:美食杰

版本:V4.12.570

更新时间:2024-09-24 22:21

2024年新澳门管家婆资料这是一个功能强大的新澳精准资料免费提供510期APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:更妙的是,Modelscope-Agent框架允许开发者无需编码即可交互式地创建Agent助理。

管家婆天天好资料大全APP介绍

APP图标

管家婆一肖一码100中奖APP名:美食杰

版本:V8.37.279

更新时间:2024-09-24 16:16

新澳门资料查询大全这是一个功能强大的2024精准资料大全APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:有了它,我们只需给需求,这个助手就能自己跑完探索性数据分析(EDA)、数据预处理、特征工程、模型训练,模型评估等步骤。

澳门一肖一码必中一肖一精准APP介绍

APP图标

新澳门资料大全免费新APP名:美食杰

版本:V6.14.465

更新时间:2024-09-24 14:18

2024新澳免费资料绿波这是一个功能强大的澳门六开彩正版免费资料大全APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:在修复了两次错误后,DS Assistant对数据进行了特征工程的处理,对类别型变量进行编码。

天空彩二四六天下彩旺角彩赢彩APP介绍

APP图标

2024澳门正版精准资料APP名:美食杰

版本:V4.46.794

更新时间:2024-09-24 18:15

澳门平特一肖100%免费这是一个功能强大的香港免费资料大全APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:Task 4:模型训练

2024澳门特马今晚一APP介绍

APP图标

2024澳门资料大全免费APP名:美食杰

版本:V7.54.446

更新时间:2024-09-24 24:14

澳门2024资料大全这是一个功能强大的2024澳门王中王资料大全APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:关注我,记得标星哦~