微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

VisCoder：打造能生成可执行Python可视化代码的大语言模型

人工智能数据可视化深度学习

VisCoder：打造能生成可执行Python可视化代码的大语言模型

作者：科技行者

2025-06-08 16:45

分享至：

这项研究介绍了VisCoder，一个经过专门微调的大语言模型，用于生成可执行的Python可视化代码。研究团队创建了包含20万样本的VisCode-200K数据集，结合了可执行代码示例和多轮修正对话。在PandasPlotBench基准测试中，VisCoder显著优于同等规模的开源模型，甚至在某些方面超越了GPT-4o-mini。研究还引入了自我调试评估模式，证明了反馈驱动学习对提高代码可执行性和视觉准确性的重要性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-08 16:45 • 科技行者

这项由加拿大滑铁卢大学Yuansheng Ni和Wenhu Chen等研究团队领导的研究，于2025年6月4日发表在arXiv预印本平台（arXiv:2506.03930v1），研究团队还包括来自卡内基梅隆大学、Netmind.ai以及独立研究者的成员。有兴趣深入了解的读者可以通过论文项目网站（https://tiger-ai-lab.github.io/VisCoder）获取更多信息。

数据可视化：人工智能的视觉挑战

想象一下，你有一大堆数据，想用图表直观地展示出来。你可能会想："让AI帮我画个图表吧！"然而，即使是当今最先进的大语言模型（LLMs）在这项看似简单的任务上也常常表现不佳。它们可能生成的代码看起来正确，但执行后却出现各种问题：要么报错无法运行，要么生成空白图表，或者图表内容与你的要求相去甚远。

为什么会这样呢？就像厨师需要同时掌握食谱（代码）、食材（数据）和最终菜肴外观（可视化效果）一样，AI在生成可视化代码时需要同时理解三个方面：你的自然语言指令、数据结构，以及最终的视觉输出。更复杂的是，可视化库如matplotlib、seaborn和plotly各有特点，就像不同菜系有不同烹饪技巧一样，它们之间的语法和使用方式差异很大。

现有的AI模型通常是在大量文本和代码上训练的，但缺乏专门针对可视化任务的训练数据。这就像让一位只读过食谱但从未进厨房实践的人来烹饪一道精美菜肴一样困难。更重要的是，当代码出错时，这些AI模型往往不知道如何修复问题，因为它们没有经过足够的"失败-修正"训练循环。

打造专业的可视化AI助手

针对这一挑战，研究团队创建了VisCode-200K，一个包含超过20万个样本的大规模数据集，专门用于训练AI生成可执行的Python可视化代码。这个数据集就像一本内含实际可运行代码的可视化"食谱大全"，不仅提供了"菜谱"（代码），还包括"成品图"（渲染后的图表）以及详细的"烹饪步骤说明"（自然语言指令）。

VisCode-200K的数据来源主要有两部分：

首先，研究团队从开源Python代码库中提取了大量使用matplotlib、seaborn等流行可视化库的代码片段。他们不是简单地复制这些代码，而是对每个代码片段进行了严格的筛选和验证，确保它们能够成功执行并生成有意义的图表。这就像确保每个食谱都经过了实际测试，能做出美味佳肴一样。然后，他们使用大语言模型（如GPT-4o）为每段代码和对应的图表生成了自然语言描述，就像为每道菜添加详细的烹饪说明。

其次，研究团队还融入了约4.5万条多轮修正对话，来自名为Code-Feedback的数据集。这些对话记录了AI如何根据错误反馈逐步修正代码的过程，就像厨师在烹饪过程中根据品尝结果不断调整调料和火候一样。这部分数据对于训练模型学习自我纠错能力至关重要。

在此基础上，研究团队使用VisCode-200K数据集微调了开源大语言模型Qwen2.5-Coder-Instruct，分别在3B和7B两种规模上训练，最终创建了名为VisCoder的专业可视化代码生成模型。

如何评估可视化AI的能力？

为了客观评估VisCoder的能力，研究团队使用了PandasPlotBench基准测试，这个测试包含175个可视化任务，涵盖matplotlib、seaborn和plotly三种流行的Python可视化库。

传统评估方法只关注代码是否能生成图表，但这种方法存在局限性——一些代码可能生成了空白或无意义的图表，却被误判为正确。因此，研究团队引入了"执行通过率"（Execution Pass Rate）这一更严格的指标，明确要求代码必须执行无误才算成功。

更创新的是，他们设计了"自我调试"（Self-Debug）评估模式。在这种模式下，如果AI生成的代码初次执行失败，系统会给AI最多三次机会修正错误。这就像给厨师多次尝试改进菜肴的机会，更符合实际使用场景。

VisCoder的惊人表现

实验结果令人振奋！VisCoder模型在可执行性和视觉准确性方面都大幅超越了同等规模的开源模型：

对于7B规模的模型，VisCoder比基线模型Qwen2.5-Coder平均提高了14.5个百分点的执行通过率。特别是在处理复杂的plotly库时，VisCoder的表现尤为出色，通过率从48%提升到74.3%。

更令人印象深刻的是，VisCoder-7B在自我调试模式下，在matplotlib和seaborn库上的执行通过率超过了90%，这意味着即使初次生成的代码有错误，VisCoder也能在几轮修正后成功修复绝大多数问题。

与闭源商业模型相比，VisCoder-7B在seaborn和plotly库上甚至超过了GPT-4o-mini的表现，并在自我调试后接近GPT-4o的水平。而较小的VisCoder-3B在seaborn库上也超过了GPT-4o-mini，展示了出色的性价比。

深入理解VisCoder的错误修正能力

研究团队对VisCoder的错误修正能力进行了深入分析，发现模型在处理不同类型错误时表现各异：

对于结构性错误（如AttributeError和TypeError），VisCoder表现出色。例如，在Seaborn库中，AttributeError从15个减少到只剩2个。这类错误通常有明确的诊断信息，相对容易修复。

然而，对于语义执行错误（如KeyError和ValueError），VisCoder的修复能力较弱。在Plotly库中，尽管经过三轮修正，ValueError只从29个减少到23个，而KeyError则没有任何改善。这些错误通常需要对数据结构进行深入理解，仅靠错误信息难以完全修复。

训练数据的关键作用

为了理解不同训练数据的贡献，研究团队进行了消融实验，即分别使用数据集的不同子集训练模型：

使用来自stack-edu的子集训练的模型在plotly上有小幅提升，但在matplotlib和seaborn上表现下降，说明这部分数据提供了广泛但不够深入的覆盖。

令人惊讶的是，仅使用CoSyn-400K数据训练的模型几乎完全失败，执行通过率接近零。这是因为CoSyn数据结构过于单一，缺乏足够的多样性。

使用Code-Feedback数据训练的模型在matplotlib和plotly上表现良好，但在seaborn上表现不佳，反映了这部分数据虽然提供了宝贵的错误修正经验，但缺乏针对特定可视化库的专业知识。

只有完整的VisCode-200K数据集，结合了可执行代码示例和多轮修正对话，才能训练出在所有库上都表现优异的模型。这就像一位厨师需要同时掌握食谱知识和实际烹饪经验，才能成为全能的大厨。

未来展望与局限性

尽管VisCoder取得了显著进步，研究团队也坦诚承认其局限性：

首先，VisCoder目前仅专注于Python语言，尚未覆盖R或JavaScript等其他常用于数据可视化的编程语言。

其次，即使是VisCoder在处理复杂的Plotly库时仍然面临挑战，特别是在解决语义执行错误方面。

此外，评估过程依赖于自动评判模型，可能存在一定的偏差或可靠性问题。

未来的研究方向可能包括扩展到更多可视化库，增强修正监督，以及开发更精确的评估方法，使模型能够更好地理解和修复复杂的执行错误。

总结：AI可视化的重要一步

归根结底，VisCoder代表了AI辅助数据可视化领域的重要进步。通过创建专门的训练数据集并设计有效的自我调试机制，研究团队成功打造了一个能够生成可靠、可执行的Python可视化代码的模型。

这项研究的意义不仅在于提高了AI生成可视化代码的能力，更重要的是它揭示了专业领域指令微调和反馈驱动学习的重要性。就像专业厨师需要专门的烹饪训练和不断尝试改进一样，AI也需要领域专业知识和自我纠错能力才能在复杂任务中表现出色。

对于数据科学家、研究人员和普通用户来说，VisCoder意味着数据可视化过程的简化和效率提升。无需深入了解复杂的可视化库语法，用户只需用自然语言描述需求，就能获得可执行的可视化代码。即使初次生成的代码有问题，模型也能通过多轮对话逐步修正，最终达到预期效果。

如果你对这项研究感兴趣，可以通过论文项目网站（https://tiger-ai-lab.github.io/VisCoder）了解更多细节，或直接查阅arXiv上的论文原文（arXiv:2506.03930v1）。

人工智能数据可视化深度学习

分享至

0赞

好文章，需要你的鼓励

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn

微信扫一扫，关注公众号

见证连接与计算的「力量」

VisCoder：打造能生成可执行Python可视化代码的大语言模型

至顶头条

科技行者

码客人生

奇客Solidot

高飞的电子替身

奇客情报站

文化

移动计算

大数据

创新创业

物联网

商业

社交新媒体

智能硬件

移动设备

人工智能

汽车

5G

量子计算

云计算

科学

对话科技行者

机器人新纪元

友情链接