科技中国

AI
业界 手机 电脑 数码 智车 AI 苹果 直播
当前位置: 首页 > AI > 正文

大模型“自动修复bug”能力将大大提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

2025-04-11 07:44:56 来源:IT之家 A+A-

4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。

在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。

Multi-SWE-bench 旨在推动自动编程技术从仅能解决单一语言(如 Python)和低复杂度的任务,朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。

SWE-bench 是当前最具代表性的代码修复评测基准,强调任务真实、难度高。它基于 GitHub issue,要求模型自动定位并修复 Bug,兼具跨文件修改、复杂语义推理与上下文理解等挑战。

Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发 Agent 的评估与研究,其主要特性如下:

  • 首次覆盖 7 种主流编程语言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),构建多语言开发环境下的代码修复任务,系统评估模型的跨语言适应与泛化能力;

  • 引入任务难度分级机制,将问题划分为简单(Easy)、中等(Medium)和困难(HARd)三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战;

  • 1,632 个实例全部来源于真实开源仓库,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。

附开源链接:

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:

  • 论文链接:https://arxiv.org/ abs / 2504.02605

  • 榜单链接:https://multi-swe-bench.github.io

  • 代码链接:https://github.com/ multi-swe-bench / multi-swe-bench

  • 数据链接:https://huggingface.co/ datasets / ByteDance-Seed / Multi-SWE-bench

(责任编辑:Diy92)

推荐阅读 相关文章

全球“机器人竞赛”进入白热化,美企敦促政府设立联邦机构以扶持行业发展

3 月 27 日消息,据《财富》杂志今日报道,美国机器人企业正呼吁制定国家级机器人发展战略,包括设立专门的联邦机...[详细]

2025-03-28 07:30:56

B站 CEO 陈睿:2024年观看AI视频用户八成以上是95后

3 月 27 日消息,第十二届中国网络视听大会今日在成都正式开幕。哔哩哔哩(B站)董事长兼 CEO 陈睿以"AI 时代的优...[详细]

2025-03-28 07:30:56

华为 ModelEngine 全流程AI开发工具链正式开源

3 月 27 日消息,在 2025 华为中国合作伙伴大会期间,华为 ModelEngine AI 全流程工具链向全球开发者开源发布。...[详细]

2025-03-28 07:30:56

飞牛私有云 fnOS迎来重大升级 将支持音频播放,独立音乐应用有望上架

3 月 27 日消息,飞牛私有云今日宣布推送 v1.10.2 版本更新,升级支持音乐播放并支持中继网络下使用。不过,这并...[详细]

2025-03-28 07:30:56

英语印度口音重不用愁:初创公司 Krisp 推出AI智能转换,一键变为地道美式

3 月 27 日消息,据外媒 TechCurnch 报道,音频初创公司 Krisp 周三推出一项 AI 口音转换功能,用户可在通话时改...[详细]

2025-03-28 07:30:56

据称SK海力士将今年资本支出计划再提升30%,以应对业界剧增的HBM3E产品需求

4 月 14 日消息,据外媒 thelec 报道,SK 海力士决定将今年资本支出计划(CAPEX)提高 30%...[详细]

2025-04-15 08:05:53

美国加州人行横道按钮被黑客成功入侵,并植入了马斯克和扎克伯格语音

4 月 14 日消息,上周末,美国加利福尼亚州至少三个城市的多处人行横道按钮遭黑客入侵...[详细]

2025-04-15 08:05:53

据称苹果新款 Vision Pro 可与 Mac 产品互通互联 超低延迟

4 月 13 日消息,据彭博社记者马克・古尔曼在最新一期的《Power On》通讯中透露,除了...[详细]

2025-04-15 08:05:53

央视曝光“租机贷”为高利贷,年化利率竟高达400%

4 月 13 日消息,据央视财经报道,家住上海的姜女士经人介绍接触到了“租机贷”,她下载...[详细]

2025-04-15 08:05:53

动漫电影《名侦探柯南:独眼的残像》放映前PV正式公布,日本将于4月18日上映

4 月 13 日消息,动漫电影《名侦探柯南:独眼的残像》放映前 PV 已正式发布,时长约 2 ...[详细]

2025-04-15 08:05:53

联系方式