领跑 C++ 后再闯 Java：InfCode 登顶 Multi-SWE-bench Java 榜单

2026 年 02 月

词元无限团队

数月前，词元无限旗下智能体 InfCode 以 25.58 分的成绩登顶 Multi-SWE-bench C++ Leaderboard。这意味着在 129 个真实 C++ 难题中，它成功搞定了 33 个。相比之下，前纪录保持选手 Mopenhands（用 Claude 3.7 驱动）只解决了 14.73%。

该成绩大幅领先于 Claude 3.7 Sonnet 的约 8.59%、DeepSeek V3 的 7.75% 以及 Qwen2.5-72B-Instruct 几乎为零的解决率。

在 C++ 这个难度远高于 Python、Java 等高级语言的编程语言领域，InfCode 能取得如此成绩，体现了其语义定位与语法分析相结合的优势。它不仅能准确定位问题，更能在复杂语法和大型项目中生成正确补丁，这对工业界具有重要价值。

继在 C++ 榜单刷新纪录后，词元无限旗下智能体 InfCode 近日再次在 Multi-SWE-bench Java 榜单中斩获第一。以 39.06 分的成绩、领先第二名 6 分、难题解决率提升 6 倍的绝对优势，再次证明了 InfCode 在各个语言技术栈上的技术领先性。

如果说 Vibe Coding 开启了 AI 编程的“感性时代”，那么 InfCode 正在定义 AI 编程的“工程时代”。

01 InfCode 刷新 Java 世界纪录：难题解决率实现 6 倍领先

在国际权威软件工程评测基准 Multi-SWE-bench 的最新 Java 榜单中，InfCode 以 39.06 分的高分领先全球，相比此前 33.59 分的最高纪录，InfCode 将总体解决率提升了近 16%。

尤为引人注目的是，在代表“硬核实力”的难题解决率维度上，InfCode 取得了 16.67 分的卓越成绩，而榜单第二名仅为 2.78 分，除前两名外，其余所有参与评测的智能体在该项得分上全部“挂零”。

InfCode 以高出第二名 14 分、高达 6 倍的难题解决率实现断层领先。这意味着，当其他智能体还在处理基础的局部 Bug 时，InfCode 已经能够像高级工程师一样，游刃有余地解决跨文件耦合、复杂接口约束等“骨头最硬”的深层架构缺陷。

本次成绩是基于词元 × 北京航空航天大学联合成立的合作实验室——NextSWE 联合研究中心（实验室）持续研究与工程实践的阶段性成果。

在真实软件工程场景下，InfCode 将前沿的软件工程理论与实验室强大的工程实践能力相结合，其理解、修改与协同能力均已达到国际领先水平。

02 为什么是 Java？——直击中国软件产业的“深水区”

如果说 C++ 考验的是对语言底层细节的极致掌控，那么 Java 考察的则是对“大型工业系统”的驾驭能力。

在中国，Java 是当之无愧的数字底座：Java 是当前企业级软件系统中占比最高、生命周期最长的核心技术栈之一。

金融机构的核心交易系统、国央企的大型管理平台、电信/能源行业的后端服务，绝大多数均由 Java 构建，它是支撑数字化底座的中流砥柱。这些核心系统通常具有代码规模大（百万行级）、历史包袱重、模块依赖复杂等特点，对稳定性、安全性和可维护性要求极高。

因此，Java 场景下的软件工程智能体能力，直接决定了其在真实企业研发环境中的可落地性。

Multi-SWE-bench 的 Java 榜单，正是围绕真实开源 Java 项目中的复杂工程问题构建，重点考察智能体在多文件修改、上下文理解、接口约束、编译与测试通过等方面的综合能力，被业界视为衡量“是否真正具备工程级代码能力”的重要基准。

03 从 C++ 到 Java：揭秘 InfCode 的“全能基因”

此前，InfCode 在 C++ 榜单曾以 25.58 分（远超前纪录 14.73 分）惊艳业界，体现了其在处理复杂指针逻辑与静态语法分析上的优势。

此次在 Java 领域的突破，则进一步展示了 InfCode 的核心技术栈优势：

1. 语义定位与语法分析相结合，基于“代码意图分析”的精准定位

针对 Java 类型系统严格、接口约束复杂的特点，InfCode 通过代码意图分析机制进行语义推理，在成千上万个类中精准锁定承载业务逻辑的实现单元，直达 Bug 根因。

2. 全局导航能力：基于 AST 的结构化检索

Java 具有严格的类型系统和错综复杂的包（Package）调用。InfCode 自研了基于抽象语法树（AST）的结构化检索引擎，它能像资深架构师一样，在语法层级进行检索。这意味着它能识别复杂的依赖注入与接口约束，确保生成的补丁不仅逻辑正确，更符合 Java 的工程规范。

3. 验证与自我改进：闭合测试环

InfCode 能够自主完成“理解-修改-编译-单元测试-再优化”的闭环，确保生成的代码不仅“看起来对”，而且“跑起来稳”，解决了 Java 场景下补丁易碎、兼容性差的痛点。

04 未来：让 AI 成为企业研发的“副驾驶”

登顶全球榜单只是 InfCode 进化的一个缩影。目前，InfCode 已在多个行业头部企业的研发体系中展开实践。

未来，词元无限将继续深耕复杂软件工程场景，不仅要“刷新榜单”，更要“刷新效率”，为企业提供更稳定、更智能的研发生产力引擎，将极致的研发提效转化为触手可及、稳健可靠的生产力交付。

领跑 C++ 后再闯 Java：InfCode 登顶 Multi-SWE-bench Java 榜单

2026 年 02 月

词元无限团队

该成绩大幅领先于 Claude 3.7 Sonnet 的约 8.59%、DeepSeek V3 的 7.75% 以及 Qwen2.5-72B-Instruct 几乎为零的解决率。

如果说 Vibe Coding 开启了 AI 编程的“感性时代”，那么 InfCode 正在定义 AI 编程的“工程时代”。

01 InfCode 刷新 Java 世界纪录：难题解决率实现 6 倍领先

本次成绩是基于词元 × 北京航空航天大学联合成立的合作实验室——NextSWE 联合研究中心（实验室）持续研究与工程实践的阶段性成果。

在真实软件工程场景下，InfCode 将前沿的软件工程理论与实验室强大的工程实践能力相结合，其理解、修改与协同能力均已达到国际领先水平。

02 为什么是 Java？——直击中国软件产业的“深水区”

如果说 C++ 考验的是对语言底层细节的极致掌控，那么 Java 考察的则是对“大型工业系统”的驾驭能力。

在中国，Java 是当之无愧的数字底座：Java 是当前企业级软件系统中占比最高、生命周期最长的核心技术栈之一。

因此，Java 场景下的软件工程智能体能力，直接决定了其在真实企业研发环境中的可落地性。

03 从 C++ 到 Java：揭秘 InfCode 的“全能基因”

此前，InfCode 在 C++ 榜单曾以 25.58 分（远超前纪录 14.73 分）惊艳业界，体现了其在处理复杂指针逻辑与静态语法分析上的优势。

此次在 Java 领域的突破，则进一步展示了 InfCode 的核心技术栈优势：

1. 语义定位与语法分析相结合，基于“代码意图分析”的精准定位

2. 全局导航能力：基于 AST 的结构化检索

3. 验证与自我改进：闭合测试环

04 未来：让 AI 成为企业研发的“副驾驶”

登顶全球榜单只是 InfCode 进化的一个缩影。目前，InfCode 已在多个行业头部企业的研发体系中展开实践。