领跑 C++ 后再闯 Java:InfCode 登顶 Multi-SWE-bench Java 榜单
词元无限团队
01 InfCode 刷新 Java 世界纪录:难题解决率实现 6 倍领先
在国际权威软件工程评测基准 Multi-SWE-bench 的最新 Java 榜单中,InfCode 以 39.06 分的高分领先全球,相比此前 33.59 分的最高纪录,InfCode 将总体解决率提升了近 16%。
尤为引人注目的是,在代表“硬核实力”的难题解决率维度上,InfCode 取得了 16.67 分的卓越成绩,而榜单第二名仅为 2.78 分,除前两名外,其余所有参与评测的智能体在该项得分上全部“挂零”。
InfCode 以高出第二名 14 分、高达 6 倍的难题解决率实现断层领先。这意味着,当其他智能体还在处理基础的局部 Bug 时,InfCode 已经能够像高级工程师一样,游刃有余地解决跨文件耦合、复杂接口约束等“骨头最硬”的深层架构缺陷。
本次成绩是基于词元 × 北京航空航天大学联合成立的合作实验室——NextSWE 联合研究中心(实验室)持续研究与工程实践的阶段性成果。
在真实软件工程场景下,InfCode 将前沿的软件工程理论与实验室强大的工程实践能力相结合,其理解、修改与协同能力均已达到国际领先水平。
02 为什么是 Java?——直击中国软件产业的“深水区”
如果说 C++ 考验的是对语言底层细节的极致掌控,那么 Java 考察的则是对“大型工业系统”的驾驭能力。
在中国,Java 是当之无愧的数字底座:Java 是当前企业级软件系统中占比最高、生命周期最长的核心技术栈之一。
金融机构的核心交易系统、国央企的大型管理平台、电信/能源行业的后端服务,绝大多数均由 Java 构建,它是支撑数字化底座的中流砥柱。这些核心系统通常具有代码规模大(百万行级)、历史包袱重、模块依赖复杂等特点,对稳定性、安全性和可维护性要求极高。
因此,Java 场景下的软件工程智能体能力,直接决定了其在真实企业研发环境中的可落地性。
Multi-SWE-bench 的 Java 榜单,正是围绕真实开源 Java 项目中的复杂工程问题构建,重点考察智能体在多文件修改、上下文理解、接口约束、编译与测试通过等方面的综合能力,被业界视为衡量“是否真正具备工程级代码能力”的重要基准。
03 从 C++ 到 Java:揭秘 InfCode 的“全能基因”
此前,InfCode 在 C++ 榜单曾以 25.58 分(远超前纪录 14.73 分)惊艳业界,体现了其在处理复杂指针逻辑与静态语法分析上的优势。
此次在 Java 领域的突破,则进一步展示了 InfCode 的核心技术栈优势:
1. 语义定位与语法分析相结合,基于“代码意图分析”的精准定位
针对 Java 类型系统严格、接口约束复杂的特点,InfCode 通过代码意图分析机制进行语义推理,在成千上万个类中精准锁定承载业务逻辑的实现单元,直达 Bug 根因。
2. 全局导航能力:基于 AST 的结构化检索
Java 具有严格的类型系统和错综复杂的包(Package)调用。InfCode 自研了基于抽象语法树(AST)的结构化检索引擎,它能像资深架构师一样,在语法层级进行检索。这意味着它能识别复杂的依赖注入与接口约束,确保生成的补丁不仅逻辑正确,更符合 Java 的工程规范。
3. 验证与自我改进:闭合测试环
InfCode 能够自主完成“理解-修改-编译-单元测试-再优化”的闭环,确保生成的代码不仅“看起来对”,而且“跑起来稳”,解决了 Java 场景下补丁易碎、兼容性差的痛点。
04 未来:让 AI 成为企业研发的“副驾驶”
登顶全球榜单只是 InfCode 进化的一个缩影。目前,InfCode 已在多个行业头部企业的研发体系中展开实践。
未来,词元无限将继续深耕复杂软件工程场景,不仅要“刷新榜单”,更要“刷新效率”,为企业提供更稳定、更智能的研发生产力引擎,将极致的研发提效转化为触手可及、稳健可靠的生产力交付。