4月10日,字节跳动豆包大模型团队正式开源首个多语言类 SWE 数据集——Multi-SWE-bench,可用于评估和提升大模型“自动修 Bug”能力。在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。
回流药“码”上监管 药品追溯码应该怎么用?
具身智能“成人礼”何时到来
从三筒到全家筒:海信洗衣机的“场景进化”征途
阜阳一项目入选 2025数字城市管理创新案例
华为与首批鸿蒙商用合作伙伴签约 实现消费端与商用端全栈贯通丨新经济观察