文章列表

用Agent评测思路管理AI Coding —— 31万行代码AI重构的实践

业务研发平台
当 90% 以上代码由 AI 生成,决定系统走向的不是谁写得更快,而是约束 AI 的能力。没有统一规范,AI 只会成倍放大混乱。本文基于 31 万行代码重构实践,分享我们如何用 Agent 评测思路管理 AI Coding——通过技术债梳理、建设Rule、重构 SOP 和 Pre-PR 机制,把重构从高成本专项变成随迭代持续推进的日常动作。 阅读全文

美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准

美团技术团队
美团 LongCat 团队研发的 VitaBench(Versatile Interactive Tasks Benchmark)正式发布,这是当前高度贴近真实生活场景所面临复杂问题的大模型智能体评测基准。VitaBench 以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体,构建了包含 66 个工具的交互式评测环境,并进行了跨场景的综合任务设计,例如要求 agent 在一个旅行规划任务中通过思考、调用工具和用户交互,完整执行到买好票、订好餐厅的终端状态。 阅读全文