本仓库汇集了跨多种编程语言和技术栈、难度各异的真实编码任务。其目标是帮助开发者评估不同 Agentic Coding 产品在处理多样、实用的编程工作时的“耐用度”。
本项目的目标并非评选出单一的“最佳”产品,而是提供一组用例库,供广泛开发者在不同产品上进行公平对比。
我们持续发布覆盖多语言与多框架的实用编程任务集。每个任务都附带简明、对工具友好的提示词(Prompt.md 或 Prompt.zh.md),方便你在不同的 AI 编码产品(如 Qoder、Cursor、Windsurf、Kiro、Claude Code)中直接运行,并观察:
- 不同工具产品在达成目标上的推进程度
- 消耗的配额/积分/Token 数量
- 交互次数与总耗时
随后,你可以在相同模型档位下比较各产品的耐用度。
为确保样本具有代表性,我们依据 Qoder 的实际使用占比,优先纳入占比最高的几种语言,并按比例覆盖其主要技术栈,形成当前评测集。
- 访问 Agentic Coding Durability Evaluation Set。
- 选择你关心的语言/技术栈对应的仓库。
- 打开工程文件夹并阅读其中的
Prompt.md或Prompt.zh.md。 - 在你期望对比的 AI 编码产品间运行该提示词(如 Qoder、Cursor、Windsurf、Kiro、Claude Code)。
- 迭代推进,直到你亲自判断任务“完成”。
- 本评测集刻意不包含自动化的单元/集成/UI 测试来判定完成度。
- 我们依赖你的人工判断;这与真实使用过程相似,任务完成标准因完整度、测试覆盖度、视觉接受程度与可维护性要求因人而异。
- 在不同产品间尽量保持模型档位可比。
- 记录并比较各产品在你付费计划内的消耗,以评估耐用度。
- 在各工具中使用相同或等效的模型档位。
- 避免在同一会话中混入无关任务。
- 在不同工具上复跑同一任务时,尽量重置或隔离会话。
- 若工具支持,导出聊天/追踪记录,便于他人复查过程。
- 记录你在工具之外进行的任何人工操作(如重构、修复)。
- 目前覆盖的编程语言、技术栈、任务类型、难度差异与数量有限。
- 人工判断本身具有主观性,我们接受这种现实以更贴近真实世界。
- 虽然人工判断不可避免地具有主观性,但在当下阶段,我们认为基于对比的人工评测方式更为合适,也更贴近真实使用场景。
欢迎贡献以扩展覆盖范围。
我们欢迎您使用以下两种形式参与社区贡献:
- 在当前库下提交 Issue:
- 分享当前评测集仍未覆盖到的、但你常用的编程语言/技术栈以及代表性任务样例
- 分享关于 Qoder 额度消耗过快的负面案例(若可能,请附上示例项目与确切的提示内容)
- 前往 Agentic Coding Durability Evaluation Set 组织下的样例库中提交 Pull Request:
- 丰富并改进现有工程、任务提示词等
本项目采用 MIT 许可证。