Skip to content

Latest commit

 

History

History
63 lines (42 loc) · 3.42 KB

File metadata and controls

63 lines (42 loc) · 3.42 KB

Agentic Coding 产品耐用度评测集

License: MIT PRs Welcome

本仓库汇集了跨多种编程语言和技术栈、难度各异的真实编码任务。其目标是帮助开发者评估不同 Agentic Coding 产品在处理多样、实用的编程工作时的“耐用度”。

本项目的目标并非评选出单一的“最佳”产品,而是提供一组用例库,供广泛开发者在不同产品上进行公平对比。

项目内容

我们持续发布覆盖多语言与多框架的实用编程任务集。每个任务都附带简明、对工具友好的提示词(Prompt.mdPrompt.zh.md),方便你在不同的 AI 编码产品(如 Qoder、Cursor、Windsurf、Kiro、Claude Code)中直接运行,并观察:

  • 不同工具产品在达成目标上的推进程度
  • 消耗的配额/积分/Token 数量
  • 交互次数与总耗时

随后,你可以在相同模型档位下比较各产品的耐用度。

为确保样本具有代表性,我们依据 Qoder 的实际使用占比,优先纳入占比最高的几种语言,并按比例覆盖其主要技术栈,形成当前评测集。

如何使用

  1. 访问 Agentic Coding Durability Evaluation Set
  2. 选择你关心的语言/技术栈对应的仓库。
  3. 打开工程文件夹并阅读其中的 Prompt.mdPrompt.zh.md
  4. 在你期望对比的 AI 编码产品间运行该提示词(如 Qoder、Cursor、Windsurf、Kiro、Claude Code)。
  5. 迭代推进,直到你亲自判断任务“完成”。
    • 本评测集刻意不包含自动化的单元/集成/UI 测试来判定完成度。
    • 我们依赖你的人工判断;这与真实使用过程相似,任务完成标准因完整度、测试覆盖度、视觉接受程度与可维护性要求因人而异。
  6. 在不同产品间尽量保持模型档位可比。
  7. 记录并比较各产品在你付费计划内的消耗,以评估耐用度。

公平性与严谨性建议

  • 在各工具中使用相同或等效的模型档位。
  • 避免在同一会话中混入无关任务。
  • 在不同工具上复跑同一任务时,尽量重置或隔离会话。
  • 若工具支持,导出聊天/追踪记录,便于他人复查过程。
  • 记录你在工具之外进行的任何人工操作(如重构、修复)。

局限性

  • 目前覆盖的编程语言、技术栈、任务类型、难度差异与数量有限。
  • 人工判断本身具有主观性,我们接受这种现实以更贴近真实世界。
  • 虽然人工判断不可避免地具有主观性,但在当下阶段,我们认为基于对比的人工评测方式更为合适,也更贴近真实使用场景。

欢迎贡献以扩展覆盖范围。

如何贡献

我们欢迎您使用以下两种形式参与社区贡献:

  • 在当前库下提交 Issue:
    • 分享当前评测集仍未覆盖到的、但你常用的编程语言/技术栈以及代表性任务样例
    • 分享关于 Qoder 额度消耗过快的负面案例(若可能,请附上示例项目与确切的提示内容)
  • 前往 Agentic Coding Durability Evaluation Set 组织下的样例库中提交 Pull Request:
    • 丰富并改进现有工程、任务提示词等

许可证

本项目采用 MIT 许可证