Agentic Coding 产品耐用度评测集

本仓库汇集了跨多种编程语言和技术栈、难度各异的真实编码任务。其目标是帮助开发者评估不同 Agentic Coding 产品在处理多样、实用的编程工作时的“耐用度”。

本项目的目标并非评选出单一的“最佳”产品，而是提供一组用例库，供广泛开发者在不同产品上进行公平对比。

项目内容

我们持续发布覆盖多语言与多框架的实用编程任务集。每个任务都附带简明、对工具友好的提示词（Prompt.md 或 Prompt.zh.md），方便你在不同的 AI 编码产品（如 Qoder、Cursor、Windsurf、Kiro、Claude Code）中直接运行，并观察：

随后，你可以在相同模型档位下比较各产品的耐用度。

为确保样本具有代表性，我们依据 Qoder 的实际使用占比，优先纳入占比最高的几种语言，并按比例覆盖其主要技术栈，形成当前评测集。

访问 Agentic Coding Durability Evaluation Set。
选择你关心的语言/技术栈对应的仓库。
打开工程文件夹并阅读其中的 Prompt.md 或 Prompt.zh.md。
在你期望对比的 AI 编码产品间运行该提示词（如 Qoder、Cursor、Windsurf、Kiro、Claude Code）。
迭代推进，直到你亲自判断任务“完成”。
- 本评测集刻意不包含自动化的单元/集成/UI 测试来判定完成度。
- 我们依赖你的人工判断；这与真实使用过程相似，任务完成标准因完整度、测试覆盖度、视觉接受程度与可维护性要求因人而异。
在不同产品间尽量保持模型档位可比。
记录并比较各产品在你付费计划内的消耗，以评估耐用度。

欢迎贡献以扩展覆盖范围。

我们欢迎您使用以下两种形式参与社区贡献：

在当前库下提交 Issue：
- 分享当前评测集仍未覆盖到的、但你常用的编程语言/技术栈以及代表性任务样例
- 分享关于 Qoder 额度消耗过快的负面案例（若可能，请附上示例项目与确切的提示内容）
前往 Agentic Coding Durability Evaluation Set 组织下的样例库中提交 Pull Request：
- 丰富并改进现有工程、任务提示词等

本项目采用 MIT 许可证。