Skip to content

Round 1: paper production workbench + falsifiable research layer#21

Merged
ChatGPU merged 7 commits into
mainfrom
claude/driving-atlas-restructure-YDZ9S
May 28, 2026
Merged

Round 1: paper production workbench + falsifiable research layer#21
ChatGPU merged 7 commits into
mainfrom
claude/driving-atlas-restructure-YDZ9S

Conversation

@ChatGPU

@ChatGPU ChatGPU commented May 28, 2026

Copy link
Copy Markdown
Owner

把仓库从“学习展示图谱”重构成“论文产出系统”的第一轮交付:

新增结构化研究层 docs/data/research/

  • schema.json:claims / argument_chains / scenarios / datasets / metrics /
    failure_modes / experiment_plans 七类节点的字段契约
  • claims.json:8 条围绕 UniAD、PlanT、DriveVLM、Agent-Driver、DiLu、CF-VLA、
    VADv2 的可证伪主张,含证据、前提、反例、边界、最小复现实验与可投稿价值
  • argument_chains.json:4 份完整论文骨架,覆盖查询共享端到端、快慢双系统、
    反事实分支安全信号、可审计闭环评测协议
  • scenarios.json:6 个一等公民场景节点
  • datasets.json:6 个数据集,逐条声明能与不能支撑的研究主张及常见误用
  • metrics.json:6 个指标,含公式、变量、前提、能与不能证明、误用
  • failure_modes.json:8 个失败模式,含触发条件、诊断指标、已有半解、
    残余间隙、开放问题、可投稿切入点
  • experiment_plans.json:4 份三层实验计划,覆盖最小机制、公开基准、压力测试

前端:论文产出工作台 docs/workbench.html / workbench.css / js/workbench.js

  • 可证伪主张、论文论证链、场景与数据、失败模式、三层实验计划五大视图
  • 多选节点、多选关系、选择篮、并排对比、共同前置、分歧路径
  • 证据强度、争议程度、可复现状态、论文主体多维筛选
  • 桌面端与移动端响应式布局,无装饰性动画

三维星图视觉编码改绑研究维度

  • 默认关闭自动公转,把按钮降级为低显眼度
  • 工作台入口放进顶部栏并以主色突出
  • atlas-main.js 加载 node_overlay.json 并把成熟度、证据强度、争议程度、
    失败边界数装配到节点上
  • atlas-render.js 用上述维度调节节点尺寸与色彩,让视觉真正服务研究结构

质量门禁

  • tools/validate_research.py 校验七类节点的必填字段、控制词表、交叉引用、
    指标公式 TeX 完整性,并在 CI 中阻止退化
  • tools/build_research_overlay.py 由源 JSON 派生 node_overlay.json
  • .github/workflows/validate.yml 加入两个新步骤

https://claude.ai/code/session_01QaomjzMa4sajRLK4MgWbVw

claude added 7 commits May 28, 2026 14:12
把仓库从“学习展示图谱”重构成“论文产出系统”的第一轮交付:

新增结构化研究层 docs/data/research/
- schema.json:claims / argument_chains / scenarios / datasets / metrics /
  failure_modes / experiment_plans 七类节点的字段契约
- claims.json:8 条围绕 UniAD、PlanT、DriveVLM、Agent-Driver、DiLu、CF-VLA、
  VADv2 的可证伪主张,含证据、前提、反例、边界、最小复现实验与可投稿价值
- argument_chains.json:4 份完整论文骨架,覆盖查询共享端到端、快慢双系统、
  反事实分支安全信号、可审计闭环评测协议
- scenarios.json:6 个一等公民场景节点
- datasets.json:6 个数据集,逐条声明能与不能支撑的研究主张及常见误用
- metrics.json:6 个指标,含公式、变量、前提、能与不能证明、误用
- failure_modes.json:8 个失败模式,含触发条件、诊断指标、已有半解、
  残余间隙、开放问题、可投稿切入点
- experiment_plans.json:4 份三层实验计划,覆盖最小机制、公开基准、压力测试

前端:论文产出工作台 docs/workbench.html / workbench.css / js/workbench.js
- 可证伪主张、论文论证链、场景与数据、失败模式、三层实验计划五大视图
- 多选节点、多选关系、选择篮、并排对比、共同前置、分歧路径
- 证据强度、争议程度、可复现状态、论文主体多维筛选
- 桌面端与移动端响应式布局,无装饰性动画

三维星图视觉编码改绑研究维度
- 默认关闭自动公转,把按钮降级为低显眼度
- 工作台入口放进顶部栏并以主色突出
- atlas-main.js 加载 node_overlay.json 并把成熟度、证据强度、争议程度、
  失败边界数装配到节点上
- atlas-render.js 用上述维度调节节点尺寸与色彩,让视觉真正服务研究结构

质量门禁
- tools/validate_research.py 校验七类节点的必填字段、控制词表、交叉引用、
  指标公式 TeX 完整性,并在 CI 中阻止退化
- tools/build_research_overlay.py 由源 JSON 派生 node_overlay.json
- .github/workflows/validate.yml 加入两个新步骤

https://claude.ai/code/session_01QaomjzMa4sajRLK4MgWbVw
…new aggregation view

把独立审查代理对第一轮研究层的 Top 5 与多项二级发现系统性落地,并扩大覆盖。

可证伪主张(claims.json)
- 重写 UniAD 主张的反例:把 BEV-Planner / Li 2024 的发现指向 UniAD 自身
  关闭 ego 状态后开环优势消失,而不是误把威胁方向写在基线上
- 把 UniAD 主张升级为分时段(1 秒 / 2 秒 / 3 秒)的可证伪声明并给出
  相对降幅阈值
- Agent-Driver 主张改用"罕见冲突子集上的碰撞率与路线未完成率",去除
  原文未定义的"死锁率"概念
- DriveVLM 门控前提软化为"预设或可学习"且要求门控统计公开
- DiLu 主张明确 Mock 与真实 LLM 两路口径

论文论证链(argument_chains.json)
- 在查询共享论证链中加入 BEV-Planner 风格的最尖锐审稿人攻击与回应实验
- 双系统长尾论证链补入 nuScenes 叙事子集作为中间域桥梁
- 反事实分支论证链加入反事实损失权重扫描以匹配原图表计划
- 闭环评测协议论证链改写"相对秩不变"的确认偏倚陷阱

场景(scenarios.json)
- 由 6 个扩展到 11 个,新增环岛无保护汇入、低速垂直泊车、传感器外参漂移、
  学区限速合规、紧急车辆让行
- 为所有场景补入定量触发阈值(遮挡比例、车流密度、降雨强度等),使得
  自动化场景挖掘有可执行的判定条件
- 修正 long_tail 与 heavy_rain 场景的 current_best_methods 虚构排名

数据集(datasets.json)
- 软化 nuScenes 对"协同收益"的过度声称
- 在 nuPlan 限制中加入 PDM 规则基线优于学习方法这一标准审查点
- 在 Bench2Drive 误用中加入 Driving Score 与 Success Rate 的差距、
  Dev10 子集滥用
- 修正 Waymo 许可表述并强调外部审批
- CARLA Town05 Long 明确版本必须公开

指标(metrics.json)
- 开环 L2 改为分时段公式,强制同时报告 L2_avg 与 L2_1s / L2_2s / L2_3s
- 舒适综合指标加入归一化常数 a_ref 与 v_ref,解决量纲不一致
- 规则合规分数改为按段二值乘积,避免速率超 1 时乘积出现负值
- 闭环碰撞率要求至少 8 个种子加 bootstrap 95% 置信区间

失败模式(failure_modes.json)
- 拆分原传感器退化条目为相机信号级与雷达激光雷达域级两条独立失败
- 新增三类研究资产:语言模型规划幻觉、语言驱动决策循环记忆中毒、
  反事实分支与真实事故分布漂移
- 修正长尾物体识别的 OccFormer 残余间隙描述,指出分布根因
- 量化舒适度延迟失败的部分解残余间隙

实验计划(experiment_plans.json)
- 把全部 Tier-2 算力预算校准到与公开训练成本一致的量级(480→2400 等)
- 全部 Tier-2 强制至少 8 个独立种子加 bootstrap 95% 置信区间
- 反事实分支实验加入"同等数据预算下的非反事实 VLA"对照
- 双系统 Tier-1 改为"纯流水线验证",把行为信号留到 Tier-2 真实语言模型
- 协议审计 Tier-1 把成功判据从 100% 改为可达成的召回与假阳阈值

工作台
- 新增"论文聚合"视图,把围绕单篇论文的主张、相关失败模式、论证链、
  实验计划与延伸场景聚合到一处
- 顶部导航补入新视图入口

三维星图
- 在左侧导航补入"视觉编码 · 研究维度"图例,显式说明节点尺寸、饱和度、
  暖色偏移分别承载证据强度、争议程度、失败边界数

质量门禁
- validate_research.py 新增三项检查:声明的变量符号必须至少有一个出现
  在公式中、声明的 reproduction.public_data 必须解析到已声明数据集、
  每个有主张的论文必须至少声明一个相关失败模式
- 场景的 current_best_methods 允许为空,把"尚无公开报告"作为研究信号
- 场景的 available_datasets / evaluation_metrics / open_failure_modes
  现在做交叉引用解析

研究资产
- docs/data/research/cross_review_round1.md 保留交叉审查报告全文以便溯源

https://claude.ai/code/session_01QaomjzMa4sajRLK4MgWbVw
…onstraints

第三轮把研究层从端到端规划与视觉语言动作扩展到强化学习骨干、离线强化
学习、世界模型与安全约束方向,并补足前端的持久化与深链能力。

新增可证伪主张(claims.json,由 8 条增至 12 条)
- claim:ppo_clipped_surrogate_stabilizes_policy_gradient
  PPO 截断代理目标在多个连续控制基准上稳定策略改进,附 lab_dqn_ppo_sac
  的最小复现路径
- claim:offline_rl_conservatism_avoids_q_overestimation
  CQL 风格保守惩罚在分布外动作上避免 Q 值过估计的理论与实证,附
  lab_cql_offline_minigrid 的最小复现
- claim:world_model_imagination_reduces_sample_complexity
  世界模型隐空间想象在固定真实步数预算下提高最终回报,附
  lab_dreamer_cartpole_pixels 的最小复现
- claim:bitter_lesson_handcrafted_priors_decline_under_scale
  对 Bitter Lesson 的可证伪化叙述,含 dispute_level 3 的高度争议与对
  安全关键长尾的边界保留

新增失败模式(failure_modes.json,由 12 条增至 17 条)
- on_policy_rl_sample_inefficiency_for_safety_critical_events
- offline_rl_extrapolation_error
- world_model_compounding_imagination_error
- scaling_bet_failure_on_safety_critical_long_tail
- safety_constraint_lagrangian_oscillation

新增论文论证链(argument_chains.json,由 4 条增至 6 条)
- chain:offline_rl_versus_imitation_under_distribution_shift
  在统一覆盖几何与统一闭环上把 BC、DAgger、CQL、BCQ 做公平对比
- chain:safety_constraint_layering_for_end_to_end_planning
  端到端规划之上叠加显式安全约束层的代价收益评估

新增三层实验计划(experiment_plans.json,由 4 条增至 6 条)
- 与上述两条论证链一一对应,含算力预算与至少 8 种子 + bootstrap 95%
  置信区间的硬要求

工作台前端
- 选择篮通过 localStorage 持久化,刷新与新开标签页保留所选对象
- 任意主张、论证链、场景、数据集、指标、失败模式、实验计划支持通过
  URL hash 锚点直接深链定位,命中时短时高亮便于在分享链接里直达
- 加入 wb-anchor-pulse 样式

下一步:跑独立交叉审查代理对扩充后的研究层做完整审查。

https://claude.ai/code/session_01QaomjzMa4sajRLK4MgWbVw
…rd links

CI 加固
- 把 tools/lint_extended_cards.py 接入 validate workflow(先标记
  continue-on-error 以容许预先存在的扩展卡片断链清理)
- 加入 node_overlay.json 同步性检查:CI 重跑 build_research_overlay 后
  必须 git diff 无变化,强制源文件与派生叠加层一致
- 加入 tools/screenshot_regression.py 调用,Playwright 缺失时优雅退出

新增工具 tools/screenshot_regression.py
- 用 Playwright 在桌面 1440x900 与移动 390x844 两套视口下截取工作台与
  三维星图的关键路由,与 baselines 像素级对比
- 支持 --bake 重新生成基线(用于有意视觉变更后的重灌)
- Playwright 未安装时退出 0 并打印安装提示,不阻塞 CI

工作台增强
- 点击任意主张、论证链、场景、数据集、指标、失败模式、实验计划的卡片
  标题即可把对应永久链接(包括视图与节点锚点)复制到剪贴板并写回地址栏
- 卡片标题悬停提示"点击复制可分享链接"
- 配合 wb-anchor-pulse 高亮,使审稿讨论可以直接定位到特定证据条目

https://claude.ai/code/session_01QaomjzMa4sajRLK4MgWbVw
…r nodes

按照独立审查代理在 docs/data/research/cross_review_round3.md 中给出的 Top 3
最高杠杆修订系统性落地,结束 Round 3 留下的悬空引用与确认偏倚。

新增 graph 节点
- paper:kumar2020_cql(Tier S,离线 RL 保守惩罚原始论文)
- paper:fujimoto2019_bcq(Tier A,行为约束离线 Q 学习)
- paper:hafner2020_dreamer(Tier S,隐空间想象 RL)
- 三张完整论文卡片,含 Bitter-Lesson 视角与最小复现实验入口
- 6 条新边把这些节点接入 course:cs285、paper:mnih2015_dqn、paper:world_models

claims.json
- claim:offline_rl_conservatism_avoids_q_overestimation 的 subject 从
  paper:mnih2015_dqn 改为 paper:kumar2020_cql,移除 unresolved_subject 标记
- claim:world_model_imagination_reduces_sample_complexity 的 subject 从
  paper:world_models 改为 paper:hafner2020_dreamer,并把 evidence_strength
  与 reproducibility_status 升级到 verified
- claim:ppo_clipped_surrogate_stabilizes_policy_gradient 的 PPO 引用表号
  从"表 3"改正为"表 1 与图 3"(论文 MuJoCo 实际位置),ε 默认值明确为 0.2
- 三条 RL claim 的 reproduction.public_data 由 dataset:carla_town05_long
  改为新建的 dataset:rl_classic_control_suite,消除 CARLA 与 CartPole/
  MiniGrid lab 之间的虚假关联
- claim:bitter_lesson_handcrafted_priors_decline_under_scale 改写为
  分时段量化版本:要求数据规模翻倍至少一次时端到端相对模块化的闭环
  碰撞率差距在多种子均值上单调收窄至少 20%,去除原"差距同向变化"
  的不可证伪表述

datasets.json
- 新增 dataset:rl_classic_control_suite(CartPole / MiniGrid / DM Control),
  含 supports / limits / common_misuses 完整字段

argument_chains.json
- chain:offline_rl_versus_imitation_under_distribution_shift 的
  subject_papers 与 strong_baselines 改为 BC / DAgger / CQL / BCQ,消除
  原 method_mechanism 与 subject 的内部矛盾
- 加入"D4RL 上 CQL 强于 BC 的差距可能来源于归一化与超参"这一最锋利的
  审稿人攻击
- chain:safety_constraint_layering_for_end_to_end_planning 的魔术数字
  3% 替换为 nuPlan 官方 Driving Score 容忍区间锚定的可证伪阈值
- 同一论证链的 negative_results 从"超过 3% 说明需要重新设计"改写为
  "长尾子集碰撞率下降未达主分布损失 2 倍以上则代价收益不成立"
- 加入 nuPlan PDM 基于规则的强基线作为 strong_baselines 对照锚点

experiment_plans.json
- offline_rl_versus_imitation Tier-2 baselines 改为 BC / DAgger / CQL /
  BCQ,与 chain 一致;compute_budget 由 1800 提升到 3600 GPU 小时
- offline_rl_versus_imitation Tier-3 的 sensor_dropout 与
  counterfactual_branches 由"不适用"改写为对此次计划只用低维观测的
  显式声明并指明视觉稳健性由其它计划覆盖
- safety_constraint_layering Tier-1 的"可被解释"成功判据替换为
  约束满足率不低于 95%、主奖励相对下降不超过 10%、单帧延迟不超过
  100 毫秒的量化阈值
- safety_constraint_layering Tier-2 compute_budget 由 2200 提升到
  5500 A100 GPU 小时
- safety_constraint_layering Tier-3 的 latency_budget 锚定到 nuPlan
  官方延迟限制;success_criteria 改写为相对未约束基线的恶化倍数

failure_modes.json
- on_policy_rl 的 PER 引用补上"off-policy 设计 + on-policy 需重要性采样
  修正"的真实技术细节
- safety_constraint_lagrangian 的 Tessler 引用补上 arXiv id 与 ICLR 2019
  venue
- offline_rl_extrapolation_error 与 scaling_bet_failure 的 residual_gap
  补上 D4RL medium-replay 与 nuScenes 长尾子集上的具体数字阈值

研究资产
- docs/data/research/cross_review_round3.md 保留交叉审查报告全文

https://claude.ai/code/session_01QaomjzMa4sajRLK4MgWbVw
新增覆盖矩阵视图
- docs/workbench.html / workbench.css / js/workbench.js 加入新视图,
  把场景 × 数据集与场景 × 当前最强方法的覆盖关系铺为二维表
- 空白格直接揭示当前结构化研究层中尚无可信公开报告的组合,是研究者
  挖掘新基准或新方法的天然切入点
- 表头与行头都做了基于 URL hash 的深链,便于在评审讨论里直接定位
- 桌面端横向滚动,移动端可滑动浏览

新增每轮自审文档
- docs/data/research/round_summary.md 用六个判定问题对每一轮做事后
  评分(是否更接近论文产出 / 是否减少了空洞叙事 / 是否增加了可证伪
  证据 / 是否帮助用户提出新问题 / 是否能经受审稿人质疑 / 是否通过
  实际页面与截图验证),并附累计交付计数表
- 该文档作为研究资产长期保留,每轮迭代都需要更新

https://claude.ai/code/session_01QaomjzMa4sajRLK4MgWbVw
新增「研究缺口」视图
- docs/workbench.html / js/workbench.js 加入 viewGaps,从结构化研究层
  自动机械导出五类研究机会:
  1. 尚无可信公开报告的场景(current_best_methods 为空)
  2. 有主张但无关联失败模式的论文
  3. 未被任何主张或场景引用的数据集
  4. 未被任何主张或场景引用的指标
  5. 未被任何主张或场景引用的失败模式
- 每类条目都做了 URL hash 深链,点击即可跳转到对应卡片
- 视图把"研究者下一步可以写什么"显式化,把结构化研究层从静态展示
  升级为可主动产出研究问题的生产工具

https://claude.ai/code/session_01QaomjzMa4sajRLK4MgWbVw
@ChatGPU ChatGPU merged commit d77ff0b into main May 28, 2026
1 check passed
ChatGPU added a commit that referenced this pull request May 28, 2026
…cture

Revert "Merge pull request #21" — roll main back to the previous merge (a45e397)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants