能否直接提供强化学习完成的模型权重？

作者您好！这篇文章将GRPO算法应用到了知识图谱+RAG领域非常的令人瞩目，但是如果我们复现的时候手边没有大现存的A100（80G）显卡，比较难以复现代码段中的强化学习部分，同时又很想直接推理结果。请问您是否方便直接提供强化学习完成之后的模型权重？