virtuoussy/Qwen2.5-7B-Instruct-RLVR

17 days ago

你好, 在model card上面的说明中, 我看到你们在prompt中加入了reference answer, 加入这个的作用是什么. 在使用工作中,如果没有 reference answer 是否可以? 具体场景就是. 让AI解决一个问题, 它给出了一个答案, 我用这个模型是否可以判断给出的答案是不是正确的?
非常期待你的回复. 另外是否可以直接使用数据来训练一个单标签回归模型来获得分数?

virtuoussy

Owner 17 days ago

你好！
没有reference answer是不行的，本文的setting就是reference-based reward。如果是没有reference的情况，可以参考最近deepseek放出的文章Inference-Time Scaling for Generalist Reward Modeling。
此外，关于直接使用数据来训练一个单标签回归模型来获得分数，如果是有reference的setting下，我个人认为是可行的一个方案。如果没有reference的话，似乎与RLHF中的reward model是一样的，有可能仍然有hacking等reward model比较常见的问题。

weiminw

12 days ago

你好！
没有reference answer是不行的，本文的setting就是reference-based reward。如果是没有reference的情况，可以参考最近deepseek放出的文章Inference-Time Scaling for Generalist Reward Modeling。
此外，关于直接使用数据来训练一个单标签回归模型来获得分数，如果是有reference的setting下，我个人认为是可行的一个方案。如果没有reference的话，似乎与RLHF中的reward model是一样的，有可能仍然有hacking等reward model比较常见的问题。

非常感谢您的回复. 我将持续关注您的工作.感谢您的讲解.

virtuoussy
/

Qwen2.5-7B-Instruct-RLVR

如何使用