如何使用
你好, 在model card上面的说明中, 我看到你们在prompt中加入了reference answer, 加入这个的作用是什么. 在使用工作中,如果没有 reference answer 是否可以? 具体场景就是. 让AI解决一个问题, 它给出了一个答案, 我用这个模型是否可以判断给出的答案是不是正确的?
非常期待你的回复. 另外是否可以直接使用数据来训练一个单标签回归模型来获得分数?
你好!
没有reference answer是不行的,本文的setting就是reference-based reward。如果是没有reference的情况,可以参考最近deepseek放出的文章Inference-Time Scaling for Generalist Reward Modeling。
此外,关于直接使用数据来训练一个单标签回归模型来获得分数,如果是有reference的setting下,我个人认为是可行的一个方案。如果没有reference的话,似乎与RLHF中的reward model是一样的,有可能仍然有hacking等reward model比较常见的问题。
你好!
没有reference answer是不行的,本文的setting就是reference-based reward。如果是没有reference的情况,可以参考最近deepseek放出的文章Inference-Time Scaling for Generalist Reward Modeling。
此外,关于直接使用数据来训练一个单标签回归模型来获得分数,如果是有reference的setting下,我个人认为是可行的一个方案。如果没有reference的话,似乎与RLHF中的reward model是一样的,有可能仍然有hacking等reward model比较常见的问题。
非常感谢您的回复. 我将持续关注您的工作.感谢您的讲解.