Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于long-cot有个问题想请教一下 #8

Open
byhteng opened this issue Dec 28, 2024 · 1 comment
Open

关于long-cot有个问题想请教一下 #8

byhteng opened this issue Dec 28, 2024 · 1 comment

Comments

@byhteng
Copy link

byhteng commented Dec 28, 2024

看过论文之后,有一个问题想请教一下作者。一般来说为了快速使模型具备long-cot风格的回答能力,可以从其他off-the-shelf模型上蒸馏一些数据,但long-cot是否会加重模型的幻觉而产生不可控的long-cot行为?比如本来能正确的回答步骤被错误的答案“误导”导致加长cot过程,以及本来错误的回答被强行引导到“知识领域以外”的回答上(比如初中生对于和差化积公式不熟练,但强行按照高中生和差化积的解法,可能会一定程度导致幻觉)。

请问一下作者是否研究过这种情况有多大影响以及是否有什么缓解方案?以及是否有一些基于模型自身进行self-play或者左脚踩右脚来获取long-cot数据的通用方法论?

@EliverQ
Copy link
Contributor

EliverQ commented Jan 2, 2025

您好!感谢您的关注。

这种情况是会出现的,我们认为可能模型在早期通过模仿来学习这种long-cot风格会出现学习的不太好的情况,比如简单题说了很多不必要的步骤,难题思考又不够深入的情况,因此如果直接进行self-play可能不会得到很好的效果。
在实践过程早期,我们发现response的长度是一个很重要的因素,因此选择模型自身探索的数据时也主要通过长度来进行一定的控制。我们假设标注模型(例如dpsk)的response质量相对来说是比较高的,因此在response正确的情况下,我们会参考dpsk对于某类问题(例如aime. olympiad)的长度分布来选取模型自己探索对应种类问题的response,这样选择出来的数据会比随机选取的效果好一些。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants