LongThought可视化界面

说明

三种构树方式： PRM800k-based, Teacher-student-based(暂未), Teacher-only-based(暂未)

树的可视化: 红色节点表示rating为-1，黄色节点表示rating为0，绿色节点表示rating为1。

实际用于训练的CoT以及SFT后得到的模型：

Training Data	Model
ground truth solution	deepseek-math-7b-base-sft-math-vanilla
prm800k_cot_from_tree_train_678_shortcut	deepseek-math-7b-base-sft-math-shortcut
prm800k_cot_from_tree_train_678（大量重复和冗余）	deepseek-math-7b-base-sft-math
prm800k_cot_from_tree_train_678_v1	deepseek-math-7b-base-sft-math-v1
prm800k_cot_from_tree_train_678_v2	deepseek-math-7b-base-sft-math-v2
prm800k_cot_from_tree_train_678_v3	deepseek-math-7b-base-sft-math-v3

三个例子

其中，将gpt4o给出的rating为-1或者0，但是在beam-search过程中根据reward model给出的打分被选择的冲突节点，用红色圆框标识。

Name		Name	Last commit message	Last commit date
Latest commit History 96 Commits
.devcontainer		.devcontainer
.github		.github
data		data
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
dpo.py		dpo.py
hack_o1.py		hack_o1.py
jl.py		jl.py
limo.py		limo.py
packages.txt		packages.txt
requirements.txt		requirements.txt
streamlit_app.py		streamlit_app.py
utils.py		utils.py