RewardModel计算两个response之间的差异部分疑问 #5

Kang9779 · 2023-10-08T13:42:52Z

RewardModel计算两个response之间的差异：end_ind的计算是通过end_ind = max(one_ind, two_ind)算的，为什么不是直接比较one_input_ids和two_input_ids差异的最后一个值，也就是check_divergence[-1]来获得。

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

RewardModel计算两个response之间的差异部分疑问 #5

RewardModel计算两个response之间的差异部分疑问 #5

Kang9779 commented Oct 8, 2023 •

edited

Loading

RewardModel计算两个response之间的差异部分疑问 #5

RewardModel计算两个response之间的差异部分疑问 #5

Comments

Kang9779 commented Oct 8, 2023 • edited Loading

Kang9779 commented Oct 8, 2023 •

edited

Loading