关注
yaswanth chittepu
标题
引用次数
引用次数
年份
Scaling laws for reward model overoptimization in direct alignment algorithms
R Rafailov, Y Chittepu, R Park, H Sikchi, J Hejna, B Knox, C Finn, ...
arXiv preprint arXiv:2406.02900, 2024
232024
系统目前无法执行此操作,请稍后再试。