Kamal Ndousse 个人学术档案 - 学术资源搜索

引用次数

	总计	2019 年至今
引用	4143	4115
h 指数	16	15
i10 指数	17	16

0

2500

1250

625

1875

202120222023202414 123 1554 2406

Kamal Ndousse

Kamal Ndousse

Anthropic

在 anthropic.com 的电子邮件经过验证 - 首页

reinforcement learning multi-agent AI alignment large language models


标题按引用次数排序按年份排序按标题排序	引用次数引用次数	年份
Training a helpful and harmless assistant with reinforcement learning from human feedback Y Bai, A Jones, K Ndousse, A Askell, A Chen, N DasSarma, D Drain, ... arXiv preprint arXiv:2204.05862, 2022	1062	2022
Constitutional ai: Harmlessness from ai feedback Y Bai, S Kadavath, S Kundu, A Askell, J Kernion, A Jones, A Chen, ... arXiv preprint arXiv:2212.08073, 2022	844	2022
A general language assistant as a laboratory for alignment A Askell, Y Bai, A Chen, D Drain, D Ganguli, T Henighan, A Jones, ... arXiv preprint arXiv:2112.00861, 2021	349*	2021
Red teaming language models to reduce harms: Methods, scaling behaviors, and lessons learned D Ganguli, L Lovitt, J Kernion, A Askell, Y Bai, S Kadavath, B Mann, ... arXiv preprint arXiv:2209.07858, 2022	328	2022
In-context learning and induction heads C Olsson, N Elhage, N Nanda, N Joseph, N DasSarma, T Henighan, ... arXiv preprint arXiv:2209.11895, 2022	274*	2022
A mathematical framework for transformer circuits N Elhage, N Nanda, C Olsson, T Henighan, N Joseph, B Mann, A Askell, ... Transformer Circuits Thread 1 (1), 12, 2021	267*	2021
Predictability and surprise in large generative models D Ganguli, D Hernandez, L Lovitt, A Askell, Y Bai, A Chen, T Conerly, ... Proceedings of the 2022 ACM Conference on Fairness, Accountability, and …, 2022	236	2022
Discovering language model behaviors with model-written evaluations E Perez, S Ringer, K Lukošiūtė, K Nguyen, E Chen, S Heiner, C Pettit, ... arXiv preprint arXiv:2212.09251, 2022	178	2022
The capacity for moral self-correction in large language models D Ganguli, A Askell, N Schiefer, TI Liao, K Lukošiūtė, A Chen, A Goldie, ... arXiv preprint arXiv:2302.07459, 2023	122	2023
Language models (mostly) know what they know S Kadavath, T Conerly, A Askell, T Henighan, D Drain, E Perez, ... arXiv preprint arXiv:2207.05221, 2022	114	2022
Towards understanding sycophancy in language models M Sharma, M Tong, T Korbak, D Duvenaud, A Askell, SR Bowman, ... arXiv preprint arXiv:2310.13548, 2023	82	2023
Evolution through large models J Lehman, J Gordon, S Jain, K Ndousse, C Yeh, KO Stanley Handbook of Evolutionary Machine Learning, 331-366, 2023	73	2023
Emergent social learning via multi-agent reinforcement learning KK Ndousse, D Eck, S Levine, N Jaques International conference on machine learning, 7991-8004, 2021	71*	2021
Measuring progress on scalable oversight for large language models SR Bowman, J Hyun, E Perez, E Chen, C Pettit, S Heiner, K Lukošiūtė, ... arXiv preprint arXiv:2211.03540, 2022	66	2022
Sleeper agents: Training deceptive llms that persist through safety training E Hubinger, C Denison, J Mu, M Lambert, M Tong, M MacDiarmid, ... arXiv preprint arXiv:2401.05566, 2024	33	2024
Baryons and baryonic matter in the large and heavy quark limits TD Cohen, N Kumar, KK Ndousse Physical Review C—Nuclear Physics 84 (1), 015204, 2011	29	2011
Specific versus general principles for constitutional ai S Kundu, Y Bai, S Kadavath, A Askell, A Callahan, A Chen, A Goldie, ... arXiv preprint arXiv:2310.13798, 2023	15	2023

系统目前无法执行此操作，请稍后再试。

文章 1–17

共建清朗的网络空间,如遇有害信息,请举报。
本站数据皆整合自互联网公开资源索引,方便科研学术方面查询,并不存储相关数据资源;如对此有异议,请联系我们解决.
© 2023 学术资源搜索 @联系我们 | 申请短期会员 | 数据源提交