Abhay Sheshadri 个人学术档案

Jannik BrinkmannPhD student, University of Mannheim在 uni-mannheim.de 的电子邮件经过验证
Aidan EwartMaths Undergrad @ University of Bristol在 bristol.ac.uk 的电子邮件经过验证
Jacob PfauNYU在 nyu.edu 的电子邮件经过验证
Alex InfangerGraduate Student, Stanford University在 stanford.edu 的电子邮件经过验证
Phillip GuoUniversity of Maryland在 umd.edu 的电子邮件经过验证
Aaquib SyedStudent, University of Maryland在 umd.edu 的电子邮件经过验证
Gintare Karolina DziugaiteGoogle DeepMind在 google.com 的电子邮件经过验证
Stephen CasperPhD student, MIT在 mit.edu 的电子邮件经过验证
Aengus LynchUniversity College London, MATS在 ucl.ac.uk 的电子邮件经过验证
Ethan PerezAnthropic; New York University在 anthropic.com 的电子邮件经过验证
Dylan Hadfield-MenellMassachusetts Institute of Technology在 csail.mit.edu 的电子邮件经过验证
Asa Cooper SticklandPostdoctoral Researcher, New York University在 ed.ac.uk 的电子邮件经过验证

Abhay Sheshadri

在 gatech.edu 的电子邮件经过验证


标题按引用次数排序按年份排序按标题排序	引用次数引用次数	年份
Eliciting Language Model Behaviors using Reverse Language Models J Pfau, A Infanger, A Sheshadri, A Panda, J Michael, C Huebner NeurIPS SOLAR Workshop, 2023	6	2023
A mechanistic analysis of a transformer trained on a symbolic multi-step reasoning task J Brinkmann, A Sheshadri, V Levoso, P Swoboda, C Bartelt arXiv preprint arXiv:2402.11917, 2024	5	2024
Targeted Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs A Sheshadri, A Ewart, P Guo, A Lynch, C Wu, V Hebbar, H Sleight, ... arXiv preprint arXiv:2407.15549, 2024	1	2024
Robust Unlearning via Mechanistic Localizations PH Guo, A Syed, A Sheshadri, A Ewart, GK Dziugaite ICML 2024 Workshop on Mechanistic Interpretability, 2024		2024
Robust Knowledge Unlearning via Mechanistic Localizations PH Guo, A Syed, A Sheshadri, A Ewart, GK Dziugaite ICML 2024 Next Generation of AI Safety Workshop, 0
Backward Chaining Circuits in a Transformer Trained on a Symbolic Reasoning Task J Brinkmann, A Sheshadri, V Levoso, P Swoboda, C Bartelt ICLR 2024 Workshop on Mathematical and Empirical Understanding of Foundation …, 0

系统目前无法执行此操作，请稍后再试。

文章 1–6

每年引用数