Kyle O'Brien's picture

Kyle O'Brien PRO

Kyle1668

·

https://kyobrien.io

AI & ML interests

Interpretability, model editing, alignment

Recent Activity

updated a model 1 day ago

EleutherAI/neox-ckpt-deep-ignorance-pretraining-stage-unfiltered

updated a model 1 day ago

EleutherAI/neox-ckpt-deep-ignorance-pretraining-stage-unfiltered

updated a model 1 day ago

EleutherAI/neox-ckpt-deep-ignorance-pretraining-stage-unfiltered

View all activity

Organizations

upvoted a paper 11 days ago

Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

Paper • 2508.06601 • Published 14 days ago • 6

upvoted a collection over 1 year ago

Improving Black-box Robustness with In-Context Rewriting

24 items • Updated Feb 20, 2024 • 1