Yuzhen Huang's picture

Yuzhen Huang

yuzhen17

·

https://hyz17.github.io

HYZ17

AI & ML interests

None yet

Recent Activity

upvoted a paper 2 days ago

OpenCUA: Open Foundations for Computer-Use Agents

upvoted a paper 2 days ago

DINOv3

upvoted a paper 2 days ago

Speed Always Wins: A Survey on Efficient Architectures for Large Language Models

View all activity

Organizations

upvoted 3 papers 2 days ago

OpenCUA: Open Foundations for Computer-Use Agents

Paper • 2508.09123 • Published 10 days ago • 27

DINOv3

Paper • 2508.10104 • Published 9 days ago • 171

Speed Always Wins: A Survey on Efficient Architectures for Large Language Models

Paper • 2508.09834 • Published 10 days ago • 45

upvoted a paper 10 days ago

Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning

Paper • 2508.08221 • Published 11 days ago • 40

upvoted 3 papers 17 days ago

Qwen-Image Technical Report

Paper • 2508.02324 • Published 19 days ago • 213

Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving

Paper • 2507.23726 • Published 22 days ago • 108

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward

Paper • 2508.03686 • Published 17 days ago • 33

upvoted a paper 21 days ago

Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning

Paper • 2507.17512 • Published about 1 month ago • 36

upvoted an article 24 days ago

Article

Introducing Trackio: A Lightweight Experiment Tracking Library from Hugging Face

By

and 4 others •

25 days ago

• 158

upvoted 2 papers 24 days ago

Group Sequence Policy Optimization

Paper • 2507.18071 • Published 30 days ago • 289

Agentic Reinforced Policy Optimization

Paper • 2507.19849 • Published 28 days ago • 141

upvoted 4 papers about 1 month ago

Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR

Paper • 2507.15778 • Published Jul 21 • 19

SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

Paper • 2507.12415 • Published Jul 16 • 41

NeuralOS: Towards Simulating Operating Systems via Neural Generative Models

Paper • 2507.08800 • Published Jul 11 • 79

Scaling RL to Long Videos

Paper • 2507.07966 • Published Jul 10 • 156

upvoted 4 papers about 2 months ago

Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

Paper • 2506.23918 • Published Jun 30 • 86

Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Paper • 2506.21551 • Published Jun 26 • 28

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

Paper • 2506.20512 • Published Jun 25 • 46

Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs

Paper • 2506.19290 • Published Jun 24 • 50

upvoted a paper 2 months ago

Reinforcement Pre-Training

Paper • 2506.08007 • Published Jun 9 • 255