chain-of-thought - a zengxiangji Collection

zengxiangji 's Collections

context-engineering

aigc

reinforcement-learning

representation-learning

chain-of-thought

inference-optimization

chain-of-thought

updated 26 days ago

Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

Paper • 2505.24726 • Published May 30 • 268
Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

Paper • 2506.23918 • Published Jun 30 • 86