Subscribe
Sign in
Home
Archive
About
Latest
Top
Discussions
2025년 7월 15일
Scaling Laws for Optimal Data Mixtures
Jul 15
•
Kim Seonghyeon
Share this post
arXiv Daily
2025년 7월 15일
Copy link
Facebook
Email
Notes
More
2025년 7월 14일
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling
Jul 14
•
Kim Seonghyeon
Share this post
arXiv Daily
2025년 7월 14일
Copy link
Facebook
Email
Notes
More
2025년 7월 11일
Why is Your Language Model a Poor Implicit Reward Model?
Jul 11
•
Kim Seonghyeon
Share this post
arXiv Daily
2025년 7월 11일
Copy link
Facebook
Email
Notes
More
2025년 7월 10일
First Return, Entropy-Eliciting Explore
Jul 10
•
Kim Seonghyeon
Share this post
arXiv Daily
2025년 7월 10일
Copy link
Facebook
Email
Notes
More
2025년 7월 9일
Skywork-R1V3 Technical Report
Jul 9
•
Kim Seonghyeon
Share this post
arXiv Daily
2025년 7월 9일
Copy link
Facebook
Email
Notes
More
2025년 7월 8일
Pre-Trained Policy Discriminators are General Reward Models
Jul 8
•
Kim Seonghyeon
7
Share this post
arXiv Daily
2025년 7월 8일
Copy link
Facebook
Email
Notes
More
2025년 7월 4일
Flexible Language Modeling in Continuous Space with Transformer-based Autoregressive Flows
Jul 4
•
Kim Seonghyeon
Share this post
arXiv Daily
2025년 7월 4일
Copy link
Facebook
Email
Notes
More
2025년 7월 3일
Self-Guided Process Reward Optimization with Masked Step Advantage for Process Reinforcement Learning
Jul 3
•
Kim Seonghyeon
Share this post
arXiv Daily
2025년 7월 3일
Copy link
Facebook
Email
Notes
More
2025년 7월 1일
SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning
Jul 1
•
Kim Seonghyeon
Share this post
arXiv Daily
2025년 7월 1일
Copy link
Facebook
Email
Notes
More
June 2025
2025년 6월 30일
ERNIE 4.5 Technical Report
Jun 30
•
Kim Seonghyeon
Share this post
arXiv Daily
2025년 6월 30일
Copy link
Facebook
Email
Notes
More
2025년 6월 27일
Bridging Offline and Online Reinforcement Learning for LLMs
Jun 27
•
Kim Seonghyeon
Share this post
arXiv Daily
2025년 6월 27일
Copy link
Facebook
Email
Notes
More
2025년 6월 26일
OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling
Jun 26
•
Kim Seonghyeon
Share this post
arXiv Daily
2025년 6월 26일
Copy link
Facebook
Email
Notes
More
Share
Copy link
Facebook
Email
Notes
More
This site requires JavaScript to run correctly. Please
turn on JavaScript
or unblock scripts