Archive - arXiv Daily

2025년 7월 15일

Scaling Laws for Optimal Data Mixtures

Jul 15 •

2025년 7월 14일

Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

Jul 14 •

2025년 7월 11일

Why is Your Language Model a Poor Implicit Reward Model?

Jul 11 •

2025년 7월 10일

First Return, Entropy-Eliciting Explore

Jul 10 •

2025년 7월 9일

Skywork-R1V3 Technical Report

Jul 9 •

2025년 7월 8일

Pre-Trained Policy Discriminators are General Reward Models

Jul 8 •

2025년 7월 4일

Flexible Language Modeling in Continuous Space with Transformer-based Autoregressive Flows

Jul 4 •

2025년 7월 3일

Self-Guided Process Reward Optimization with Masked Step Advantage for Process Reinforcement Learning

Jul 3 •

2025년 7월 1일

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

Jul 1 •

June 2025

2025년 6월 30일

ERNIE 4.5 Technical Report

Jun 30 •

2025년 6월 27일

Bridging Offline and Online Reinforcement Learning for LLMs

Jun 27 •

2025년 6월 26일

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

Jun 26 •

#nojs-banner { position: fixed; bottom: 0; left: 0; padding: 16px 16px 16px 32px; width: 100%; box-sizing: border-box; background: red; color: white; font-family: -apple-system, "Segoe UI", Roboto, Helvetica, Arial, sans-serif, "Apple Color Emoji", "Segoe UI Emoji", "Segoe UI Symbol"; font-size: 13px; line-height: 13px; } #nojs-banner a { color: inherit; text-decoration: underline; } This site requires JavaScript to run correctly. Please turn on JavaScript or unblock scripts