Paper Notes

Reading notes — mostly on RL, reasoning, reward models, and other ML papers I've found interesting.

#meta #misc #reasoning #reward-model #rl #survey #vlm

2026

2026-06-11
TikZ Rendering Test meta

2025

2025-03-05
前端工具链小记 misc
2025-03-05
VLM 知识蒸馏 vlm
2025-02-18
参数计算 misc
2025-01-24
Alignment 算力小记 misc rl

2024

2024-12-20
ISR 1220 杂记 misc
2024-09-23
Quiet-STaR reasoning
2024-09-23
Retrieval-Augmented Generation for AI-Generated Content: A Survey survey
2024-09-23
Training Language Models to Self-Correct via Reinforcement Learning rl reasoning
2024-09-23
To CoT or Not to CoT? Chain-of-Thought Helps Mainly on Math and Symbolic Reasoning reasoning
2024-09-16
LLM Notes misc
2024-09-14
Generative Verifiers: Reward Modeling as Next-Token Prediction reward-model
2024-09-08
LLM Know What They Know reasoning
2024-09-02
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning reasoning
2024-08-28
Critique-out-Loud Reward Models reward-model rl
2024-08-01
好博客 misc
2024-07-17
Note 2024-07-17 misc
2024-07-15
Graph Learning: A Survey survey
2024-07-15
Math RLHF Papers rl reasoning
2024-07-03
Shepherd-MCTS reasoning
2024-06-29
In-Context Reinforcement Learning With Algorithm Distillation rl
2024-06-15
LLM Critics Help Catch LLM Bugs reward-model reasoning
2024-06-15
Many-Shot In-Context Learning reasoning vlm
2024-06-15
Torch Distribute 环境变量 misc