压缩即智能!
今天在打 MCTS eval 的数据,发现 solution + instruction 长度已经超过 2048 了。模型 context length
一定是有界的,能塞下多少取决于我们怎么压缩。
什么时候能不写这么多 typo 啊 TT
压缩即智能!
今天在打 MCTS eval 的数据,发现 solution + instruction 长度已经超过 2048 了。模型 context length
一定是有界的,能塞下多少取决于我们怎么压缩。
什么时候能不写这么多 typo 啊 TT