Kimi

3 月 19 日，Cursor 发布 Composer 2，主打前沿级编码性能，并把价格压到每百万输入 token 2.5 美元。官方公告的重点是性能、强化学习训练和更低成本，整篇都在把它包装成 Cursor 自家的新一代编码模型。

但这层包装没有撑太久。

开发者 Fynn 在调试 Composer 2 请求时，抓到了 `accounts/anysphe

月之暗面最近放出的 Attention Residuals 技术报告，把注意力放回到了 Transformer 里一块更基础的结构：残差连接。它关心的重点，不是参数量和上下文长度，而是层与层之间的信息怎么传。

论文的核心做法，是把标准残差里“前面各层输出统一相加”的固定路径，换成沿深度维度做一次 attention。换句话说，每一层不再默认把所有历史层输出等权吃进去，而是可以按内容选择性聚合更早层的表示。Moonshot 把这套设计叫做 Attention Residua