标签: Kimi 清除筛选
    Cursor Composer 2 被扒出底座是 Kimi K2.5,署名争议随之爆开
    Cursor Composer 2 被扒出底座是 Kimi K2.5,署名争议随之爆开

    3 月 19 日,Cursor 发布 Composer 2,主打前沿级编码性能,并把价格压到每百万输入 token 2.5 美元。官方公告的重点是性能、强化学习训练和更低成本,整篇都在把它包装成 Cursor 自家的新一代编码模型。

    但这层包装没有撑太久。

    开发者 Fynn 在调试 Composer 2 请求时,抓到了 `accounts/anysphe

    月之暗面改了 Transformer 的残差连接,48B Kimi Linear 跑出约 1.25 倍等效算力优势
    月之暗面改了 Transformer 的残差连接,48B Kimi Linear 跑出约 1.25 倍等效算力优势
    月之暗面改了 Transformer 的残差连接,48B Kimi Linear 跑出约 1.25 倍等效算力优势

    月之暗面最近放出的 Attention Residuals 技术报告,把注意力放回到了 Transformer 里一块更基础的结构:残差连接。它关心的重点,不是参数量和上下文长度,而是层与层之间的信息怎么传。

    论文的核心做法,是把标准残差里“前面各层输出统一相加”的固定路径,换成沿深度维度做一次 attention。换句话说,每一层不再默认把所有历史层输出等权吃进去,而是可以按内容选择性聚合更早层的表示。Moonshot 把这套设计叫做 Attention Residua