标签: GPU 清除筛选
Cursor 的 warp decode:翻转 MoE 推理并行轴,Blackwell 小批量吞吐提升 1.84 倍
Cursor 最近公布了一项名为 warp decode 的 MoE 推理优化方案。在 Blackwell GPU 的小批量自回归解码场景中,他们将计算组织方式从"围绕专家"改为"围绕输出",在 B200 上实现了 1.84 倍的吞吐提升。
同时,去掉中间激活量化后,输出与 FP32 参考值的接近程度提升了 1.4 倍。性能和精度同时改善,在 kernel 优化领域并不多见。
苹果批准 AMD 与 NVIDIA 外置显卡驱动,Mac 本地 AI 算力有了新路径
苹果正式批准了由 Tiny Corp 开发的第三方驱动程序,允许 AMD 和 NVIDIA 的外置显卡(eGPU)在搭载 Apple Silicon 芯片的 Mac 设备上运行。这意味着用户无需再通过关闭系统完整性保护(SIP)等手段,即可通过 Thunderbolt 或 USB4 接口连接外置 GPU 进行 AI 大语言模型的推理与训练。
驱动定位:面向 AI,不是游戏值得注
英伟达 NTC 纹理压缩:显存降 85%,画质近乎无损
在 GTC 2026 大会上,英伟达展示了"神经纹理压缩"(Neural Texture Compression,NTC)技术。核心数据很直接:同一场景下,显存占用从 6.5 GB 降到 970 MB,降幅 85%,而画质肉眼几乎分辨不出差异。
NTC 的原理传统 3D 游戏使用块压缩算法(如 BCn 系列)来降低纹理占用的显存空间,但压缩率和画质之间存在取舍


