多模态

4月2日，智谱AI（Z.ai）发布GLM-5V-Turbo，首款原生多模态编程基础模型。模型原生支持图像、视频、文本等多模态输入，上下文窗口200K，最大输出128K tokens。

模型定位

GLM-5V-Turbo的定位很明确：一个"看得见、写得出"的编程模型。它不是在文本模型上嫁接视觉能力，而是从预训练阶段就做多模态融合，CogViT视觉编码器与MTP推理架构协同工作，用更小的参数量在多模态编程和Agent任务基准上拿到了领先成绩。

四层系统升级

官方将技术升级总结为四个层面：

原生多模态融合：预训练到后训练全程强化视觉-文本对齐，配合新的CogViT视觉编

通义实验室发布并开源了影视配音模型 Fun-CineForge。按官方介绍，它面向独白、旁白、对话、多说话人等多种影视场景，底层基于 CosyVoice3 的语音合成能力构建；对应论文也已上线 arXiv。

这条消息真正值得看的，是这套模型把“时间”当成了一个单独的模态来处理。

为什么“时间模态”这件事重要

传统配音模型更常依赖文本、参考音色和可见嘴型去做音画同步。但影视场景远比单人正脸说话复杂：镜头切换、多人对话、人物遮挡、脸部模糊，都会让“看嘴型配音”这条路迅速变难。

通义这次强调的关键创新，是把时间信息显式放进模型里，让模型不仅知道“说什么、像谁说”，还知道“谁在什么时候说