标签: 多模态 清除筛选
    智谱GLM-5V-Turbo:首款原生多模态编程基础模型
    智谱GLM-5V-Turbo:首款原生多模态编程基础模型

    4月2日,智谱AI(Z.ai)发布GLM-5V-Turbo,首款原生多模态编程基础模型。模型原生支持图像、视频、文本等多模态输入,上下文窗口200K,最大输出128K tokens。

    模型定位

    GLM-5V-Turbo的定位很明确:一个"看得见、写得出"的编程模型。它不是在文本模型上嫁接视觉能力,而是从预训练阶段就做多模态融合,CogViT视觉编码器与MTP推理架构协同工作,用更小的参数量在多模态编程和Agent任务基准上拿到了领先成绩。

    四层系统升级

    官方将技术升级总结为四个层面:

    原生多模态融合:预训练到后训练全程强化视觉-文本对齐,配合新的CogViT视觉编

    通义开源影视级配音大模型 Fun-CineForge,关键变化是把“时间”也做进了模型
    通义开源影视级配音大模型 Fun-CineForge,关键变化是把“时间”也做进了模型

    通义实验室发布并开源了影视配音模型 Fun-CineForge。按官方介绍,它面向独白、旁白、对话、多说话人等多种影视场景,底层基于 CosyVoice3 的语音合成能力构建;对应论文也已上线 arXiv。

    这条消息真正值得看的,是这套模型把“时间”当成了一个单独的模态来处理。

    为什么“时间模态”这件事重要

    传统配音模型更常依赖文本、参考音色和可见嘴型去做音画同步。但影视场景远比单人正脸说话复杂:镜头切换、多人对话、人物遮挡、脸部模糊,都会让“看嘴型配音”这条路迅速变难。

    通义这次强调的关键创新,是把时间信息显式放进模型里,让模型不仅知道“说什么、像谁说”,还知道“谁在什么时候说