17370845950

新闻动态

智谱开源多模态大模型 GLM-4.6V 系列

智谱ai正式推出glm-4.6v系列开源多模态大模型，涵盖旗舰级glm-4.6v（106b-a12b）与轻量免费版glm-4.6v-flash（9b）。该系列首创“图像即参数，结果即上下文”的原生多模态工具调用机制，支持高达128k的视觉上下文长度，可一次性解析约150页pdf文档或长达1小时的视频内容。

GLM-4.6V（106B-A12B）：专为云端服务及高性能计算集群优化的基础版本；
GLM-4.6V-Flash（9B）：面向终端设备、边缘部署及低延迟交互场景设计的精简版本。

作为GLM家族在多模态方向的关键升级，GLM-4.6V将训练阶段支持的最大上下文扩展至128K tokens，在视觉理解准确率方面刷新同参数量级SOTA纪录，并首次在模型底层架构中深度集成 Function Call（函数/工具调用）能力，实现从「视觉输入感知」到「可执行操作指令」的端到端闭环，为构建真正可用的多模态智能体（Multimodal Agent）提供统一、高效的技术支撑。

在涵盖图文问答、视觉推理、跨模态检索等在内的30余项权威多模态基准测试中，GLM-4.6V全面领跑同规模竞品；其API调用成本相较前代下降50%。典型落地场景包括：AI图文协同创作、视觉驱动的智能导购助手、网页截图→前端代码一键生成、以及长时序视频内容结构化分析。全部模型权重与配套代码已同步上线GitHub、Hugging Face及魔搭（ModelScope）平台。

开源与部署

为降低开发者使用门槛，智谱同步开放完整技术栈：模型权重、推理脚本、示例工程及在线体验入口。

开源资源

GLM-4.6V全系列模型权重、推理代码与参考项目均已开源：

GitHub：https://www./link/bcb05a6084cb31de74aeeb74e1ff1b92
Hugging Face：https://www./link/b08d78964e17a35d839c83272194e1c4
魔搭社区：https://www./link/91ca7ff824876a675d873fe72d715f49

当前已适配主流推理框架，包括 SGLang、vLLM、transformers、xLLM 及昇腾NPU专用加速库，支持在NVIDIA GPU及多种国产AI芯片（如昇腾Ascend）环境下灵活部署GLM-4.6V与GLM-4.6V-Flash。

开放平台与在线调用

除本地化部署外，智谱还提供全托管式云推理服务与标准化API接口，助力企业快速集成：

官方开放平台文档：https://www./link/99b3613c6a997dc4195f957f89282e0c
Coding Plan 视觉MCP服务：https://www./link/6f1098383b8d527a7b2391d00b0dda70

在线体验通道：

z.ai：切换至 GLM-4.6V 模型，实时体验多模态理解与原生工具调用；
智谱清言 APP / 网页端：上传任意图片或视频，启用「推理模式」，畅享长上下文多模态分析能力。

技术深度解析博客：z.ai/blog/glm-4.6v

源码地址：点击下载

17370845950

开源与部署

开源资源

开放平台与在线调用

在线体验通道：

关于我们

服务项目

广告推广

案例欣赏