1月14日报道,今天,首个在国产芯片上完成全程训练的SOTA(最佳水平)多模态模型开源。
这是智谱联合华为开源的图像生成模型GLM-Image。从数据到训练的全流程,该模型完全基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成构建。
截至今日午间休市,智谱股价上涨16.83%。
在聚焦文字渲染的CVTG-2K、LongText-Bench榜单上,GLM-Image的得分超越了以谷歌Nano Banana Pro为代表的认知型生成模型。

▲GLM-Image在文字渲染的CVTG-2K、LongText-Bench榜单中达到开源SOTA水平
GLM-Image实现了图像生成与语言模型的联合,核心亮点如下:
1、架构革新,面向「认知型生成」的技术探索:采用创新的「自回归 + 扩散编码器」混合架构,兼顾全局指令理解与局部细节刻画,克服了海报、PPT、科普图等知识密集型场景生成难题。
2、首个在国产芯片完成全程训练的SOTA模型:模型自回归结构基座基于昇腾Atlas 800T A2设备与昇思MindSpore AI框架,验证了在国产全栈算力底座上训练前沿模型的可行性。
3、文字渲染开源SOTA:在CVTG-2K(复杂视觉文本生成)和LongText-Bench(长文本渲染)榜单获得开源第一,尤其擅长汉字生成任务。
4、高性价比与速度优化:API调用模式下,生成一张图片仅需0.1元,速度优化版本即将更新。
智东西第一时间对GLM-Image进行了体验,发现模型在汉字生成上准确度很高,优于谷歌Nano Banana Pro以及多款头部国内模型;能够较准确理解深层语义和知识概念,并将其转化为正确的视觉元素;能够在保证全局构图的同时较精准刻画局部细节。
同时,GLM-Image也存在字体风格呈现不准、生成需要等待时间、一些科学概念理解不足等问题;且相比于一些免费选择,其仍需要收取少量费用。