Hunyuan宣布 HunyuanImage 3.0 的发布与开源——据说这是迄今为止最大、最强的开源文生图模型,其总参数量超过800亿,推理时每个 token 会激活其中的130亿参数。 其效果完全可以媲美业界顶级的闭源模型。🚀🚀🚀
HunyuanImage 3.0 源于Hunyuan内部自研的原生多模态大语言模型,并针对文生图任务进行了微调和后训练。 这一独特的根基赋予了模型一系列强大能力: ✅运用世界知识进行推理 ✅理解上千字的复杂提示词 ✅在图片中生成精准的文字
与传统的 DiT 架构图像生成模型不同,HunyuanImage 3.0 的 MoE 架构采用了一种基于 Transfusion 的方法,将 Diffusion 和 LLM 训练深度耦合,形成一个统一的强大系统。
HunyuanImage 3.0 基于 Hunyuan-A13B,在一个庞大的数据集上进行训练:50亿个图文对、视频帧、交错的图文数据,以及6万亿 token 的文本语料库。 这种跨多模态生成、理解和 LLM 能力的混合训练,使模型能够无缝集成多项任务。
无论你是插画师、设计师还是创作者,它都能将你的工作流程从数小时缩短到几分钟。 HunyuanImage 3.0 能够生成复杂的文字、精细的漫画、富有表现力的表情符号,以及用于教育内容的生动有趣的插图。
7.2K