Hunyuan宣佈 HunyuanImage 3.0 的發佈與開源——據說這是迄今為止最大、最強的開源文生圖模型,其總參數量超過800億,推理時每個 token 會激活其中的130億參數。 其效果完全可以媲美業界頂級的閉源模型。🚀🚀🚀
HunyuanImage 3.0 源於Hunyuan內部自研的原生多模態大語言模型,並針對文生圖任務進行了微調和後訓練。 這一獨特的根基賦予了模型一系列強大能力: ✅運用世界知識進行推理 ✅理解上千字的複雜提示詞 ✅在圖片中生成精準的文字
與傳統的 DiT 架構圖像生成模型不同,HunyuanImage 3.0 的 MoE 架構採用了一種基於 Transfusion 的方法,將 Diffusion 和 LLM 訓練深度耦合,形成一個統一的強大系統。
HunyuanImage 3.0 基於 Hunyuan-A13B,在一個龐大的數據集上進行訓練:50億個圖文對、視頻幀、交錯的圖文數據,以及6萬億 token 的文本語料庫。 這種跨多模態生成、理解和 LLM 能力的混合訓練,使模型能夠無縫集成多項任務。
無論你是插畫師、設計師還是創作者,它都能將你的工作流程從數小時縮短到幾分鐘。 HunyuanImage 3.0 能夠生成複雜的文字、精細的漫畫、富有表現力的表情符號,以及用於教育內容的生動有趣的插圖。
7.2K