Hunyuan oznámil vydání HunyuanImage 3.0 a open source - říká se, že jde o dosud největší a nejvýkonnější open source grafový model Wensheng s celkovým počtem více než 80 miliard parametrů a 13 miliard parametrů bude aktivováno na token během inference. Jeho účinek je zcela srovnatelný s nejlepším uzavřeným modelem v oboru. 🚀🚀🚀
HunyuanImage 3.0 pochází z vlastního vyvinutého nativního multimodálního velkého jazykového modelu Hunyuan a byl vyladěn a post-trénován pro úlohy grafů Wensheng. Tento jedinečný základ dává modelu řadu výkonných funkcí: ✅ Využijte znalosti světa k uvažování ✅ Pochopte složité výzvy v tisících slovech ✅ Generování přesného textu v obrázcích
Na rozdíl od tradičních modelů generování obrazu založených na DiT využívá architektura MoE HunyuanImage 3.0 přístup založený na transfuzi, který hluboce spojuje difúzi a školení LLM a vytváří jednotný a výkonný systém.
HunyuanImage 3.0 je založen na Hunyuan-A13B a je trénován na obrovském souboru dat: 5 miliard párů grafika-text, rámečky videa, prokládaná data grafiky a textu a textový korpus 6 bilionů tokenů. Toto hybridní školení napříč multimodálním generováním, porozuměním a schopnostmi LLM umožňuje modelu bezproblémově integrovat více úkolů.
Ať už jste ilustrátor, designér nebo tvůrce, zkrátí vám pracovní postup z hodin na minuty. HunyuanImage 3.0 je schopen generovat složitý text, podrobné komiksy, expresivní emotikony a živé a hravé ilustrace pro vzdělávací obsah.
6,62K