Hunyuan a anunțat lansarea HunyuanImage 3.0 și open source - se spune că este cel mai mare și mai puternic model de graf Wensheng open source de până acum, cu un total de peste 80 de miliarde de parametri și 13 miliarde de parametri vor fi activați per token în timpul inferenței. Efectul său este complet comparabil cu cel al modelului de sursă închisă de top din industrie. 🚀🚀🚀
HunyuanImage 3.0 provine din modelul de limbaj mare multimodal nativ dezvoltat de Hunyuan și a fost reglat fin și post-antrenat pentru sarcinile grafice Wensheng. Această bază unică oferă modelului o serie de capabilități puternice: ✅ Folosiți cunoașterea lumii pentru a raționa ✅ Înțelegeți solicitări complexe în mii de cuvinte ✅ Generați text precis în imagini
Spre deosebire de modelele tradiționale de generare a imaginilor bazate pe DiT, arhitectura MoE a HunyuanImage 3.0 adoptă o abordare bazată pe transfuzie care cuplează profund antrenamentul Diffusion și LLM pentru a forma un sistem unificat și puternic.
HunyuanImage 3.0 se bazează pe Hunyuan-A13B și este antrenat pe un set de date uriaș: 5 miliarde de perechi grafic-text, cadre video, date grafic-text intercalate și un corpus text de 6 trilioane de jetoane. Această instruire hibridă prin generare multimodală, înțelegere și capabilități LLM permite modelului să integreze fără probleme mai multe sarcini.
Indiferent dacă sunteți ilustrator, designer sau creator, vă reduce fluxul de lucru de la ore la minute. HunyuanImage 3.0 este capabil să genereze text complex, benzi desenate detaliate, emoji-uri expresive și ilustrații vii și jucăușe pentru conținut educațional.
7,25K