Hunyuan annuncia il rilascio e l'open source di HunyuanImage 3.0 - si dice che sia il modello di generazione di immagini open source più grande e potente mai realizzato, con un totale di oltre 80 miliardi di parametri, attivando 13 miliardi di parametri per ogni token durante l'inferenza. I suoi risultati possono competere con i modelli closed source di livello superiore del settore.🚀🚀🚀
HunyuanImage 3.0 è basato su un modello linguistico multimodale nativo sviluppato internamente da Hunyuan, ed è stato ottimizzato e riaddestrato per compiti di generazione di immagini a partire da testo. Questa base unica conferisce al modello una serie di potenti capacità: ✅ Utilizzare la conoscenza del mondo per il ragionamento ✅ Comprendere comandi complessi di migliaia di parole ✅ Generare testo preciso all'interno delle immagini
A differenza dei tradizionali modelli di generazione di immagini basati su DiT, l'architettura MoE di HunyuanImage 3.0 adotta un metodo basato su Transfusion, che accoppia profondamente l'addestramento di Diffusion e LLM, formando un sistema potente e unificato.
HunyuanImage 3.0 è basato su Hunyuan-A13B, addestrato su un enorme set di dati: 5 miliardi di coppie di immagini e testi, fotogrammi video, dati testuali intrecciati e un corpus testuale di 60 trilioni di token. Questo addestramento ibrido che attraversa generazione, comprensione e capacità LLM su più modalità consente al modello di integrare senza soluzione di continuità più compiti.
Indipendentemente dal fatto che tu sia un illustratore, un designer o un creatore, può ridurre il tuo flusso di lavoro da ore a pochi minuti. HunyuanImage 3.0 è in grado di generare testi complessi, fumetti dettagliati, emoji espressivi e illustrazioni vivaci e interessanti per contenuti educativi.
7,21K