Hunyuan heeft de lancering en open-source van HunyuanImage 3.0 aangekondigd - het zou de grootste en krachtigste open-source tekst-naar-beeld model tot nu toe zijn, met een totaal aantal parameters van meer dan 80 miljard, waarbij elke token tijdens de inferentie 13 miljard parameters activeert. De prestaties kunnen volledig concurreren met de top gesloten modellen in de industrie.🚀🚀🚀
HunyuanImage 3.0 is gebaseerd op het in-house ontwikkelde, native multimodale grote taalmodel van Hunyuan, en is geoptimaliseerd en verder getraind voor de taak van tekst-naar-afbeelding. Deze unieke basis geeft het model een reeks krachtige mogelijkheden: ✅ Redeneren met wereldkennis ✅ Begrijpen van complexe prompts van duizenden woorden ✅ Nauwkeurig tekst genereren in afbeeldingen
In tegenstelling tot traditionele DiT-architectuur afbeeldingsgeneratiemodellen, maakt de MoE-architectuur van HunyuanImage 3.0 gebruik van een op Transfusion gebaseerde methode, die Diffusion en LLM-training diep koppelt, waardoor een krachtig en uniform systeem ontstaat.
HunyuanImage 3.0 is gebaseerd op Hunyuan-A13B en is getraind op een enorme dataset: 5 miljard tekst-beeldparen, videoframes, door elkaar gegooide tekst-beeldgegevens en een tekstcorpus van 60 biljoen tokens. Deze hybride training over meerdere modaliteiten voor generatie, begrip en LLM-vaardigheden stelt het model in staat om meerdere taken naadloos te integreren.
Of je nu een illustrator, ontwerper of maker bent, het kan je workflow van enkele uren tot enkele minuten verkorten. HunyuanImage 3.0 kan complexe teksten, gedetailleerde strips, expressieve emoji's en levendige, interessante illustraties voor educatieve inhoud genereren.
7,25K