Hunyuan ogłasza wydanie i otwarte źródło HunyuanImage 3.0 — mówi się, że jest to największy i najpotężniejszy model generowania obrazów z tekstu, jaki kiedykolwiek stworzono, z całkowitą liczbą parametrów przekraczającą 80 miliardów, a podczas wnioskowania każdy token aktywuje 13 miliardów parametrów. Jego efekty mogą w pełni konkurować z najlepszymi modelami zamkniętymi w branży.🚀🚀🚀
HunyuanImage 3.0 pochodzi z wewnętrznego, opracowanego przez Hunyuan, natywnego modelu językowego wielomodalnego, który został dostosowany i przetrenowany do zadań związanych z generowaniem obrazów na podstawie tekstu. Ta unikalna podstawa nadaje modelowi szereg potężnych możliwości: ✅ Wykorzystywanie wiedzy o świecie do wnioskowania ✅ Rozumienie skomplikowanych podpowiedzi składających się z tysięcy słów ✅ Generowanie precyzyjnego tekstu w obrazach
W przeciwieństwie do tradycyjnych modeli generowania obrazów DiT, architektura MoE HunyuanImage 3.0 przyjmuje metodę opartą na Transfusion, łącząc głęboko trening Diffusion i LLM, tworząc jednolity, potężny system.
HunyuanImage 3.0 oparty na Hunyuan-A13B, został wytrenowany na ogromnym zbiorze danych: 5 miliardów par obraz-tekst, klatek wideo, przeplatanych danymi obraz-tekst oraz 60 bilionów tokenów tekstowych. To mieszane szkolenie w zakresie generowania, rozumienia i zdolności LLM w wielu modalnościach pozwala modelowi na bezproblemową integrację wielu zadań.
Niezależnie od tego, czy jesteś ilustratorem, projektantem, czy twórcą, może skrócić Twój proces pracy z kilku godzin do kilku minut. HunyuanImage 3.0 potrafi generować skomplikowane teksty, szczegółowe komiksy, ekspresyjne emotikony oraz żywe i interesujące ilustracje do treści edukacyjnych.
7,24K