Hunyuan оголосив про випуск HunyuanImage 3.0 і відкритого вихідного коду - вважається, що це найбільша і найпотужніша модель графа Wensheng з відкритим вихідним кодом на сьогоднішній день, із загальною кількістю понад 80 мільярдів параметрів, і 13 мільярдів параметрів будуть активовані на токен під час виведення. Його ефект можна порівняти з найкращою в галузі моделлю із закритим вихідним кодом. 🚀🚀🚀
HunyuanImage 3.0 походить від власноруч розробленої мультимодальної великої мовної моделі Hunyuan і була доопрацьована та навчена для задач графа Wensheng. Ця унікальна основа наділяє модель серією потужних можливостей: ✅ Використовуйте світові знання для міркувань ✅ Розуміння складних підказок у тисячах слів ✅ Створюйте точний текст на зображеннях
На відміну від традиційних моделей генерації зображень на основі DiT, архітектура MoE HunyuanImage 3.0 використовує підхід, заснований на переливанні крові, який глибоко поєднує навчання Diffusion і LLM, щоб сформувати єдину та потужну систему.
HunyuanImage 3.0 заснований на Hunyuan-A13B і тренується на величезному наборі даних: 5 мільярдів графічно-текстових пар, відеокадрів, перемежованих графічно-текстових даних і текстового корпусу з 6 трильйонів токенів. Це гібридне навчання з використанням мультимодальної генерації, розуміння та можливостей LLM дозволяє моделі безперешкодно інтегрувати кілька завдань.
Незалежно від того, чи є ви ілюстратором, дизайнером чи творцем, це скорочує ваш робочий процес з годин до хвилин. HunyuanImage 3.0 здатний генерувати складний текст, деталізовані комікси, виразні емодзі, а також яскраві та грайливі ілюстрації для освітнього контенту.
7,24K