Hunyuan объявляет о выпуске и открытом исходном коде HunyuanImage 3.0 — говорят, что это самый большой и мощный открытый модель текст-в-изображение на сегодняшний день, с общим количеством параметров более 80 миллиардов, при выводе каждый токен активирует 13 миллиардов параметров. Его эффективность вполне может соперничать с лучшими закрытыми моделями в отрасли.🚀🚀🚀
HunyuanImage 3.0 основан на внутренней разработке Hunyuan — нативной многомодальной языковой модели, которая была дообучена и адаптирована для задач генерации изображений по тексту. Эта уникальная основа наделяет модель рядом мощных возможностей: ✅ Использование мировых знаний для рассуждений ✅ Понимание сложных подсказок длиной в тысячи символов ✅ Генерация точного текста на изображениях
В отличие от традиционных моделей генерации изображений на основе архитектуры DiT, архитектура MoE HunyuanImage 3.0 использует метод, основанный на Transfusion, который глубоко связывает обучение Diffusion и LLM, формируя единую мощную систему.
HunyuanImage 3.0 основан на Hunyuan-A13B и обучен на огромном наборе данных: 5 миллиардов пар изображений и текста, видеокадров, пересеченных данных изображений и текста, а также текстовом корпусе объемом 60 триллионов токенов. Такое смешанное обучение с использованием многомодальных генеративных, понимательных и LLM возможностей позволяет модели бесшовно интегрировать множество задач.
Независимо от того, являетесь ли вы иллюстратором, дизайнером или создателем, он может сократить ваш рабочий процесс с нескольких часов до нескольких минут. HunyuanImage 3.0 способен генерировать сложные тексты, детализированные комиксы, выразительные эмодзи и яркие, интересные иллюстрации для образовательного контента.
7,25K