Hunyuan anuncia el lanzamiento y la apertura de HunyuanImage 3.0—se dice que es el modelo de texto a imagen de código abierto más grande y potente hasta la fecha, con un total de más de 80 mil millones de parámetros, activando 13 mil millones de parámetros por cada token durante la inferencia. Su rendimiento puede igualar a los mejores modelos cerrados de la industria.🚀🚀🚀
HunyuanImage 3.0 se origina en el modelo de lenguaje multimodal nativo desarrollado internamente por Hunyuan, y ha sido ajustado y reentrenado específicamente para tareas de generación de imágenes a partir de texto. Esta base única otorga al modelo una serie de potentes capacidades: ✅ Razonar utilizando conocimientos del mundo ✅ Comprender complejas indicaciones de miles de palabras ✅ Generar texto preciso en imágenes
A diferencia de los modelos de generación de imágenes DiT tradicionales, la arquitectura MoE de HunyuanImage 3.0 adopta un método basado en Transfusion, que acopla profundamente el entrenamiento de Diffusion y LLM, formando un sistema poderoso y unificado.
HunyuanImage 3.0 se basa en Hunyuan-A13B y ha sido entrenado en un enorme conjunto de datos: 5 mil millones de pares de texto e imagen, fotogramas de video, datos de texto e imagen entrelazados, y un corpus de texto de 60 billones de tokens. Este entrenamiento híbrido que abarca generación, comprensión y capacidades de LLM en múltiples modalidades permite que el modelo integre sin problemas múltiples tareas.
No importa si eres ilustrador, diseñador o creador, puede reducir tu flujo de trabajo de horas a minutos. HunyuanImage 3.0 puede generar texto complejo, cómics detallados, emoticonos expresivos y ilustraciones vívidas y entretenidas para contenido educativo.
7,25K