Hunyuan anunció el lanzamiento de HunyuanImage 3.0 y código abierto: se dice que es el modelo de gráfico Wensheng de código abierto más grande y poderoso hasta la fecha, con un total de más de 80 mil millones de parámetros, y se activarán 13 mil millones de parámetros por token durante la inferencia. Su efecto es completamente comparable al modelo de código cerrado más importante de la industria. 🚀🚀🚀
HunyuanImage 3.0 se origina a partir del modelo de lenguaje grande multimodal nativo de desarrollo propio de Hunyuan, y se ha ajustado y entrenado posteriormente para las tareas de gráficos de Wensheng. Esta base única le da al modelo una serie de capacidades poderosas: ✅ Usa el conocimiento del mundo para razonar ✅ Comprender indicaciones complejas en miles de palabras ✅ Generar texto preciso en imágenes
A diferencia de los modelos tradicionales de generación de imágenes basados en DiT, la arquitectura MoE de HunyuanImage 3.0 adopta un enfoque basado en transfusiones que combina profundamente la difusión y el entrenamiento de LLM para formar un sistema unificado y potente.
HunyuanImage 3.0 se basa en Hunyuan-A13B y se entrena en un enorme conjunto de datos: 5 mil millones de pares de texto gráfico, fotogramas de video, datos de texto gráfico intercalados y un corpus de texto de 6 billones de tokens. Este entrenamiento híbrido a través de la generación multimodal, la comprensión y las capacidades de LLM permite que el modelo integre sin problemas múltiples tareas.
Tanto si eres ilustrador, diseñador o creador, reduce tu flujo de trabajo de horas a minutos. HunyuanImage 3.0 es capaz de generar texto complejo, cómics detallados, emojis expresivos e ilustraciones vívidas y divertidas para contenido educativo.
7.24K