Hunyuan kunngjorde utgivelsen av HunyuanImage 3.0 og åpen kildekode - det sies å være den største og kraftigste åpen kildekode Wensheng-grafmodellen til dags dato, med totalt mer enn 80 milliarder parametere, og 13 milliarder parametere vil bli aktivert per token under inferens. Effekten er fullstendig sammenlignbar med bransjens beste lukkede kildekode-modell. 🚀🚀🚀
HunyuanImage 3.0 stammer fra Hunyuans egenutviklede innfødte multimodale store språkmodell, og har blitt finjustert og ettertrent for Wensheng-grafoppgaver. Dette unike fundamentet gir modellen en rekke kraftige funksjoner: ✅ Bruk verdenskunnskap til å resonnere ✅ Forstå komplekse spørsmål med tusenvis av ord ✅ Generer nøyaktig tekst i bilder
I motsetning til tradisjonelle DiT-baserte bildegenereringsmodeller, tar HunyuanImage 3.0s MoE-arkitektur i bruk en transfusjonsbasert tilnærming som dypt kobler diffusjon og LLM-opplæring for å danne et enhetlig og kraftig system.
HunyuanImage 3.0 er basert på Hunyuan-A13B og er trent på et enormt datasett: 5 milliarder grafiske tekstpar, videorammer, sammenflettede grafiske tekstdata og et tekstkorpus på 6 billioner tokens. Denne hybridopplæringen på tvers av multimodal generering, forståelse og LLM-funksjoner gjør det mulig for modellen å sømløst integrere flere oppgaver.
Enten du er illustratør, designer eller skaper, reduserer det arbeidsflyten fra timer til minutter. HunyuanImage 3.0 er i stand til å generere kompleks tekst, detaljerte tegneserier, uttrykksfulle emojier og levende og lekne illustrasjoner for pedagogisk innhold.
6,95K