Hunyuan ilmoitti julkaisevansa HunyuanImage 3.0:n ja avoimen lähdekoodin - sen sanotaan olevan tähän mennessä suurin ja tehokkain avoimen lähdekoodin Wensheng-kaaviomalli, jossa on yhteensä yli 80 miljardia parametria, ja 13 miljardia parametria aktivoituu tokenia kohden päättelyn aikana. Sen vaikutus on täysin verrattavissa alan huippuluokan suljetun lähdekoodin malliin. 🚀🚀🚀
HunyuanImage 3.0 on peräisin Hunyuanin itse kehittämästä alkuperäisestä multimodaalisesta suuren kielen mallista, ja se on hienosäädetty ja jälkikoulutettu Wensheng-kaaviotehtäviin. Tämä ainutlaatuinen perusta antaa mallille joukon tehokkaita ominaisuuksia: ✅ Käytä maailmantietämystä päättelyyn ✅ Ymmärrä monimutkaiset kehotteet tuhansilla sanoilla ✅ Luo tarkkaa tekstiä kuviin
Toisin kuin perinteiset DiT-pohjaiset kuvanluontimallit, HunyuanImage 3.0:n MoE-arkkitehtuuri käyttää verensiirtoon perustuvaa lähestymistapaa, joka yhdistää syvästi diffuusio- ja LLM-koulutuksen yhtenäiseksi ja tehokkaaksi järjestelmäksi.
HunyuanImage 3.0 perustuu Hunyuan-A13B:hen, ja se on koulutettu valtavaan tietojoukkoon: 5 miljardia grafiikka-tekstiparia, videokehyksiä, lomitettua graafista tekstiä ja 6 biljoonan tokenin tekstikorpusta. Tämä hybridikoulutus multimodaalisen sukupolven, ymmärryksen ja LLM-ominaisuuksien välillä mahdollistaa mallin saumattoman integroinnin useisiin tehtäviin.
Olitpa kuvittaja, suunnittelija tai luoja, se lyhentää työnkulkuasi tunneista minuutteihin. HunyuanImage 3.0 pystyy luomaan monimutkaista tekstiä, yksityiskohtaisia sarjakuvia, ilmeikkäitä hymiöitä sekä eloisia ja leikkisiä kuvituksia opetussisältöön.
7,25K