Hunyuan mengumumkan rilis HunyuanImage 3.0 dan open source - dikatakan sebagai model grafik Wensheng open source terbesar dan paling kuat hingga saat ini, dengan total lebih dari 80 miliar parameter, dan 13 miliar parameter akan diaktifkan per token selama inferensi. Efeknya benar-benar sebanding dengan model sumber tertutup teratas di industri. 🚀🚀🚀
HunyuanImage 3.0 berasal dari model bahasa besar multimoda asli Hunyuan yang dikembangkan sendiri, dan telah disempurnakan dan dilatih untuk tugas grafik Wensheng. Fondasi unik ini memberi model serangkaian kemampuan yang kuat: ✅ Gunakan pengetahuan dunia untuk bernalar ✅ Pahami petunjuk kompleks dalam ribuan kata ✅ Hasilkan teks yang akurat dalam gambar
Tidak seperti model pembuatan gambar berbasis DiT tradisional, arsitektur MoE HunyuanImage 3.0 mengadopsi pendekatan berbasis Transfusi yang sangat menggabungkan pelatihan Difusi dan LLM untuk membentuk sistem yang terpadu dan kuat.
HunyuanImage 3.0 didasarkan pada Hunyuan-A13B dan dilatih pada kumpulan data besar: 5 miliar pasangan teks grafik, bingkai video, data teks grafis yang diselingi, dan korpus teks 6 triliun token. Pelatihan hibrida di seluruh generasi multimodal, pemahaman, dan kemampuan LLM ini memungkinkan model untuk mengintegrasikan banyak tugas dengan mulus.
Baik Anda seorang ilustrator, desainer, atau kreator, ini mengurangi alur kerja Anda dari jam menjadi menit. HunyuanImage 3.0 mampu menghasilkan teks yang kompleks, komik terperinci, emoji ekspresif, dan ilustrasi yang jelas dan menyenangkan untuk konten pendidikan.
7,21K