Hunyuan thông báo phát hành và mã nguồn mở HunyuanImage 3.0 - được cho là mô hình sinh hình văn bản mã nguồn mở lớn nhất và mạnh nhất từ trước đến nay, với tổng số tham số vượt quá 80 tỷ, mỗi token khi suy diễn sẽ kích hoạt 13 tỷ tham số trong số đó. Hiệu quả của nó hoàn toàn có thể so sánh với các mô hình đóng nguồn hàng đầu trong ngành.🚀🚀🚀
HunyuanImage 3.0 xuất phát từ mô hình ngôn ngữ đa mô hình gốc do Hunyuan tự nghiên cứu, và đã được tinh chỉnh và huấn luyện lại cho nhiệm vụ sinh hình từ văn bản. Nền tảng độc đáo này mang lại cho mô hình một loạt khả năng mạnh mẽ: ✅ Sử dụng kiến thức thế giới để suy luận ✅ Hiểu các gợi ý phức tạp dài hàng ngàn từ ✅ Tạo ra văn bản chính xác trong hình ảnh
Khác với các mô hình tạo hình ảnh DiT truyền thống, kiến trúc MoE của HunyuanImage 3.0 áp dụng một phương pháp dựa trên Transfusion, kết hợp sâu giữa Diffusion và LLM, tạo thành một hệ thống mạnh mẽ thống nhất.
HunyuanImage 3.0 dựa trên Hunyuan-A13B, được đào tạo trên một tập dữ liệu khổng lồ: 5 tỷ cặp hình ảnh và văn bản, khung video, dữ liệu hình ảnh và văn bản đan xen, cùng với 60 nghìn tỷ token của kho dữ liệu văn bản. Sự đào tạo hỗn hợp này trên nhiều mô hình sinh, hiểu và khả năng LLM cho phép mô hình tích hợp liền mạch nhiều nhiệm vụ.
Dù bạn là họa sĩ minh họa, nhà thiết kế hay người sáng tạo, nó có thể rút ngắn quy trình làm việc của bạn từ hàng giờ xuống chỉ còn vài phút. HunyuanImage 3.0 có khả năng tạo ra văn bản phức tạp, truyện tranh tinh xảo, biểu tượng cảm xúc đầy biểu cảm, cũng như những hình minh họa sống động và thú vị cho nội dung giáo dục.
7,25K