腾讯推出了迄今为止最强的开源多模态图像推理生成模型,感觉一个模型就可以把之前图像Agent的事情干了:生成带文字的多步骤示意图、生成带艺术字的海报、生成AI味很淡的高清图像🥹 虽然但是,这个模型居然有80B!!😂 不过还好现在可以在官网试玩。
tencent/HunyuanImage-3.0 · Hugging Face
🧐 腾讯推出的 HunyuanImage-3.0 是目前最大开源 MoE 图像生成模型(总参数 800 亿,激活 130 亿/Token),采用统一自回归多模态架构,支持推理增强、自动 Prompt 重写,在语义准确性与视觉效果上可媲美甚至超越闭源模型。
➡️链接:
O网页链接➡️试玩:
O网页链接✨重点
● 🧠 架构创新:突破常见的 DiT 架构,采用统一自回归多模态框架,直接融合文本与图像建模,提升上下文理解与生成一致性。
● 🏆 规模领先:是目前最大的开源图像生成 MoE 模型,共 64 个专家,800 亿参数,激活参数量 130 亿/Token。
● 🎨 生成质量:通过精细数据集与 RL 后训练,兼顾语义精准与美学效果,支持高保真、细节丰富的写实图像。
● 💭 推理增强:能结合世界知识智能扩写稀疏 Prompt,生成更完整、细腻的画面。
● ⚙️ 运行要求:推荐
linux + Python 3.12 + PyTorch 2.7.1 + CUDA 12.8;需要 ≥3×80GB 显存,权重文件约 170GB。
● ⚡ 性能优化:支持 FlashAttention 2 与 FlashInfer 加速,推理速度最高可提升 3 倍。
● 🚀 使用方式:
Hugging Face Transformers 直接调用;
本地运行(支持 DeepSeek 系统提示词自动优化 Prompt);
提供 Gradio Web 界面 Demo。
● 🧱 模型版本:
HunyuanImage-3.0 Base:标准 Text-to-Image;
HunyuanImage-3.0 Instruct:带推理能力,支持 Prompt 自动重写与 Chain-of-Thought。
● 📊 评测方法:采用 SSAE(自动语义-图像对齐评估)与 GSB(人工优劣对比)双轨评价,涵盖 3500 个关键点与 1000 Prompt 的多维度测试。
● 📖 文档支持:已发布技术报告,提供 Prompt Handbook 与系统提示词(Universal / Text Rendering)。
AI白日梦想家超话#ai创造营##你好人工智能时代##ai生活指南#