腾讯推出了迄今为止最强的开源多模态图像推... 来自Simon的白日梦

//img.t.sinajs.cn/t6/skin/skin048/skin.css?version=0b11f3f1

+关注

Simon的白日梦

25-09-29 15:39 发布于广西来自微博网页版

腾讯推出了迄今为止最强的开源多模态图像推理生成模型，感觉一个模型就可以把之前图像Agent的事情干了：生成带文字的多步骤示意图、生成带艺术字的海报、生成AI味很淡的高清图像🥹 虽然但是，这个模型居然有80B！！😂 不过还好现在可以在官网试玩。
tencent/HunyuanImage-3.0 · Hugging Face
🧐 腾讯推出的 HunyuanImage-3.0 是目前最大开源 MoE 图像生成模型（总参数 800 亿，激活 130 亿/Token），采用统一自回归多模态架构，支持推理增强、自动 Prompt 重写，在语义准确性与视觉效果上可媲美甚至超越闭源模型。
➡️链接：O网页链接
➡️试玩：O网页链接
✨重点

● 🧠 架构创新：突破常见的 DiT 架构，采用统一自回归多模态框架，直接融合文本与图像建模，提升上下文理解与生成一致性。

● 🏆 规模领先：是目前最大的开源图像生成 MoE 模型，共 64 个专家，800 亿参数，激活参数量 130 亿/Token。

● 🎨 生成质量：通过精细数据集与 RL 后训练，兼顾语义精准与美学效果，支持高保真、细节丰富的写实图像。

● 💭 推理增强：能结合世界知识智能扩写稀疏 Prompt，生成更完整、细腻的画面。

● ⚙️ 运行要求：推荐 linux + Python 3.12 + PyTorch 2.7.1 + CUDA 12.8；需要 ≥3×80GB 显存，权重文件约 170GB。

● ⚡ 性能优化：支持 FlashAttention 2 与 FlashInfer 加速，推理速度最高可提升 3 倍。

● 🚀 使用方式：
Hugging Face Transformers 直接调用；
本地运行（支持 DeepSeek 系统提示词自动优化 Prompt）；
提供 Gradio Web 界面 Demo。

● 🧱 模型版本：
HunyuanImage-3.0 Base：标准 Text-to-Image；
HunyuanImage-3.0 Instruct：带推理能力，支持 Prompt 自动重写与 Chain-of-Thought。

● 📊 评测方法：采用 SSAE（自动语义-图像对齐评估）与 GSB（人工优劣对比）双轨评价，涵盖 3500 个关键点与 1000 Prompt 的多维度测试。

● 📖 文档支持：已发布技术报告，提供 Prompt Handbook 与系统提示词（Universal / Text Rendering）。

AI白日梦想家超话 #ai创造营##你好人工智能时代##ai生活指南#