This is a cache of https://weibo.com/1948301550/Q6OqHnim5?from=page_1005051948301550_profile&wvr=6&mod=weibotime. It is a snapshot of the page as it appeared on 2025-10-07T06:39:51.092+0200.
腾讯推出了迄今为止最强的开源多模态图像推... 来自Simon的白日梦 - 微博
25-09-29 15:39 发布于 广西 来自 微博网页版
腾讯推出了迄今为止最强的开源多模态图像推理生成模型,感觉一个模型就可以把之前图像Agent的事情干了:生成带文字的多步骤示意图、生成带艺术字的海报、生成AI味很淡的高清图像🥹 虽然但是,这个模型居然有80B!!😂 不过还好现在可以在官网试玩。
tencent/HunyuanImage-3.0 · Hugging Face
🧐 腾讯推出的 HunyuanImage-3.0 是目前最大开源 MoE 图像生成模型(总参数 800 亿,激活 130 亿/Token),采用统一自回归多模态架构,支持推理增强、自动 Prompt 重写,在语义准确性与视觉效果上可媲美甚至超越闭源模型。
➡️链接:O网页链接
➡️试玩:O网页链接
✨重点

● 🧠 架构创新:突破常见的 DiT 架构,采用统一自回归多模态框架,直接融合文本与图像建模,提升上下文理解与生成一致性。

● 🏆 规模领先:是目前最大的开源图像生成 MoE 模型,共 64 个专家,800 亿参数,激活参数量 130 亿/Token。

● 🎨 生成质量:通过精细数据集与 RL 后训练,兼顾语义精准与美学效果,支持高保真、细节丰富的写实图像。

● 💭 推理增强:能结合世界知识智能扩写稀疏 Prompt,生成更完整、细腻的画面。

● ⚙️ 运行要求:推荐 linux + Python 3.12 + PyTorch 2.7.1 + CUDA 12.8;需要 ≥3×80GB 显存,权重文件约 170GB。

● ⚡ 性能优化:支持 FlashAttention 2 与 FlashInfer 加速,推理速度最高可提升 3 倍。

● 🚀 使用方式:
Hugging Face Transformers 直接调用;
本地运行(支持 DeepSeek 系统提示词自动优化 Prompt);
提供 Gradio Web 界面 Demo。

● 🧱 模型版本:
HunyuanImage-3.0 Base:标准 Text-to-Image;
HunyuanImage-3.0 Instruct:带推理能力,支持 Prompt 自动重写与 Chain-of-Thought。

● 📊 评测方法:采用 SSAE(自动语义-图像对齐评估)与 GSB(人工优劣对比)双轨评价,涵盖 3500 个关键点与 1000 Prompt 的多维度测试。

● 📖 文档支持:已发布技术报告,提供 Prompt Handbook 与系统提示词(Universal / Text Rendering)。

AI白日梦想家超话#ai创造营##你好人工智能时代##ai生活指南#
欢迎新用户
o p

正在加载,请稍候...

科技博主

  • Ü 简介: 🚀更新 AI 工具和作品 | 🧐AI/艺术/设计/建筑/生态跨领域研究者 | 🔖中国美院及伦敦大学客座教师 | 📚UIBK...
更多 a