豆包深度思考和文生图3.0模型正式对企业客户开放

Apr 18, 2025

最近，豆包大模型发布了系列更新。

其中，豆包1.5·深度思考模型在推理任务和通用任务的综合表现达到业界前沿水平，并拥有视觉推理能力；豆包文生图模型3.0登上权威竞技场Artificial Analysis文生图榜单第一梯队。

今天，这两款模型已通过火山引擎正式开放API，供开发者和企业客户使用。

豆包1.5·深度思考模型：推理更高效、更通用

该模型在专业领域推理任务中表现出色，数学推理AIME 2024 测试得分追平OpenAI o3-mini-high、编程竞赛Codeforces pass@8得分接近 OpenAI o1、科学推理GPQA 得分接近 o3-mini-high，均达到或接近全球第一梯队。

在创意写作等非推理任务中，模型也展示出优秀的泛化能力，能胜任更广泛和复杂的使用场景。

数据、算法和基础设施创新

为提升模型的通用能力，团队优化了数据处理策略，融合可验证与创意性数据，满足各类任务需求。

大规模强化学习是训练推理模型的关键技术，团队创新性提出双轨奖励机制，兼顾“对错分明”和“见仁见智”任务，并有效实现了算法的可靠优化。

强化学习训练的稳定性至关重要，团队为此优化了底层架构，保障可扩展性、可重复性和计算效率。

性能与成本的极致优化

模型采用MoE架构，总参数为200B，激活参数仅20B，具备显著的训练和推理成本优势。

基于高效算法和高性能推理系统，模型在提供极高并发承载能力的同时，实现20毫秒极低延迟。

视觉推理拓展应用边界

豆包深度思考模型还推出视觉版，具备视觉推理能力，能像人类一样对自己看到的事物进行联想、思考，极大拓展了智能推理的应用边界。

豆包深度思考模型稍早之前已接入字节跳动旗下豆包等产品。

豆包文生图模型跻身全球第一梯队

豆包文生图模型Seedream3.0是一个原生高分辨率、支持中英双语的图像生成基础模型，整体性能相比上一代有较大提升，尤其在分辨率、生图结构准确性、数量准确性、多物体属性关系、小字生成与排版、美感效果、真实度等方面有所突破。

直出2K图像，适配多比例场景

在预训练阶段，Seedream3.0技术团队对模型架构和训练策略做了多方面改进。其中，借助多分辨率混合训练，让2K图像直出成为可能。无论是手机端，还是巨幅海报场景，均可满足相关视觉需求。

3秒出图，大幅提升创作效率

Seedream3.0采取多项策略实现高效推理，1K分辨路出图端到端仅需3秒。面向海报设计、视觉创意等需求，可快速生成高品质图像，实现 "所想即所得" 的实时创意交互，大幅提升创作效率。

文本排版效果增强，小字更准确

Seedream3.0优化小字体高保真生成、多行文本语义排版等业界难题，让 AI 具备商业级图文设计能力。

美感效果和生图结构提升

Seedream3.0 的指令遵循能力实现增强，人体和物体结构崩坏情况减少，生图AI感进一步弱化，实现从“看得清”到“有感染力”的审美提升。

在文生图权威竞技场Artificial Analysis上，豆包文生图模型Seedream3.0 与GPT-4o、Imagen 3、Midjourney v6.1、FLUX1.1 Pro等模型同台竞技，排名第一梯队。

Seedream3.0稍早之前已在字节跳动旗下豆包、即梦等平台全量开放。

Comments