最近,豆包大模型发布了系列更新。
其中,豆包1.5·深度思考模型在推理任务和通用任务的综合表现达到业界前沿水平,并拥有视觉推理能力;豆包文生图模型3.0登上权威竞技场Artificial Analysis文生图榜单第一梯队。
今天,这两款模型已通过火山引擎正式开放API,供开发者和企业客户使用。
豆包1.5·深度思考模型:推理更高效、更通用
该模型在专业领域推理任务中表现出色,数学推理AIME 2024 测试得分追平OpenAI o3-mini-high、编程竞赛Codeforces pass@8得分接近 OpenAI o1、科学推理GPQA 得分接近 o3-mini-high,均达到或接近全球第一梯队。
在创意写作等非推理任务中,模型也展示出优秀的泛化能力,能胜任更广泛和复杂的使用场景。
数据、算法和基础设施创新
为提升模型的通用能力,团队优化了数据处理策略,融合可验证与创意性数据,满足各类任务需求。
大规模强化学习是训练推理模型的关键技术,团队创新性提出双轨奖励机制,兼顾“对错分明”和“见仁见智”任务,并有效实现了算法的可靠优化。
强化学习训练的稳定性至关重要,团队为此优化了底层架构,保障可扩展性、可重复性和计算效率。
性能与成本的极致优化
模型采用MoE架构,总参数为200B,激活参数仅20B,具备显著的训练和推理成本优势。
基于高效算法和高性能推理系统,模型在提供极高并发承载能力的同时,实现20毫秒极低延迟。
视觉推理拓展应用边界
豆包深度思考模型还推出视觉版,具备视觉推理能力,能像人类一样对自己看到的事物进行联想、思考,极大拓展了智能推理的应用边界。
豆包深度思考模型稍早之前已接入字节跳动旗下豆包等产品。
豆包文生图模型Seedream3.0是一个原生高分辨率、支持中英双语的图像生成基础模型,整体性能相比上一代有较大提升,尤其在分辨率、生图结构准确性、数量准确性、多物体属性关系、小字生成与排版、美感效果、真实度等方面有所突破。
直出2K图像,适配多比例场景
在预训练阶段,Seedream3.0技术团队对模型架构和训练策略做了多方面改进。其中,借助多分辨率混合训练,让2K图像直出成为可能。无论是手机端,还是巨幅海报场景,均可满足相关视觉需求。
3秒出图,大幅提升创作效率
Seedream3.0采取多项策略实现高效推理,1K分辨路出图端到端仅需3秒。面向海报设计、视觉创意等需求,可快速生成高品质图像,实现 "所想即所得" 的实时创意交互,大幅提升创作效率。
文本排版效果增强,小字更准确
Seedream3.0优化小字体高保真生成、多行文本语义排版等业界难题,让 AI 具备商业级图文设计能力。
美感效果和生图结构提升
Seedream3.0 的指令遵循能力实现增强,人体和物体结构崩坏情况减少,生图AI感进一步弱化,实现从“看得清”到“有感染力”的审美提升。
在文生图权威竞技场Artificial Analysis上,豆包文生图模型Seedream3.0 与GPT-4o、Imagen 3、Midjourney v6.1、FLUX1.1 Pro等模型同台竞技,排名第一梯队。
Seedream3.0稍早之前已在字节跳动旗下豆包、即梦等平台全量开放。
Share this post
豆包深度思考和文生图3.0模型正式对企业客户开放
Share this post
最近,豆包大模型发布了系列更新。
其中,豆包1.5·深度思考模型在推理任务和通用任务的综合表现达到业界前沿水平,并拥有视觉推理能力;豆包文生图模型3.0登上权威竞技场Artificial Analysis文生图榜单第一梯队。
今天,这两款模型已通过火山引擎正式开放API,供开发者和企业客户使用。
豆包1.5·深度思考模型:推理更高效、更通用
该模型在专业领域推理任务中表现出色,数学推理AIME 2024 测试得分追平OpenAI o3-mini-high、编程竞赛Codeforces pass@8得分接近 OpenAI o1、科学推理GPQA 得分接近 o3-mini-high,均达到或接近全球第一梯队。
在创意写作等非推理任务中,模型也展示出优秀的泛化能力,能胜任更广泛和复杂的使用场景。
数据、算法和基础设施创新
为提升模型的通用能力,团队优化了数据处理策略,融合可验证与创意性数据,满足各类任务需求。
大规模强化学习是训练推理模型的关键技术,团队创新性提出双轨奖励机制,兼顾“对错分明”和“见仁见智”任务,并有效实现了算法的可靠优化。
强化学习训练的稳定性至关重要,团队为此优化了底层架构,保障可扩展性、可重复性和计算效率。
性能与成本的极致优化
模型采用MoE架构,总参数为200B,激活参数仅20B,具备显著的训练和推理成本优势。
基于高效算法和高性能推理系统,模型在提供极高并发承载能力的同时,实现20毫秒极低延迟。
视觉推理拓展应用边界
豆包深度思考模型还推出视觉版,具备视觉推理能力,能像人类一样对自己看到的事物进行联想、思考,极大拓展了智能推理的应用边界。
豆包深度思考模型稍早之前已接入字节跳动旗下豆包等产品。
豆包文生图模型跻身全球第一梯队
豆包文生图模型Seedream3.0是一个原生高分辨率、支持中英双语的图像生成基础模型,整体性能相比上一代有较大提升,尤其在分辨率、生图结构准确性、数量准确性、多物体属性关系、小字生成与排版、美感效果、真实度等方面有所突破。
直出2K图像,适配多比例场景
在预训练阶段,Seedream3.0技术团队对模型架构和训练策略做了多方面改进。其中,借助多分辨率混合训练,让2K图像直出成为可能。无论是手机端,还是巨幅海报场景,均可满足相关视觉需求。
3秒出图,大幅提升创作效率
Seedream3.0采取多项策略实现高效推理,1K分辨路出图端到端仅需3秒。面向海报设计、视觉创意等需求,可快速生成高品质图像,实现 "所想即所得" 的实时创意交互,大幅提升创作效率。
文本排版效果增强,小字更准确
Seedream3.0优化小字体高保真生成、多行文本语义排版等业界难题,让 AI 具备商业级图文设计能力。
美感效果和生图结构提升
Seedream3.0 的指令遵循能力实现增强,人体和物体结构崩坏情况减少,生图AI感进一步弱化,实现从“看得清”到“有感染力”的审美提升。
在文生图权威竞技场Artificial Analysis上,豆包文生图模型Seedream3.0 与GPT-4o、Imagen 3、Midjourney v6.1、FLUX1.1 Pro等模型同台竞技,排名第一梯队。
Seedream3.0稍早之前已在字节跳动旗下豆包、即梦等平台全量开放。