开发一个 Agent,需要切换多少个平台?
6 月 12 日之后,这个答案是:一个。
几天前,由火山引擎主办的 2025 FORCE 原动力大会·春在北京举行。两天的大会,将火山引擎诸多 AI 能力展现了出来。豆包大模型 1.6 系列、TRAE、PromptPilot、MCP Servers、扣子开发平台等工具轮番出场,veRL、DeerFlow 等开源框架一一亮相,每一项都超出了我的期待。
尤其是火山引擎的系统能力与 Agent 开发的便捷度更是让人眼前一亮——如果你要开发一个 Agent,这里有一整套的全栈 Agent 开发工具与丰富生态,可以让 Agent 从概念走向企业级应用。因此,开发者可以更加专注于创意和业务。
而这,得益于火山引擎“AI 云原生”的不断进化。
理念革新:AI 云原生进化
本次大会上,“AI 云原生”屡次被提及。事实上,“AI 云原生”这一理念进化了三次,现在,我们已然能够看清,火山引擎在 AI 时代要做什么。
半年前,火山引擎在 Force 上率先提出“应用的未来是推理”,并提出了一个新概念——“AI 云原生”。虽然这一概念开始令人有些不明所以,不过火山引擎的动作很具体,将其计算架构从 CPU 中心转变为 GPU 中心,以 GPU 为核心重新优化计算、存储与网络架构。这是火山引擎从底层基础设施来为大规模 AI 推理提供原生支持的关键一步。
今年 2 月,火山引擎进一步丰富了 “AI 云原生”理念,提出“以模型为中心”,通过火山方舟平台,显著提升模型(如豆包大模型及DeepSeek 等第三方模型)的调用和部署效率、成本效益和安全性,加速 AI 应用构建。不过,我们仍然还不能看到全貌。
如今,火山引擎将 AI 云原生理念再次迭代升级,一切为 Agent 服务,以 AI 为中心构建云基础设施,并围绕 AI Agent 开发打造全栈工具链与丰富生态,结合云、数据、安全技术,让 Agent 从概念走向企业级应用。
理念升级的背后,是交互主体的变化。
火山引擎总裁谭待在原动力大会上指出,技术正从PC 时代、移动时代迈向 Agent 时代,交互主体也从 Web 到 APP,再到如今的 Agent。
表面上看,Agent 像是一个套了层 AI 壳的 APP,但本质上有很大区别,它能自己思考、调整、动手做任务。以订酒店为例,如果用传统 APP,就得用户自己去选房,翻图片看有没有浴缸,想加床还要打电话。但如果是 Agent,它可以主动识别图片,读评论,打电话跟前台沟通。这是传统 APP 无法实现的。
现在的 AI 云,就是为这种新的主体 —— Agent 来设计的,不只是给旧架构加了点 AI,而是围绕 Agent 重构架构。
在数据架构层,Agent 处理的并不是传统的结构化数据,而是图像、音频、文本等多模态原始数据。因此,“AI 云原生”的架构里需要构建多模态数据湖,不丢失信息,直接输入模型。
在工具链层,火山引擎集成 PromptPilot(提示词工程)、veRL(强化学习)等工具,支撑Agent的“思考-行动-反思”循环。
在安全体系层,由于 Agent 自主操作可能触发未知风险。火山引擎新增端加密、模型防火墙。未来,Agent 之间还要能联网、协作、通信,因此,安全防护也变得非常关键。
而交互主体变化,也意味着开发范式发生了变化。
Agent 这种会主动干活的能力,是传统的软件开发方式无法实现的。可以说,Agent 的出现,迫使开发范式不得不做出变革。
传统 APP 开发,从需求分析、编码、测试,再到部署,整个过程都需要开发者理解业务逻辑。而 Agent 开发,则是以 AI (尤其是大语言模型/强化学习)为中心主导开发流程。
需求分析:需求直接以自然语言描述,由 LLM 理解拆解,开发者核心工作转为 Prompt 设计以引导 AI 明确目标。
系统设计:架构围绕 LLM 推理能力或 RL 策略网络构建,重点设计工具集成、记忆机制和决策流程(如 Chain-of-Thought 或RL 环境)。
编码实现:LLM 在运行时动态生成逻辑/决策( Prompt 工程驱动),或通过 RL 训练生成策略网络,开发者聚焦工具实现和流程编排。
测试验证:核心评估 LLM 输出的质量、安全性和工具调用准确性,或 RL Agent 的累积奖励,进行 Prompt 鲁棒性和对抗性测试。
部署迭代:部署模型和编排框架,通过更新 Prompt、工具、知识库(RAG)、微调模型或重训 RL策略实现持续学习和优化。
开发者工作的重心从“编写具体业务逻辑的代码”转向“设计、训练、引导和约束 AI 的行为”,让 AI 自己去理解、推理、决策和执行任务。
这就要求模型能力需要大幅提升,以支持复杂的自主行为。
模型演进:多模态 + 深度思考的底层能力
火山引擎最新发布的豆包大模型 1.6 系列,由三个版本组成:
Doubao-Seed-1.6:All-in-One 的综合模型,是国内首个支持256K 上下文的思考模型,支持深度思考、多模态理解、图形界面操作等多项能力。支持选择开启或关闭深度思考、自适应思考三种方式,其中自适应思考模式可根据提示词难度自动决定是否开启思考,提升效果的同时大幅减少 tokens 消耗。
Doubao-Seed-1.6-thinking:豆包大模型 1.6 系列在深度思考方面的强化版本;在代码、数学、逻辑推理等基础能力上进一步提升;支持 256K 上下文。
Doubao-Seed-1.6-flash:豆包大模型1.6系列的极速版本,支持深度思考、多模态理解、256K 上下文;延迟极低,TOPT 低至 10ms;视觉理解能力比肩友商旗舰模型。
如今,豆包大模型的深度思考、多模态理解、图形界面操作等多种能力进一步提升,可以像人类一样理解和处理真实世界问题。
其多模态能力支持文本、图像、视频等多模态数据的协同理解与生成,已广泛应用在电商识图、自动驾驶数据标注、门店巡检等场景。
图形界面(GUI)操作能力基于视觉深度思考与精准定位,可以打开网页、填写表单、浏览器图片,下单预订等等。从大会现场演示案例来看,豆包 1.6 系列可自动操作浏览器完成酒店预订、识别购物小票并整理成 Excel 表格等任务。
此外,火山引擎还发布了豆包视频生成模型 Seedance 1.0 pro,支持文字与图片输入,可生成多镜头无缝切换的 1080P 高品质视频。在国际知名评测榜单 Artificial Analysis 上,Seedance 在文生视频、图生视频两项任务上均排名首位,超越 Veo3、可灵2.0 等优秀模型。
与此同时,豆包大模型一如既往地坚持低价策略。
Agent 任务对 Token 的消耗极高,一个复杂任务可能需要 20 万 Token。因此火山引擎提出了按“输入长度”区间定价,深度思考、多模态能力与基础语言模型统一价格。
在 0—32K 输入区间,豆包 1.6 的输入价格为 0.8 元/百万 tokens、输出价格为 8 元/百万 tokens,综合成本是豆包 1.5 深度思考模型或 DeepSeek R1 的三分之一。当前,超过 80% 的企业调用请求集中在 32K tokens 以内。
至于 Seedance 1.0 pro 模型,其每千 tokens 是 0.015 元,每生成一条 5 秒的 1080P 视频,要 3.67 元。
豆包大模型的定价模式,意味着无论用户是否开启深度思考或多模态功能,Token 价格都完全一致,这让企业无需为非必要功能支付额外成本。
事实证明,这些底层能力的持续优化和效率提升,正在转化为显著的技术红利,让开发者能更低成本、更高效率地构建复杂 Agent 应用,推动 AI 从技术能力向产业价值的大规模转化。
开发提效:全栈工具革新 Agent 开发范式
更关键的问题在于:如何构建强大的 Agent 开发平台,以支撑开发者打造出真正优秀的应用。
聚焦于此,本次大会上,火山引擎围绕“AI 云原生”理念,正式推出了其 Agent 全栈开发工具链。该工具链不仅涵盖豆包大模型,还包含大模型服务平台火山方舟。大会期间,火山方舟发布了多项配套工具与平台更新,包括提示词工具 PromptPilot 及大模型生态广场 MCP Servers 等。
会上还对外披露了扣子、TRAE 两大开发平台的最新进展。
这一系列举措,旨在系统性解决 Agent 开发的复杂性,确保开发者不仅能充分利用强大的模型,更能获得平台、数据、安全等全方位支撑,最终实现 Agent 从概念到企业级应用的顺利落地。
提示词工具 PromptPilot
搞过 Agent 开发的都知道,写好提示词是做好 AI 应用的第一步。虽说这并不难,但是要反复调整、不停试错,很多时间和人力都消耗在清晰的表达,不断地修改和手工迭代的过程中。当提示词和工作流固定之后,再小心翼翼地把一个AI应用发布出去,等待着下一轮的调整、纠错、迭代。
针对这个问题,火山引擎对应推出了 PromptPilot。PromptPilot 不仅允许开发者对模型的答案进行局部的评论和修改,还可以通过比较和分析猜测用户背后的逻辑,逐渐积累出更完整的真实意图,并且能开始自动迭代,寻找更好的 Prompt 版本。
大模型生态广场 MCP Servers
Agent 的核心能力在于“工具使用(Tool Use)”。它可以调用各种外部 API、访问数据库、操作其他软件(如发送邮件、修改日历、查询信息),像一个连接器,整合多种能力来完成复杂任务。
在其中发挥“串联”作用的 MCP 功不可没。
火山引擎在本次大会上推出了大模型生态广场 MCP Servers,集成了丰富的字节跳动云服务及优质三方生态工具。
该平台已与 AI 原生 IDE TRAE、方舟体验中心、扣子等平台打通,并与大模型工具生态链接,覆盖企业办公、搜索工具、内容等基础工具链。同时,它深度集成云服务能力,使开发者能通过 MCP 便捷地控制火山引擎的计算、网络、存储等云服务组件完成环境部署。
有了火山 MCP 服务,开发者即可高效构建复杂 Agent,并直接部署发布。
扣子开发平台
为打造具备自主性(主动规划、决策、预判需求)的Agent,扣子开发平台此次也进行了升级,成为覆盖 Agent 低代码/全代码开发、调优与协作的全生命周期平台。
现在,已经有不少利用扣子开发平台搭建出的 Agent 应用到了实际的生产场景里面。比如字节内部的抖音电商智能客服 Agent 代替原先人工客服,整体人效提升 50% 以上;顶端新闻平台将 Agent 用于智能创作、内容风险识别、内容理解打标、中原历史名人角色智能体等场景,tokens 每日用量超过 1.5 亿;柒牌时装借助 Agent,突破 AI + 硬件模式在服装领域的应用瓶颈,成功实现销售模式创新、用户群体拓展及商业生态升级;孩子王的智能培训系统,通过还原业务场景、模拟实战练习以及一对一人机对练等功能,每周考核通过率较以往提升 151%;鱼泡直聘实现全流程 Agent 接管后,显著提升了招聘流程的效率与质量,其结构化完善率提升了 60%,合规处理效率增长了 90%。
一句话简单概括:用扣子开发 Agent,进去了就出不来,一个平台全搞定。在扣子开发平台上,还有两个配套工具值得说道:
此外,面对更习惯写代码的开发者,火山引擎推出了Agent 构建框架——Eino,提供可视化的编排和调试工具,拖拽几下就可以完成一个 AI 应用构建。
TRAE
TRAE 是国内首个 AI 原生的 IDE,开发者只需要用一句自然语言描述任务,AI 便能生成文件结构、拆分模块、补全代码、甚至自动新建UI页面。TRAE 有三大特色:一是代码自动补全;二是自然语言开发;三是 Agent 协作。
此前,TRAE 只能对代码片段进行自动补全,而新版本增加了预测下一个补全位置和连续补全的能力。当在一处代码发生变更后,AI 会基于变更预测下一次变更,用户可以通过点击 TAB 键接受补全。
自然语言编程是几乎所有 AI Coding 平台都具备的能力。但 TRAE的特别之处在于,不仅能根据用户给出的功能需求实现代码,还能根据用户给出的编码逻辑和技术方案实现代码。TRAE 构建了一个底层任务调度框架,支持 Agent 并行执行、异步控制、中途回调与状态追踪。因此,TRAE 具备了很多执行细节的能力,比如拆分目标,衔接任务,流程卡住时能够自动中断与恢复。
TRAE 的核心在于赋予用户强大的自定义 Agent 能力。用户可以根据需求创建专属的智能体,并且每个 Agent 都能灵活集成一个或多个 MCP 服务。据介绍,TRAE 的下一个版本还将整合不同的 Agent 和工具,协调任务流程,实现自动串联操作,逐步从 AI 辅助编程向支持 AI 开发全流程进阶。
截止到今年 5 月份,TRAE 的月活用户已经超过了 100 万,累计生成了超过 60 亿行被用户采纳的代码,以及每天产生 150 万条用户 Query。
生态赋能:开源技术能力与应用工具
除了上面说到的提示词工具 PromptPilot、大模型生态广场 MCP Servers,以及 TRAE、扣子两大平台,本次大会还展示了多个已开源的、聚焦具体任务并显著提升生产力的 Agent 开发框架,以及汇聚诸多开源应用的方舟应用实验室。
强化学习框架 veRL
veRL 是一个强化学习框架,兼顾高效和易用性,开箱即用,支持大部分主流的RL算法。去年10月正式开源,Github 上的Star 数已经超过了 9.4k。
作为提升 Agent 能力的关键技术,veRL 框架通过 3D-Hybrid 引擎、灵活模型放置策略及主流算法集成,帮助开发者快速搭建 RL 模型开发管线。火山方舟基于 veRL 做了产品化的封装,提供更低门槛的 Serverless 强化学习体验。
在 AI 开发流程中,预训练环节有主流方案(如 MakeAnything),推理环节也有成熟项目(如 SGLang、veRL)。然而,后训练阶段,特别是强化学习(RL)领域,此前一直缺乏优秀的开源解决方案。veRL 项目的开源填补了这一关键空缺。
Deep Research 开源框架 DeerFlow
基于 LangStack 的 Deep Research 开源框架 ,采用 Multi-Agent 架构设计,支持多种大语言模型,通过大模型自动规划并调取网页搜索与爬取、Python 执行等工具,生成高质量的图文报告。
该框架上线仅 7 天,就在 GitHub 上收获一万多个 Star,成为字节开源社区中时下最热门的项目。
UI-TARS
UI-TARS 是一个基于视觉语言模型的 GUI Agent 框架,它通过感知、规划、执行反思一系列的操作,让 AI 像人一样操作电脑,操作各种各样的电子设备。
与传统的模块化框架不同,UI-TARS 将所有关键组件——感知、推理、反思、记忆——集成在一个视觉语言模型(VLM)中,实现端到端任务自动化,无需预定义的工作流或手动规则。
UI-TARS Desktop 作为 UI-TARS 开箱即用的工程实现,自 2025 年初 GitHub 开源以来收获 14.6k Star。本次大会上,展示了 UI-TARS 远程 Computer Use 和 Browser Use 的实现,以及支持带视觉的 Browser Use MCP。
火山方舟实验室
在本次大会上,火山方舟应用实验室虽然被提及不多,但它是火山引擎对于支持和发展 AI 生态的有力证据之一。
火山方舟实验室针对大模型应用开发中的高价值、高复杂度问题,提供可运行的完整示例应用,并开源了其全部代码,希望通过提供标准化、可复用的工程资源,来降低开发门槛。以 DeepSearch 为例,它集成了联网搜索、知识库、网页解析、Python 代码执行器等丰富的 MCP 服务,企业可一键复制,直接使用。
此次展示的成熟开源框架与火山方舟应用实验室,共同体现了火山引擎在构建完整 Agent 开发生态上的持续投入。从经过社区验证的底层开发工具链(veRL、DeerFlow、UI-TARS),到提供最佳实践的上层参考(实验室示例),火山引擎赋能开发者复用已验证方案,加速 AI 应用落地与生产力革新。
结语:
正如火山引擎算法负责人吴迪所言,到今天为止,MCP 和 AI 应用开发还很不成熟。这也意味,目前正处于 AI 应用的黎明,正是开发者大展拳脚的好时候。
火山引擎在本次原动力大会上展现的雄心与布局,恰恰为我们把握这个时代机遇提供了强大的支点。从定义“AI云原生”理念、重构基础设施,到持续进化豆包大模型提升核心“思考”与“感知”能力,再到打造覆盖 Agent 全生命周期的开发工具链与评测体系,火山引擎正试图构建一个完整的生态闭环。它提供的不是零散的零件,而是一套能让开发者高效构建、迭代和部署真正智能化 Agent 的“全栈平台”。
当底层模型、开发平台、数据架构与安全体系都围绕 Agent 这一新主体重新设计时,我们离实现那些曾经只存在于想象中、能自主思考与行动的 Agent,无疑又近了一大步。