AI 云原生时代，开发一个 Agent 可以多便利？_常用知识

开发一个 Agent，需要切换多少个平台？

6 月 12 日之后，这个答案是：一个。

几天前，由火山引擎主办的 2025 FORCE 原动力大会·春在北京举行。两天的大会，将火山引擎诸多 AI 能力展现了出来。豆包大模型 1.6 系列、TRAE、PromptPilot、MCP Servers、扣子开发平台等工具轮番出场，veRL、DeerFlow 等开源框架一一亮相，每一项都超出了我的期待。

尤其是火山引擎的系统能力与 Agent 开发的便捷度更是让人眼前一亮——如果你要开发一个 Agent，这里有一整套的全栈 Agent 开发工具与丰富生态，可以让 Agent 从概念走向企业级应用。因此，开发者可以更加专注于创意和业务。

而这，得益于火山引擎“AI 云原生”的不断进化。

理念革新：AI 云原生进化

本次大会上，“AI 云原生”屡次被提及。事实上，“AI 云原生”这一理念进化了三次，现在，我们已然能够看清，火山引擎在 AI 时代要做什么。

半年前，火山引擎在 Force 上率先提出“应用的未来是推理”，并提出了一个新概念——“AI 云原生”。虽然这一概念开始令人有些不明所以，不过火山引擎的动作很具体，将其计算架构从 CPU 中心转变为 GPU 中心，以 GPU 为核心重新优化计算、存储与网络架构。这是火山引擎从底层基础设施来为大规模 AI 推理提供原生支持的关键一步。

今年 2 月，火山引擎进一步丰富了 “AI 云原生”理念，提出“以模型为中心”，通过火山方舟平台，显著提升模型（如豆包大模型及DeepSeek 等第三方模型）的调用和部署效率、成本效益和安全性，加速 AI 应用构建。不过，我们仍然还不能看到全貌。

如今，火山引擎将 AI 云原生理念再次迭代升级，一切为 Agent 服务，以 AI 为中心构建云基础设施，并围绕 AI Agent 开发打造全栈工具链与丰富生态，结合云、数据、安全技术，让 Agent 从概念走向企业级应用。

理念升级的背后，是交互主体的变化。

火山引擎总裁谭待在原动力大会上指出，技术正从PC 时代、移动时代迈向 Agent 时代，交互主体也从 Web 到 APP，再到如今的 Agent。

表面上看，Agent 像是一个套了层 AI 壳的 APP，但本质上有很大区别，它能自己思考、调整、动手做任务。以订酒店为例，如果用传统 APP，就得用户自己去选房，翻图片看有没有浴缸，想加床还要打电话。但如果是 Agent，它可以主动识别图片，读评论，打电话跟前台沟通。这是传统 APP 无法实现的。

现在的 AI 云，就是为这种新的主体 —— Agent 来设计的，不只是给旧架构加了点 AI，而是围绕 Agent 重构架构。

在数据架构层，Agent 处理的并不是传统的结构化数据，而是图像、音频、文本等多模态原始数据。因此，“AI 云原生”的架构里需要构建多模态数据湖，不丢失信息，直接输入模型。

在工具链层，火山引擎集成 PromptPilot（提示词工程）、veRL（强化学习）等工具，支撑Agent的“思考-行动-反思”循环。

在安全体系层，由于 Agent 自主操作可能触发未知风险。火山引擎新增端加密、模型防火墙。未来，Agent 之间还要能联网、协作、通信，因此，安全防护也变得非常关键。

而交互主体变化，也意味着开发范式发生了变化。

Agent 这种会主动干活的能力，是传统的软件开发方式无法实现的。可以说，Agent 的出现，迫使开发范式不得不做出变革。

传统 APP 开发，从需求分析、编码、测试，再到部署，整个过程都需要开发者理解业务逻辑。而 Agent 开发，则是以 AI （尤其是大语言模型/强化学习）为中心主导开发流程。

需求分析：需求直接以自然语言描述，由 LLM 理解拆解，开发者核心工作转为 Prompt 设计以引导 AI 明确目标。
系统设计：架构围绕 LLM 推理能力或 RL 策略网络构建，重点设计工具集成、记忆机制和决策流程（如 Chain-of-Thought 或RL 环境）。
编码实现：LLM 在运行时动态生成逻辑/决策（ Prompt 工程驱动），或通过 RL 训练生成策略网络，开发者聚焦工具实现和流程编排。
测试验证：核心评估 LLM 输出的质量、安全性和工具调用准确性，或 RL Agent 的累积奖励，进行 Prompt 鲁棒性和对抗性测试。
部署迭代：部署模型和编排框架，通过更新 Prompt、工具、知识库（RAG）、微调模型或重训 RL策略实现持续学习和优化。

开发者工作的重心从“编写具体业务逻辑的代码”转向“设计、训练、引导和约束 AI 的行为”，让 AI 自己去理解、推理、决策和执行任务。

这就要求模型能力需要大幅提升，以支持复杂的自主行为。

模型演进：多模态 + 深度思考的底层能力

火山引擎最新发布的豆包大模型 1.6 系列，由三个版本组成：

Doubao-Seed-1.6：All-in-One 的综合模型，是国内首个支持256K 上下文的思考模型，支持深度思考、多模态理解、图形界面操作等多项能力。支持选择开启或关闭深度思考、自适应思考三种方式，其中自适应思考模式可根据提示词难度自动决定是否开启思考，提升效果的同时大幅减少 tokens 消耗。
Doubao-Seed-1.6-thinking：豆包大模型 1.6 系列在深度思考方面的强化版本；在代码、数学、逻辑推理等基础能力上进一步提升；支持 256K 上下文。
Doubao-Seed-1.6-flash：豆包大模型1.6系列的极速版本，支持深度思考、多模态理解、256K 上下文；延迟极低，TOPT 低至 10ms；视觉理解能力比肩友商旗舰模型。

如今，豆包大模型的深度思考、多模态理解、图形界面操作等多种能力进一步提升，可以像人类一样理解和处理真实世界问题。

其多模态能力支持文本、图像、视频等多模态数据的协同理解与生成，已广泛应用在电商识图、自动驾驶数据标注、门店巡检等场景。

图形界面（GUI）操作能力基于视觉深度思考与精准定位，可以打开网页、填写表单、浏览器图片，下单预订等等。从大会现场演示案例来看，豆包 1.6 系列可自动操作浏览器完成酒店预订、识别购物小票并整理成 Excel 表格等任务。

此外，火山引擎还发布了豆包视频生成模型 Seedance 1.0 pro，支持文字与图片输入，可生成多镜头无缝切换的 1080P 高品质视频。在国际知名评测榜单 Artificial Analysis 上，Seedance 在文生视频、图生视频两项任务上均排名首位，超越 Veo3、可灵2.0 等优秀模型。

与此同时，豆包大模型一如既往地坚持低价策略。

Agent 任务对 Token 的消耗极高，一个复杂任务可能需要 20 万 Token。因此火山引擎提出了按“输入长度”区间定价，深度思考、多模态能力与基础语言模型统一价格。

在 0—32K 输入区间，豆包 1.6 的输入价格为 0.8 元/百万 tokens、输出价格为 8 元/百万 tokens，综合成本是豆包 1.5 深度思考模型或 DeepSeek R1 的三分之一。当前，超过 80% 的企业调用请求集中在 32K tokens 以内。

至于 Seedance 1.0 pro 模型，其每千 tokens 是 0.015 元，每生成一条 5 秒的 1080P 视频，要 3.67 元。

豆包大模型的定价模式，意味着无论用户是否开启深度思考或多模态功能，Token 价格都完全一致，这让企业无需为非必要功能支付额外成本。

事实证明，这些底层能力的持续优化和效率提升，正在转化为显著的技术红利，让开发者能更低成本、更高效率地构建复杂 Agent 应用，推动 AI 从技术能力向产业价值的大规模转化。

开发提效：全栈工具革新 Agent 开发范式

更关键的问题在于：如何构建强大的 Agent 开发平台，以支撑开发者打造出真正优秀的应用。

聚焦于此，本次大会上，火山引擎围绕“AI 云原生”理念，正式推出了其 Agent 全栈开发工具链。该工具链不仅涵盖豆包大模型，还包含大模型服务平台火山方舟。大会期间，火山方舟发布了多项配套工具与平台更新，包括提示词工具 PromptPilot 及大模型生态广场 MCP Servers 等。

会上还对外披露了扣子、TRAE 两大开发平台的最新进展。

这一系列举措，旨在系统性解决 Agent 开发的复杂性，确保开发者不仅能充分利用强大的模型，更能获得平台、数据、安全等全方位支撑，最终实现 Agent 从概念到企业级应用的顺利落地。

提示词工具 PromptPilot

搞过 Agent 开发的都知道，写好提示词是做好 AI 应用的第一步。虽说这并不难，但是要反复调整、不停试错，很多时间和人力都消耗在清晰的表达，不断地修改和手工迭代的过程中。当提示词和工作流固定之后，再小心翼翼地把一个AI应用发布出去，等待着下一轮的调整、纠错、迭代。

针对这个问题，火山引擎对应推出了 PromptPilot。PromptPilot 不仅允许开发者对模型的答案进行局部的评论和修改，还可以通过比较和分析猜测用户背后的逻辑，逐渐积累出更完整的真实意图，并且能开始自动迭代，寻找更好的 Prompt 版本。

大模型生态广场 MCP Servers

Agent 的核心能力在于“工具使用（Tool Use）”。它可以调用各种外部 API、访问数据库、操作其他软件（如发送邮件、修改日历、查询信息），像一个连接器，整合多种能力来完成复杂任务。

在其中发挥“串联”作用的 MCP 功不可没。

火山引擎在本次大会上推出了大模型生态广场 MCP Servers，集成了丰富的字节跳动云服务及优质三方生态工具。

该平台已与 AI 原生 IDE TRAE、方舟体验中心、扣子等平台打通，并与大模型工具生态链接，覆盖企业办公、搜索工具、内容等基础工具链。同时，它深度集成云服务能力，使开发者能通过 MCP 便捷地控制火山引擎的计算、网络、存储等云服务组件完成环境部署。

有了火山 MCP 服务，开发者即可高效构建复杂 Agent，并直接部署发布。

扣子开发平台

为打造具备自主性（主动规划、决策、预判需求）的Agent，扣子开发平台此次也进行了升级，成为覆盖 Agent 低代码/全代码开发、调优与协作的全生命周期平台。

现在，已经有不少利用扣子开发平台搭建出的 Agent 应用到了实际的生产场景里面。比如字节内部的抖音电商智能客服 Agent 代替原先人工客服，整体人效提升 50% 以上；顶端新闻平台将 Agent 用于智能创作、内容风险识别、内容理解打标、中原历史名人角色智能体等场景，tokens 每日用量超过 1.5 亿；柒牌时装借助 Agent，突破 AI + 硬件模式在服装领域的应用瓶颈，成功实现销售模式创新、用户群体拓展及商业生态升级；孩子王的智能培训系统，通过还原业务场景、模拟实战练习以及一对一人机对练等功能，每周考核通过率较以往提升 151%；鱼泡直聘实现全流程 Agent 接管后，显著提升了招聘流程的效率与质量，其结构化完善率提升了 60%，合规处理效率增长了 90%。

一句话简单概括：用扣子开发 Agent，进去了就出不来，一个平台全搞定。在扣子开发平台上，还有两个配套工具值得说道：

此外，面对更习惯写代码的开发者，火山引擎推出了Agent 构建框架——Eino，提供可视化的编排和调试工具，拖拽几下就可以完成一个 AI 应用构建。

TRAE

TRAE 是国内首个 AI 原生的 IDE，开发者只需要用一句自然语言描述任务，AI 便能生成文件结构、拆分模块、补全代码、甚至自动新建UI页面。TRAE 有三大特色：一是代码自动补全；二是自然语言开发；三是 Agent 协作。

此前，TRAE 只能对代码片段进行自动补全，而新版本增加了预测下一个补全位置和连续补全的能力。当在一处代码发生变更后，AI 会基于变更预测下一次变更，用户可以通过点击 TAB 键接受补全。

自然语言编程是几乎所有 AI Coding 平台都具备的能力。但 TRAE的特别之处在于，不仅能根据用户给出的功能需求实现代码，还能根据用户给出的编码逻辑和技术方案实现代码。TRAE 构建了一个底层任务调度框架，支持 Agent 并行执行、异步控制、中途回调与状态追踪。因此，TRAE 具备了很多执行细节的能力，比如拆分目标，衔接任务，流程卡住时能够自动中断与恢复。

TRAE 的核心在于赋予用户强大的自定义 Agent 能力。用户可以根据需求创建专属的智能体，并且每个 Agent 都能灵活集成一个或多个 MCP 服务。据介绍，TRAE 的下一个版本还将整合不同的 Agent 和工具，协调任务流程，实现自动串联操作，逐步从 AI 辅助编程向支持 AI 开发全流程进阶。

截止到今年 5 月份，TRAE 的月活用户已经超过了 100 万，累计生成了超过 60 亿行被用户采纳的代码，以及每天产生 150 万条用户 Query。

生态赋能：开源技术能力与应用工具

除了上面说到的提示词工具 PromptPilot、大模型生态广场 MCP Servers，以及 TRAE、扣子两大平台，本次大会还展示了多个已开源的、聚焦具体任务并显著提升生产力的 Agent 开发框架，以及汇聚诸多开源应用的方舟应用实验室。

强化学习框架 veRL

veRL 是一个强化学习框架，兼顾高效和易用性，开箱即用，支持大部分主流的RL算法。去年10月正式开源，Github 上的Star 数已经超过了 9.4k。

作为提升 Agent 能力的关键技术，veRL 框架通过 3D-Hybrid 引擎、灵活模型放置策略及主流算法集成，帮助开发者快速搭建 RL 模型开发管线。火山方舟基于 veRL 做了产品化的封装，提供更低门槛的 Serverless 强化学习体验。

在 AI 开发流程中，预训练环节有主流方案（如 MakeAnything），推理环节也有成熟项目（如 SGLang、veRL）。然而，后训练阶段，特别是强化学习（RL）领域，此前一直缺乏优秀的开源解决方案。veRL 项目的开源填补了这一关键空缺。

Deep Research 开源框架 DeerFlow

基于 LangStack 的 Deep Research 开源框架，采用 Multi-Agent 架构设计，支持多种大语言模型，通过大模型自动规划并调取网页搜索与爬取、Python 执行等工具，生成高质量的图文报告。

该框架上线仅 7 天，就在 GitHub 上收获一万多个 Star，成为字节开源社区中时下最热门的项目。

UI-TARS

UI-TARS 是一个基于视觉语言模型的 GUI Agent 框架，它通过感知、规划、执行反思一系列的操作，让 AI 像人一样操作电脑，操作各种各样的电子设备。

与传统的模块化框架不同，UI-TARS 将所有关键组件——感知、推理、反思、记忆——集成在一个视觉语言模型（VLM）中，实现端到端任务自动化，无需预定义的工作流或手动规则。

UI-TARS Desktop 作为 UI-TARS 开箱即用的工程实现，自 2025 年初 GitHub 开源以来收获 14.6k Star。本次大会上，展示了 UI-TARS 远程 Computer Use 和 Browser Use 的实现，以及支持带视觉的 Browser Use MCP。

火山方舟实验室

在本次大会上，火山方舟应用实验室虽然被提及不多，但它是火山引擎对于支持和发展 AI 生态的有力证据之一。

火山方舟实验室针对大模型应用开发中的高价值、高复杂度问题，提供可运行的完整示例应用，并开源了其全部代码，希望通过提供标准化、可复用的工程资源，来降低开发门槛。以 DeepSearch 为例，它集成了联网搜索、知识库、网页解析、Python 代码执行器等丰富的 MCP 服务，企业可一键复制，直接使用。

此次展示的成熟开源框架与火山方舟应用实验室，共同体现了火山引擎在构建完整 Agent 开发生态上的持续投入。从经过社区验证的底层开发工具链（veRL、DeerFlow、UI-TARS），到提供最佳实践的上层参考（实验室示例），火山引擎赋能开发者复用已验证方案，加速 AI 应用落地与生产力革新。

结语:

正如火山引擎算法负责人吴迪所言，到今天为止，MCP 和 AI 应用开发还很不成熟。这也意味，目前正处于 AI 应用的黎明，正是开发者大展拳脚的好时候。

火山引擎在本次原动力大会上展现的雄心与布局，恰恰为我们把握这个时代机遇提供了强大的支点。从定义“AI云原生”理念、重构基础设施，到持续进化豆包大模型提升核心“思考”与“感知”能力，再到打造覆盖 Agent 全生命周期的开发工具链与评测体系，火山引擎正试图构建一个完整的生态闭环。它提供的不是零散的零件，而是一套能让开发者高效构建、迭代和部署真正智能化 Agent 的“全栈平台”。

当底层模型、开发平台、数据架构与安全体系都围绕 Agent 这一新主体重新设计时，我们离实现那些曾经只存在于想象中、能自主思考与行动的 Agent，无疑又近了一大步。

中意知识网

AI 云原生时代，开发一个 Agent 可以多便利？

热门标签

热门排行

最新更新

友情链接