中意知识网 中意知识网

当前位置: 首页 » 常用知识 »

大模型角力视觉推理,推理AI新时代来临?

21世纪经济报道记者孙燕 上海报道

输入一个PPT,自动生成汇报内容、演讲稿;输入一段“苏超”视频,得到一段足球解说……如今的大语言模型不只会看文字,还会看图片、视频。

7月2日,智谱发布并开源视觉语言大模型GLM-4.1V-Thinking。这款通用推理型大模型支持图像、视频、文档等多模态输入,可用于复杂认知任务。

“就像人一样。眼睛看到了复杂的视觉信号,不光是简单的信号接收,还可以根据视觉信号进一步推理,理解复杂的物理世界。”在现场演示时,智谱CEO张鹏介绍道,智谱基于预训练构造了视觉理解模型,监督微调使其初步具备推理能力,再基于深度学习大幅提高推理能力,在业内首次把推理能力和视觉理解能力有机结合在一起。

今年以来,视觉推理成为大模型竞争焦点:OpenAI推出o3和o4-mini,首次实现将图像融入推理过程;字节跳动旗下火山引擎发布豆包1.5深度思考模型,具备视觉推理能力;阿里通义发布QVQ-Max,支持图像解析、视频分析等能力。

“AGI(通用人工智能)可以分为5个层次:L1是预训练大模型,L2是对齐、推理,L3是自我学习,L4是自我认知,L5是意识智能。”张鹏指出,视觉推理能力是L3中很重要的能力。

人类的语言能力、视觉能力、语音能力、行动能力、思考能力、推理能力由大脑统一完成,而AI,正在逐一破解这些能力的密码。

从语言推理到视觉推理

AI拥有了视觉推理能力,能够做什么?

中信建投证券研究指出,多模态模型可以直接“看到”PDF 中的图片、图表、表格布局等视觉元素并从中提取信息,同时也能理解PDF的页面布局,例如识别标题、段落、列表、表格的位置和关系,这对于结构化信息提取至关重要。

以GLM-4.1V-Thinking为例,首先可以用于图片理解,如看图买菜;也可以用于数学与科学推理,尤其是几何题这样需要图像理解、文字理解、推理等综合能力的题目,视觉推理能够支持复杂题解、多步演绎与公式理解。此外,大模型具备时序分析与事件逻辑建模能力,能够用于视频理解。

人类不仅希望AI能思考,还希望AI能执行——通过自主智能体的方式,现有的大模型能力能转化成真正的生产力。

此前,大模型可以用于代码生成;而视觉推理能力使得AI能够“看懂”和“理解”视觉信息,比如用户界面(UI)的设计图、原型图甚至屏幕截图,可以辅助产品经理生成代码重构用户界面。

“视觉推理能力还可以用于智能体,让它理解GUI(图形用户界面),比如理解手机、PC上复杂的用户操作界面,形成精准的操作逻辑。”据张鹏介绍,GLM-4.1V-Thinking能够用于GUI与网页智能体任务,实现交互操作;还可以用于视觉锚定与实体定位(Grounding),通过语言与图像区域精准对齐,提升人机交互可控性。

国盛证券研究指出,视觉推理能力还能和Python数据分析、网络搜索、图像生成等其他工具协同工作,创造性地、有效地解决更复杂的问题,为用户提供多模态Agent体验。

可以看到,视觉推理能够用于长视频理解、图像问答、学科解题、文字识别、文档解读、视觉锚定与实体定位(Grounding)、GUI Agent和代码生成。中信建投证券也指出,其缺点在于处理信息过多时容易出现幻觉,对模型能力要求较高。

商业化落地

视觉推理带动大模型向通用多模态推理迈进一步,大模型企业也在谋求将这一能力转化为数字化生产力,寻求商业化落地。

面对B端客户,大模型企业一方面提供Agent,打通“最后一公里”。如智谱面向企业客户和开发者,推出了Agent应用空间,企业无需自建大模型团队,即可低门槛接入成熟、安全、可控的Agent能力。

如果说大模型是发动机,Agent则是由发动机提供动力的汽车、飞机、军舰,包括任务型Agent、交互型Agent、自主型Agent、协作型Agent等。

“智能体到底是偏向白领的创意型工作,还是蓝领的体力工作,抑或是偏向顶尖研究人员的创意和研究探索型任务更合适?对于这些问题,业界仍然在不断探索。”张鹏认为,但只有让AI工人实现了代替人的一部分基础性、重复性工作,才能够实现真正的降本增效,这是智能体能力的关键点。

长江证券研究指出,视觉推理+工具调用的深度融合下,教育、医疗、企服等垂直场景的 Agent落地周期有望提前,看好Agent商业化元年及投资机遇。

毕马威中国技术和新经济管理咨询服务主管合伙人高人伯告诉记者,随着生成式AI向“自主智能体”演进,AI将不再仅仅是执行指令的工具,而是能够主动规划、协同并完成复杂任务的智能伙伴,这可能会催生全新的商业模式。

另一方面,大模型企业也在探索将AI能力落地于智能硬件。

这也经历了技术演进:早期模型很大,只能在云上推理,手机、PC作为客户端调用云端的智能能力。而随着端侧的算力、能源问题逐步解决,端侧也可以部署一定的智能能力,如在汽车、AI眼镜、AI玩具上可以实现端云结合。

“未来不管是机器人,还是汽车、眼镜、胸针,都会接入AI的能力。”张鹏认为。

未经允许不得转载: 中意知识网 » 大模型角力视觉推理,推理AI新时代来临?