当地时间1月23日,OpenAI发布AI智能体Operator,可自主使用网站购物、订餐厅。北京时间1月23日,国内明星AI公司智谱同样推出可自主操作电脑的多模态智能体新版GLM-PC,可自动购物、查询航班、购票筛选。
“2025年将是智能体真正发挥作用的一年。如今,大家使用ChatGPT主要是用来回答问题,你问它一个问题,它给出一个答案。但到2025年,ChatGPT将开始在现实世界中为你做事。”OpenAI首席产品官凯文·威尔(Kevin Weil)日前在达沃斯世界经济论坛表示。
OpenAI首席产品官凯文·威尔(Kevin Weil)日前在达沃斯世界经济论坛上接受采访。(03:02)
Operator自主完成网站购物、订餐厅
聊天机器人可以回答问题、写诗、生成图像,但智能体(Agent)可以在互联网上使用其他软件。人工智能研究人员将这类技术称为AI智能体。
“Operator可以浏览网站并在网站上采取行动,就像你和我一样。”OpenAI产品和工程主管亚什·库马尔(Yash Kumar)表示。
此次推出的Operator由一种被称为“计算机使用代理”(CUA)的新模型提供动力。CUA将GPT-4o的视觉能力与强化学习的高级推理相结合,经过训练可以与图形用户界面交互。
Operator从展示人们如何使用电子表格、购物网站和其他在线服务的图片中学习。在确定这些数据中的模式后,Operator可以代表用户使用类似的服务。其外观和ChatGPT等聊天机器人相似,用户在一个小窗口中输入请求,系统会做出反应,Operator打开网页浏览器并访问特定网站。
据《纽约时报》报道,Operator可能会出错,但在某些情况下它可以纠正错误。Operator也并非完全自主,有时用户需要提供额外的请求和建议。对于像美国网上订餐平台OpenTable这样的网站,用户必须提供他们的私人用户名和密码。
从周四起,每月200美元订阅费的ChatGPT Pro美国用户可使用Operator。OpenAI计划通过其他付费服务提供该工具,并最终将其纳入ChatGPT的免费版本。库马尔也承认,与ChatGPT等其他聊天机器人相比,Operator仍是一项实验性技术,但他表示,未来几个月将继续改善。
OpenAI表示正在与美国外卖送餐服务平台DoorDash、美国杂货配送平台Instacart、美国网上订餐平台OpenTable、美国打车应用Uber、美国旅游服务网站Priceline等公司合作,确保Operator在尊重既定规范的同时满足现实世界的需求。
2025年多智能体系统将在应用侧落地
北京智源人工智能研究院此前在2025人工智能十大技术趋势预测中提到,从更强调产品概念的Agent,到更强调应用智能程度的Agentic AI,2025年将看到更多智能化程度更高、对业务流程理解更深的多智能体系统在应用侧落地。
目前,国内外大模型公司已纷纷押注AI智能体。去年底,谷歌推出的智能体Mariner基于谷歌大模型Gemini 2.0,可浏览电子表格、购物网站等,帮助用户装满虚拟购物车。
在中国,智谱AI公司北京时间1月23日推出可自主操作电脑的多模态智能体新版GLM-PC,它以代码形式指挥工作流程和工具调用,强化了深度思考模式下的规划、推理、反思能力,能够稳定高效地应对复杂场景与任务。
GLM-PC可以像人类一样“观察”和“操作”计算机,协助用户高效完成各类电脑任务。以获取商品信息为例,GLM-PC能够自动提取图片中的商品数据,存储至Excel,并自动将商品加入淘宝购物车,从而实现一站式购物流程。在帮助用户处理小红书上的“春节贺岁档电影”信息时,GLM-PC能快速查找并提取相关数据,同时撰写代码将信息存储在电脑上。若生成的代码出现错误,它能够根据报错信息进行自我修正。它也能为用户快速查询航班信息,筛选最经济机票,同步设置飞书日历提醒,实现航班查询、购票筛选到日程安排的一站式服务。
智谱智能体团队技术人员告诉澎湃科技,他希望智能体在2025年更好地嵌入人们既有的工作流和生活流中,每个人都能获得一个24小时工作的全职秘书。
国内大模型企业MiniMax认为,2025年将是智能体高速发展的关键年份,无论是单智能体系统还是多智能体系统,都需要更长的上下文来支持持续记忆和大量通信。该公司推出MiniMax-01系列模型正是为了满足这一需求,迈出建立复杂智能体基础能力的第一步。
OpenAI前首席科学家、 安全超级智能公司联合创始人伊利亚·苏茨克维(Ilya Sutskever)去年预测,下一代模型将“以一种真正的方式实现代理化(agentic)”,未来的AI智能体将结出硕果,拥有更深入的理解和自我意识,人工智能将像人类一样推理问题。
还没有评论,来说两句吧...