对话实在智能创始人孙林君:2024年或许是Agent元年,大模型应用将被推向更高的层次


“ 为了满足用户需求而不断创新就是我们的目标!”

整理 | 圣雄&梦婕

编辑 | 云舒

出品|极新&北京电子商务协会

在科技不断演进的今天,人工智能技术的应用正迎来一场前所未有的革命。其中,Agent技术以其独特的代码解析方式和大型模型的集成,正在引领电商行业向智能化、高效化发展。Agent技术作为一种突破性的智能体认证技术,通过浏览器插件解析代码,从而驱动对浏览器内部网页的操作。与传统的视觉识别方式不同Agent以其独特的技术路径,已然成为电商行业的一项创新利器。

那么,如何才能通过应用Agent技术换来降本增效?未来Agent技术走向何方?Agent技术会给电商企业带来哪些助益?

带着这些问题,极新联合北京电子商务协会打造了《预见·2024年直播电商展望》系列访谈栏目,本期对话邀请了实在智能创始人孙林君为我们解释Agent技术是什么以及如何将Agent技术应用到电商领域。


实在智能创始人 孙林君

以下为对话实录,经极新整理分为以下几个模块:

“实在智能的初心,便是在人机协同时代打造各种各样的数字员工”
“最大的问题是大模型业务拆解的合理性”
"为了满足用户需求不断创新就是我们的目标"

01

有梦想,有技术

“实在智能的初心,便是在人机协同时代打造各种各样的数字员工”

极新:请您为我们介绍一下实在智能的Agent应用

孙林君:实在Agent智能体是基于“TARS(实在智能自研垂直系列大模型)+ISSUT(智能屏幕语义理解技术)”双模引擎,有“大脑”,更有“眼睛和手脚”的超自动化智能体。

实在Agent智能体的核心工作流程主要包括:自主拆解任务、感知当前环境、执行并且反馈、记忆历史经验等。用户可通过文本指令或对话聊天的方式直接生成数字员工,Agent操作PC电脑并自主完成工作任务。实在Agent智能体大大提升了Agent本身的落地执行过程中的精准度,实现了“所说即所得”的生成式自动化,将数字员工技术推向了更高层次。这在全球Agent领域也是不多见的,也是RPA领域的首创。简单来说,实在Agent智能体将RPA带到了超低门槛的全新境界,也为大模型的落地应用开创了令人眼前一亮的形式。

极新:众多同行尝试短期内发布Agent都以失败告终,实在智能能够获得成功的优势在哪里?

孙林君:因为我们有技术积累,在实在智能创立之前,我们专注于计算机视觉领域,那时我们自己研发技术积累庞大的参数,能够弥补目前大模型的参数空缺问题。

我们能够快速推出Agent,与三代产品的不断改进密切相关。最开始,RPA是一种低代码的技术,通过设计器把组件拼装出一个流程,这便是我们第一代的产品模式。

第二代产品类似于远程桌面,任何软件在这个远程桌面里打开都能够被自动识别,然后通过算法去引导用户。这样的流程配置不再需要程序员了,但却需要人的经验,让具体的工作流程一步一步被参数自动填入。整个流程的构建过程变成了录制人的工作过程再进行识别,像人的眼睛一样,识别对象,再组件对它进行操作。我们在那时已经沉淀了一种技术,叫智能屏幕语义理解。

今年推出第三代产品时,我们发现大模型不仅有很强的任务拆解能力和推理能力,它还可以通过微调学会使用工具。我们把智能屏幕语义理解技术和大模型结合起来,通过这项技术指导大模型操作。比如建立一个表格后,大模型能够根据指令意图调用相应的组件做数据采集。这一代产品,实现了机器人帮我们做流程,也就是实现了人机协同。而我们实在智能的初心,便是在这个人机协同时代打造各种各样的数字员工。

极新:Agent和TARS模型的关系是怎么样的?TARS大模型现在应用情况如何?

孙林君:两者的关系分为三个方面。第一个是对任务常识性的拆解;第二个推理后如何去做;第三个是使用工具的来完成任务。

TARS大模型在给客户私有化部署时,我们提供大模型的能力,在绝大多数情况下,已经可以起到一个平替作用,但是在业务的通识性理解上,我们还要进一步增强。在金融领域我们有大量的金融数据,训练了两个版本的模型,一个是7b的,一个是13b。13b的模型落地实践时效果尚可。

我们的 Agent在完成自动化的流程性任务上很有优势,因为他可以把一个任务拆解成具体的过程,然后再把这个过程一步一步的操作式的完成。

02

有挑战,有坚持

“最大的问题是大模型业务拆解的合理性”

极新:整个Agent的研发过程中,最大的挑战是什么?

孙林君:最大的问题是大模型业务拆解的合理性,也就是让大模型对任务理解到位。Agent框架都会通过外部知识库,引入一些新知识并产生理解,进而能够操作系统。我们在外挂知识库做了不少的创新,对于同样一个大模型,给出更好的提示,工作质量更高,推理出来的东西质量就更高。

把计算机,视觉技术和大模型的结合过程中也有很多的这个挑战,包括结合的精度问题,如果一次性的推理不合理,便需要修正原来的意图,也就是要修改我们的计划流程。这需要通过算法来完善。

我们把这些算法都结合起来,并且我们要让Agent的开发基于多种模式,比如登陆区域,我可以通过第二代的产品模式填上参数,让它也能运行。但通过第三代产品,支持打断,支持修改,所以就是在这里面是有很多的机遇与挑战。

极新:商业化落地这一块您是怎么考虑的?

孙林君:我们现在主要面向金融、运营商、电商以及一些能源制造相关的行业。我们有上百家渠道,这些渠道会在其他行业去扩展。因为拥有一些智能学习技术,我们的软件的适用性是是更强的。

我们选择这些行业与它们的特性有关系。比如说金融行业客户接受新事物或者接受新技术的速度更快一些,所以就优先选了金融行业。另外像电商是在SARS的平台上经营,所以它是比较容易做规模化的复制的。再比如说运营商的经营是很稳健的,有很强的政企渠道。

售卖模式上面发生了深刻的变化,用户可以直接买大量的买我们的产品。比如说一个公司有100人,可以每个人给配一个智能助理。这样一来,agent就会变成了一种企业必备的一种生产资料,就像电脑一样普遍。

03

有需求,有创新

"为了满足用户需求不断创新就是我们的目标"

极新:面向未来的话,大家实际应该具备哪些核心的竞争力?

孙林君:一家公司,创新能力非常重要。做Agent的公司很多,但是真正能够做出来的很少,本质就在于,所拥有的技术是不是真正能够做一个产品出来。对我们来说,我们会找到一条现实的路径,用最可能的方式把我们愿景当中的数字员工构建出来。

在我看来2024年应该是Agent元年,当然,当前我们正处在从人工过渡到人机协同、再到机器完全自主完成的过程中,不能把它当成一个无所不能的东西,这是不符合实际的预期。但是它在某些垂直的领域上可以做得很好。

极新:能以电商为例,解释Agent在垂直领域能够做的很好的原因吗?

孙林君:在电商行业,很多时候会遇到商家在不同的平台上经营的情况,一旦退款,就需要多个平台退款。

同样的事可能需要做七八遍,但有了Agent便只需要一遍。它可以替代我们在七八个平台上去操作。由于Agent的泛化能力很强,很多工作做起来就更加容易。它对于平台的适应性也很强的,原先在淘宝上搜一个什么东西,把指令词直接改成京东,它完全可以很顺畅操作。

极新:您作为一个创业者的心路历程是怎样的?

孙林君:对我们来说,在做第一代RPA产品的时候,市面上99%的厂商都认为这已经是RPA产品的终极形态了。因为低代码就要有一个设计器。

有人意识到用户本质上需要的不只是这样。用户不想做程序员,而是需要一种自己就能做流程的系统。

便出现了第二代产品。从我带着它做,到我只给一个指令它就能自己做,这是用户的本质需求,这便衍生出Agent。也可以说,为了满足用户需求而不断创新就是我们第一考虑的,就是我们的目标。