对话实在智能创始人孙林君：2024年或许是Agent元年，大模型应用将被推向更高的层次

“ 为了满足用户需求而不断创新就是我们的目标！”

整理 | 圣雄&梦婕

编辑 | 云舒

出品｜极新＆北京电子商务协会

在科技不断演进的今天，人工智能技术的应用正迎来一场前所未有的革命。其中，Agent技术以其独特的代码解析方式和大型模型的集成，正在引领电商行业向智能化、高效化发展。Agent技术作为一种突破性的智能体认证技术，通过浏览器插件解析代码，从而驱动对浏览器内部网页的操作。与传统的视觉识别方式不同Agent以其独特的技术路径，已然成为电商行业的一项创新利器。

那么，如何才能通过应用Agent技术换来降本增效？未来Agent技术走向何方？Agent技术会给电商企业带来哪些助益？

带着这些问题，极新联合北京电子商务协会打造了《预见·2024年直播电商展望》系列访谈栏目，本期对话邀请了实在智能创始人孙林君为我们解释Agent技术是什么以及如何将Agent技术应用到电商领域。

实在智能创始人孙林君

以下为对话实录，经极新整理分为以下几个模块：

“实在智能的初心，便是在人机协同时代打造各种各样的数字员工”
“最大的问题是大模型业务拆解的合理性”
"为了满足用户需求不断创新就是我们的目标"

有梦想，有技术

“实在智能的初心，便是在人机协同时代打造各种各样的数字员工”

极新：请您为我们介绍一下实在智能的Agent应用

孙林君：实在Agent智能体是基于“TARS（实在智能自研垂直系列大模型）+ISSUT（智能屏幕语义理解技术）”双模引擎，有“大脑”，更有“眼睛和手脚”的超自动化智能体。

实在Agent智能体的核心工作流程主要包括：自主拆解任务、感知当前环境、执行并且反馈、记忆历史经验等。用户可通过文本指令或对话聊天的方式直接生成数字员工，Agent操作PC电脑并自主完成工作任务。实在Agent智能体大大提升了Agent本身的落地执行过程中的精准度，实现了“所说即所得”的生成式自动化，将数字员工技术推向了更高层次。这在全球Agent领域也是不多见的，也是RPA领域的首创。简单来说，实在Agent智能体将RPA带到了超低门槛的全新境界，也为大模型的落地应用开创了令人眼前一亮的形式。

极新：众多同行尝试短期内发布Agent都以失败告终，实在智能能够获得成功的优势在哪里？

孙林君：因为我们有技术积累，在实在智能创立之前，我们专注于计算机视觉领域，那时我们自己研发技术积累庞大的参数，能够弥补目前大模型的参数空缺问题。

我们能够快速推出Agent，与三代产品的不断改进密切相关。最开始，RPA是一种低代码的技术，通过设计器把组件拼装出一个流程，这便是我们第一代的产品模式。

第二代产品类似于远程桌面，任何软件在这个远程桌面里打开都能够被自动识别，然后通过算法去引导用户。这样的流程配置不再需要程序员了，但却需要人的经验，让具体的工作流程一步一步被参数自动填入。整个流程的构建过程变成了录制人的工作过程再进行识别，像人的眼睛一样，识别对象，再组件对它进行操作。我们在那时已经沉淀了一种技术，叫智能屏幕语义理解。

今年推出第三代产品时，我们发现大模型不仅有很强的任务拆解能力和推理能力，它还可以通过微调学会使用工具。我们把智能屏幕语义理解技术和大模型结合起来，通过这项技术指导大模型操作。比如建立一个表格后，大模型能够根据指令意图调用相应的组件做数据采集。这一代产品，实现了机器人帮我们做流程，也就是实现了人机协同。而我们实在智能的初心，便是在这个人机协同时代打造各种各样的数字员工。

极新：Agent和TARS模型的关系是怎么样的？TARS大模型现在应用情况如何？

孙林君：两者的关系分为三个方面。第一个是对任务常识性的拆解；第二个推理后如何去做；第三个是使用工具的来完成任务。

TARS大模型在给客户私有化部署时，我们提供大模型的能力，在绝大多数情况下，已经可以起到一个平替作用，但是在业务的通识性理解上，我们还要进一步增强。在金融领域我们有大量的金融数据，训练了两个版本的模型，一个是7b的，一个是13b。13b的模型落地实践时效果尚可。

我们的 Agent在完成自动化的流程性任务上很有优势，因为他可以把一个任务拆解成具体的过程，然后再把这个过程一步一步的操作式的完成。

有挑战，有坚持

“最大的问题是大模型业务拆解的合理性”

极新：整个Agent的研发过程中，最大的挑战是什么？

孙林君：最大的问题是大模型业务拆解的合理性，也就是让大模型对任务理解到位。Agent框架都会通过外部知识库，引入一些新知识并产生理解，进而能够操作系统。我们在外挂知识库做了不少的创新，对于同样一个大模型，给出更好的提示，工作质量更高，推理出来的东西质量就更高。

把计算机，视觉技术和大模型的结合过程中也有很多的这个挑战，包括结合的精度问题，如果一次性的推理不合理，便需要修正原来的意图，也就是要修改我们的计划流程。这需要通过算法来完善。

我们把这些算法都结合起来，并且我们要让Agent的开发基于多种模式，比如登陆区域，我可以通过第二代的产品模式填上参数，让它也能运行。但通过第三代产品，支持打断，支持修改，所以就是在这里面是有很多的机遇与挑战。

极新：商业化落地这一块您是怎么考虑的？

孙林君：我们现在主要面向金融、运营商、电商以及一些能源制造相关的行业。我们有上百家渠道，这些渠道会在其他行业去扩展。因为拥有一些智能学习技术，我们的软件的适用性是是更强的。

我们选择这些行业与它们的特性有关系。比如说金融行业客户接受新事物或者接受新技术的速度更快一些，所以就优先选了金融行业。另外像电商是在SARS的平台上经营，所以它是比较容易做规模化的复制的。再比如说运营商的经营是很稳健的，有很强的政企渠道。

售卖模式上面发生了深刻的变化，用户可以直接买大量的买我们的产品。比如说一个公司有100人，可以每个人给配一个智能助理。这样一来，agent就会变成了一种企业必备的一种生产资料，就像电脑一样普遍。

有需求，有创新

"为了满足用户需求不断创新就是我们的目标"

极新：面向未来的话，大家实际应该具备哪些核心的竞争力？

孙林君：一家公司，创新能力非常重要。做Agent的公司很多，但是真正能够做出来的很少，本质就在于，所拥有的技术是不是真正能够做一个产品出来。对我们来说，我们会找到一条现实的路径，用最可能的方式把我们愿景当中的数字员工构建出来。

在我看来2024年应该是Agent元年，当然，当前我们正处在从人工过渡到人机协同、再到机器完全自主完成的过程中，不能把它当成一个无所不能的东西，这是不符合实际的预期。但是它在某些垂直的领域上可以做得很好。

极新：能以电商为例，解释Agent在垂直领域能够做的很好的原因吗？

孙林君：在电商行业，很多时候会遇到商家在不同的平台上经营的情况，一旦退款，就需要多个平台退款。

同样的事可能需要做七八遍，但有了Agent便只需要一遍。它可以替代我们在七八个平台上去操作。由于Agent的泛化能力很强，很多工作做起来就更加容易。它对于平台的适应性也很强的，原先在淘宝上搜一个什么东西，把指令词直接改成京东，它完全可以很顺畅操作。

极新：您作为一个创业者的心路历程是怎样的？

孙林君：对我们来说，在做第一代RPA产品的时候，市面上99%的厂商都认为这已经是RPA产品的终极形态了。因为低代码就要有一个设计器。

有人意识到用户本质上需要的不只是这样。用户不想做程序员，而是需要一种自己就能做流程的系统。

便出现了第二代产品。从我带着它做，到我只给一个指令它就能自己做，这是用户的本质需求，这便衍生出Agent。也可以说，为了满足用户需求而不断创新就是我们第一考虑的，就是我们的目标。