智能机器探索：如何设计AGI时代的智能客服机器人？

文章导航

一、智能客服机器人研究现状是什么样的？

基于杰夫霍金斯的记忆-预测框架（Memory-prediction framework），结合知我 & Agent-Cloud 的知识密集型问答场景，探索试验智能机器的架构。基于记忆-预测框架的智能客服机器人，不仅能够快速响应用户的查询，还能够通过学习和记忆用户的历史交互，不断提升服务质量和用户体验，为企业和组织带来更高的客户忠诚度和市场竞争力。

世界模型 world model & 及预测 prediction是新大脑皮层（neocortex，以下简称新皮层）的主要功能，也是智能的基础。已知 LLM 将在智能机器中，起到类似新皮层在人脑中的作用。

那么：

智能机器中，对应于人脑中其它部件（如海马、丘脑、杏仁核、脑干、基底神经节等）的又将是什么呢？
这些智能机器中的部件，可否由较小（如0.1-10B规模）的LLM承担呢？
更加完善的智能机器，又将如何提升用户体验，创建独树一帜的用户价值呢？

在旧范式中，我们将知识构建在系统中，以人工维护的方式更新知识，应对环境的变化。这样的智能系统，跟智能发展第一时期中古脑的作用类似。大模型的出现，其核心是预测能力，这又跟新皮层的作用类似。那么自然的：新范式的AI架构 & 向新范式的演进，应该可以借鉴古脑和新皮层之间默契配合的关系。

但同时，智能机器在四个方面又显著的超越了人脑的能力：速度、容量、可复制性和感觉系统。这样：智能机器相对于人脑，将会既有相似性，又扬长避短（后者是架构设计中可发力的主要空间）。

总之本研究的目的，是基于对人脑运行原理的类比，探索大模型、小模型和其它软件组件如何默契配合，以更低的成本，展现更高级的、用户可感的智能行为。

二、智能客服机器人发展背景

智能的发展

智能的发展经历了三个时期，每个时期都利用了记忆和预测：

在第一个时期，生物将DNA作为记忆的载体。个体在其生命周期中不能学习和适应。它们只能将基于DNA的关于世界的记忆通过基因传给后代。
第二个时期始于自然界出现了能快速形成记忆的可改变的神经系统。此时，个体便能在它的生命周期内认识世界结构的重要方面并相应地调适自己的行为。但是，个体除了直接观察以外仍然不能将知识传给后代。在这个时期里，新皮层开始出现并扩大，但并不是这个时期主要的特点。
第三个，也是最后一个时期，是人类所特有的。这个时期随着语言的产生和新皮层的扩展而开始。人的一生中学会了世界结构的许多知识，并能运用语言有效地将这些知识传递给许多人。

人脑

旧脑（old brain）或原始脑（primitive brain）：像爬行动物一样，每个人的大脑中都有这些较古老的结构，它们控制着人的血压、饥饿感、性欲、情感以及运动的各个方面。例如，当你站立、行走或尽力保持身体平衡时，主要依靠的是旧脑；如果你被声音吓了一跳，感到惊慌并开始奔跑，那也是旧脑在起作用。旧脑包括几十个独立的器官，每个器官都有特定的功能。从视觉上看，它们是彼此分离的，它们的形状、大小和连接反映了它们所发挥的作用，例如，杏仁核中有数个豌豆大小的器官。杏仁核是大脑中一个较老的部分，负责不同类型的攻击行为，如有预谋的攻击和冲动性攻击。大脑在进化过程中通过在旧脑的外层增加新脑部分而扩大，旧脑部分控制原始的行为，而新脑部分则创造出更复杂的行为。新脑部分（新皮质）开始时很小，后来越来越大，但不是通过产生新的器官，而是通过反复复制一个基本回路来实现的。随着新皮质的不断进化，它的面积越来越大，但厚度却没有增加。

新皮质（neocortex）：新皮质是人类大脑最新的部分，意思是“新的外层”。所有哺乳动物都有新皮质，而且只有哺乳动物才有新皮质。人脑的新皮质特别大，约占大脑体积的70%。新皮质约有一张桌布那么大（~0.4m^2），厚度约 2.5 毫米。它包裹着旧脑部分，所以当你看一个人的大脑时，你看到的大部分是新皮质（有其特有的褶皱），只有小部分是旧脑，脊髓则从底部延伸出来。新皮质是智能的器官。几乎所有我们认为是智能的能力，如视觉、语言、音乐、数学、科学和工程，都是由新皮质创造的。虽然新皮质占据大脑体积的70%，并负责无数的认知功能，但它看上去并没有明显的分界线。皱褶和皮褶是为了使新皮质嵌入头骨，就像将桌布塞入大酒杯时看到的情况类似。如果忽略这些皱褶和皮褶，那么新皮质看起来就像一大片细胞，并没有明显的分界线。新皮质和旧脑通过神经纤维相连，因此，它们不是完全孤立的。它们更像是室友，各自有不同的日程安排，个性也不同，需要合作才能完成各种事情。在二者关系中，新皮质处于相对弱势的地位，因为它不直接控制行为。新皮质中没有一个细胞与肌肉直接相连，所以它自身不能让肌肉动起来。当新皮质想做什么时，它会向旧脑发出信号，让旧脑听从命令。例如，呼吸功能一般由脑干控制，不需要大脑思考或来自新皮质的信息输入。而新皮质可以暂时控制呼吸，比如当你有意识地决定屏住呼吸时，但如果脑干检测到你的身体缺氧，它就会忽略新皮质的命令，重新掌控身体。同样，新皮质可能说：“不要吃这块蛋糕，这不健康。” 但如果大脑中较老、较原始的部分说：“这块蛋糕看起来不错，闻起来也很香，吃吧。” 你就很难抗拒蛋糕的诱惑。这种新旧大脑之间的争斗是人脑智能的一个基本主题。
海马（hippocampus）：对形成新的记忆至关重要。如果你失去了左右两半海马，你就失去了形成新记忆的能力。没有了海马，你可以照常说话、走路、看东西和听东西，乍一看你几乎就是个正常人。但实际上，你受了很大的损伤：你记不住所有新的事物；你能记起失去海马前许多年认识的朋友，但你却记不起一个新遇见的人；即使在一年里，你每天去看你的私人医生5次，但你每次见到他时都会觉得是第一次见到他。你对失去海马以后发生的一切事情都无法记住。

前部（anterior）与后部（posterior）。即将脑皮层分为前、后两个部分，中间有一条很大的裂纹，称为“中央回间沟”。从眼睛、耳朵和触觉传来的输入信息都进入脑皮层后部，这里是大部分感觉预测发生的地方。脑皮层前部的区域主要涉及高级策划和思维，也包括运动皮层以及负责运动肌肉和做出行为的大脑部位。灵长目动物的脑皮层已进化得越来越大，其前部得发展更是超出了比例，尤其人类脑皮层。和其他灵长类动物以及早期类人猿相比，我们人类有很大得额头以承载很大的前部脑皮层。

运动脑皮层。我们在运动能力上相比其它生物有很大的优势，能够创造出人类独有的极其复杂的行为（如书写和口头语言、制作服装、开飞机、建造摩天大楼）。人类之所以拥有可预测的复杂运动能力，原因在于我们的运动脑皮层和身体肌肉间有更多的连接。在其它哺乳动物身上，脑皮层前部在运动行为方面发挥的直接作用并不大，它们主要依靠古脑的各个部位产生行为。相比之下，人类脑皮层在运动控制方面取代了大脑的其他部分。如果一只老鼠的运动皮层受到损伤，可能不会有明显的运动能力损失；而一个人的运动皮层受到损伤后，他就会瘫痪。

预测的副产品

世界模型

智能存在的基本前提：“世界是有组织、有结构的，因此是可以预测的”。

要对未来的事做出预测，你的大脑皮层必须存储一系列模式（世界模型）。感觉形成模式传入大脑皮层，经过算法处理就形成了世界模型。这样看来，尽管文字和图像在感觉上完全不同，但他们被感知的方法是相同的（这一点是以“模态对齐”作为多模态应答切入点的理论基础）。尽管海伦凯勒在知觉上有很大的缺失，但她头脑中的世界模型与你我的并无差异。通过这些模式，大脑皮层创造出一个与真的世界近乎相同的模型，然后，很巧妙地将它存于记忆之中。

理解

理解就是“预测=感知”。

智能和理解首先从记忆系统开始，并将预测输入感觉信息流。这些预测就是理解的实质，因为知道某个事情就意味着你可以对它做出预测。

注意力

注意就是“预测!=感知”。

我们的大脑在利用记忆不断地对我们看到的、听到的和感觉到的东西进行预测。如果哪个预测出现了错误，马上就会引起你的注意。

意识

我们的意识是我们感觉到的一切与源于大脑记忆的预测之结合。

人类脑皮层能够不断地预测你将要看到、听到和感觉到的东西，而且多数都是在你不自觉的情况下发生的。这些预测就是我们的思想，与感觉输入信息流结合之后就形成了我们的知觉。对于大脑的这个认知，就是智能的记忆和预测框架。

三、设计智能机器

核心组件

“智能是一种系统学习世界模型的能力。” 这是我们定义、思考和设计智能机器的起点。新脑，即大脑新皮质，是体现人类智能的器官，智能机器需要具备与之相当的东西。

大脑新皮质会学习世界模型，但这个模型本身并没有目标或价值。指导行为的情感是由旧脑决定的，因此智能机器还需要旧脑的一部分。

要学习世界模型，智能机器还需要传感器和移动传感器的能力。这被称为“具身”。

回想一下，人类大脑中，较早进化的部分控制着生命的基本功能。它们创造了人类的情感，生存和繁衍的欲望，以及人类先天的行为。在创造智能机器时，我们不必复制人类大脑的所有功能。新脑，即大脑新皮质，是体现人类智能的器官，智能机器需要具备与之相当的东西。至于旧脑，我们可以选配一些想要的部分。

总之，智能机器应该具有三个部分：具身（embodiment）、部分旧脑、大脑新皮质。

具身

要学习世界模型，需要移动与客观世界中事物相关的传感器。具身可以是看起来像人、狗或蛇的机器人，也可以以非生物的形式存在，比如一辆汽车或一个工业机器人。但动作和位置未必只存在于物理空间。

具身可以是虚拟的，如电商客服机器人。虚拟身体的想法要求智能系统可以改变传感器的位置。比如在对话中业务场景的路由、保持、切换、恢复等都可以看作是虚拟具身的动作。

在电商问答场景中，某些问题需要通过反问、引导用户提供更多信息（比如用户咨询某软件下载地址，机器人要先确认版本号；用户希望推荐油烟机，机器人要先了解客户的餐厅面积；客户希望推荐电视，机器人要先确定客厅距离等）。机器人主动提问，深入理解客户的业务场景是有巨大价值的。这些业务场景的路由、保持、切换、恢复等，都可以看作是虚拟具身的动作。

同样，在回答知识密集型问题的过程中，机器人可能需要上网浏览网页，从一个网址跳跃到新的网址，这则是虚拟具身移动的例子。

部分旧脑

要创造智能机器，需要部分旧脑的功能。我们不需要全盘复制旧脑的所有功能（比如控制心跳血压、性欲等都不需要）。下面是我们认为需要在智能机器中重建的部分旧脑功能：

智能机器必须有目标和动机。人的目标&动机很复杂，有些是由基因驱动的，比如对性、食物和住所的渴望。恐惧、愤怒和嫉妒等情绪也会对我们的行为产生很大影响。还有社会性的，比如多数人都希望被理解和认可。为智能机器设计目标和动机可以参考人脑，不妨想象一下旧脑与新皮质的对话。旧脑说：“我饿了，我想要食物。” 新皮质回复：“我找到了，附近有两个有食物的地方。要抵达其中一个，可以沿着河走；去另一个，则需要穿过有老虎出没的开阔草地。” 新皮质以不带任何情感和价值判断的方式说到。而旧脑会把老虎和危险联系，一听到“老虎”，就会向血液释放化学物质，加速心跳，引发各种与恐惧相关的生理反应。旧脑还会直接释放神经调节剂，直接干预新皮质：“千万不要这么干”。赋予智能机器目标和动机，需要设计特定的机制。目标可以是固定的，正如我们遗传了对进食的渴望。对于电商问答机器人，目标可以是：“最大化解决问题的成功率”。
智能机器必须内置与具身相关的动作原语（primitive）。让具身能够运动，主动探索世界，是高效构建世界模型所须。回想一下，新皮质并不直接控制肌肉。当新皮质想做某事时，它向旧脑发送指令，由旧脑负责执行的细节。以大疆无人机的飞控系统做类别。无人机的“新皮质”不能也不需控制飞行的所有细节。无人机应该内置稳定飞行、着陆、避障等基本动作，新皮质只需下达类似“上升到120米高度”、“以20米/秒的速度向前飞行” 这样的高级指令。
智能机器还需要内置安全性。任何产品设计，都需要考虑安全措施。科幻小说家艾萨克·阿西莫夫提出了“机器人三定律”，就是一份安全协议。对于电商问答机器人，应该避免在对话中包含种族、性别、宗教、地域歧视或任何伤害人类的内容。例如，汽车有内置的安全系统以避免事故。通常情况下，汽车会遵循司机的指令，司机可以通过油门和刹车踏板控制汽车。然而，如果汽车发现马上要撞上障碍物，它就会无视司机的指令，采取制动措施。这就是汽车遵循了阿西莫夫的第一和第二定律。同样，智能机器也应有内置的安全行为，比如关键词过滤或有害内容分类等组件。

大脑新皮质

智能机器的第三个核心组件是与新皮质起相同作用的通用学习系统，这个系统当前由大语言模型（LLM）承担。

下表是在人体和智能机器之间，核心组件的对应关系：

	具身	部分旧脑	大脑新皮质
人体	身体	旧脑	大脑新皮质
智能机器	电商客服机器人知我AI机器人Agent-Cloud 机器人	目标与动机动作原语安全措施	大语言模型（LLM）

智能的标准

大脑具备以下四种特性：持续学习、通过运动学习、多重模型、使用参考系存储知识。

持续学习也必然是智能机器的必备特性，后面三项则为其服务。

	是什么？	为何重要？	大脑如何实现？
持续学习learn continuously	智能机器需要从错误中学习以更新其世界模型。获取新知识时，不用担心旧知识受到影响（灾难性遗忘）。	世界在不断变化。因此，为了反应不断变化的世界，世界模型必须持续学习。大多数现有AI系统并没有做到这一点。一经部署，就不再学习。这就失去了灵活性，因为无法适应变化的环境和新的知识。	神经元通过在树突分支上建立新的突触来学习一种新模式。新的突触不会影响已有突触，因此学习新知不会迫使神经元忘记或修改已有的知识。
通过运动学习learn via movement	人类通过运动学习。在日常生活中，人类会移动身体、四肢和眼睛。这些运动在学习过程中不可或缺。	如果智能机器无法主动探索，它对世界的感知将被初始设定局限，而无法全面的学习世界模型。	皮质柱是大脑新皮质中的加工单元。每根皮质柱都是一个完整的感觉 – 运动系统，即皮质柱获取输入并产生行为。在每一次运动后，皮质柱会预测下一个输入是什么。皮质柱会通过预测来测试并更新其模型。
多重模型many models	大脑新皮质由数以万计的皮质柱组成。关于任何特定事物的知识，都分布在许多互补的模型中。	这一设计带来了灵活性。	“投票”是多重模型发挥作用的关键。每一根皮质柱独立工作，但长程连接使皮质柱可以对它们所感知的物理进行投票。
使用参考系存储知识use reference frames to store knowledge	人类知识存储在大脑的参考系中。参考系也被用于做出预测、创建计划、实施运动。每当大脑激活参考系中的某个位置，并检索出相应的知识时，就会产生思维。	参考系是知识的“骨架”。	每根皮质柱都有自己的参考系。皮质柱通过网格细胞和位置细胞创建参考系。

思考

通过运动学习（learn via movement）是持续学习的具体方法，强调了主动学习的重要性。那么好奇心驱动（curiosity-driven）在这里边会起到什么作用呢？
“多重模型” 的必要性在于：“很难在一个 LLM 中学到不同领域的所有专业知识”。特定领域的任务通常涉及复杂的概念、专业术语以及实体之间错综复杂的关系。如果没有适当训练，LLM可能会产生幻觉。
在智能机器中，“投票”的对应物是什么，是否是特征向量的（加权）平均？
在智能机器中，“参考系”的对应物是什么，是否是 Position Embedding？

四、架构演进

	阶段一	阶段二	阶段三
架构	两阶段检索	检索增强生成（RAG）	千脑智能
简介	“语义召回+rerank+大模型知识挖掘”的第二代引擎query规范化即上下文改写，以更好的理解和检索知识	新范式机器人AI话术生成，即在生成阶段引入0.1-1B规模小模型初步的持续学习（使能多轮）	大规模、低成本生产中小模型，结合快思维和慢思维，让大模型小模型自动协同层级结构反应世界模型，本质是为了更好的持续学习参见【架构细节】

这个架构演进计划跟晓多公司2024年OGSM 对齐：

O（目的）	G（目标）	S（策略）	M（衡量）
主动拥抱日益发展的AI技术，持续提升业务效率，点燃新增长引擎	国内电商AI-SAAS（及延伸的企微SAAS业务、PLG电商智能客服）达到9200万ARR，实现经营净现金流400万创新业务（PLG/出海/跨境）实现1000万回款公司经营净现金流100万，挑战1000万	行业化AI驱动新范式增长引擎：PLG（toPC+toSMB）出海组织增长：增长工程+业务数智化提效	全面完成向新一代引擎的切换（RAG：qr+recall+rerank；大小模型、快慢思维结合的系统）

随着技术的不断进步，在预测框架（Memory-prediction framework）的推动下，智能客服机器人已经成为提升用户体验和优化服务流程的关键工具。这些智能系统不仅能够理解复杂的查询，还能够根据用户的历史交互和行为模式提供个性化的解决方案。如果你想了解更多关于智能机器架构探索相关运用消息，可点击这里获取更多信息。

五、架构细节

六、参考文献

《人工智能的未来》（On Intelligence）杰夫·霍金斯。
《千脑智能》（A Thousand Brains）杰夫·霍金斯。
《预测算法：具身智能如何应对不确定性》（Surfing Uncertainty）Andy Clark。
Large-Scale Study of Curiosity-Driven Learning, OpenAI.
Curiosity-driven Exploration by Self-supervised Prediction, OpenAI.
Andrew Johnson，“The Confluence of The Triune Brain Model and Large Language Model Architecture: A Comparative Study”.
Ted Zimnicki, “You Have Two Brains!!”.

延展阅读：

淘宝2024双11商家有必要入驻“加价选顺丰”吗？“加价选顺丰”未履约赔付15元对淘宝商家有什么影响？

淘宝京东电商客服如何更好地催单、跟单提升询单转化率和顾客体验？

从事客服工作的真实体验是什么样的？未来人工客服将如何发展？