百度经验首页官网（百度经验悬赏任务平台）

导读：对话系统实现了人机之间的交互，能够像人类一样对话是AI发展的一个重要标志。对话系统本身是复杂且综合的系统，面临着诸多问题与挑战。业界对对话系统的探索从未停止，百度PLATO开放域对话模型也在开放域对话系统方面做出了很多探索。本文主要对对话系统的发展做了一些梳理，介绍了百度PLATO模型以及对未来对话系统发展方向的展望。

对话系统的背景

1. 对话系统的意义

对话系统的意义可以从前沿角度和实用主义两个角度去解释。从AI的前沿角度，我们知道自从图灵测试被提出来，对话本身就是检验机器能否思考的一个标准，在当代，能否像人类一样对话是AI发展的一个重要标志。所以我们可以把对话系统看成是AI甚至是AGI（Artificial General Intelligence）本身发展的一个里程碑。

从实用主义角度，对话系统可以被定义为一个介于搜索系统和推荐系统之间的交互形式。在搜索系统中，用户是掌握完全的主动，服务提供方则是完全被动的；而在推荐系统中，用户是完全被动的，服务提供方是完全主动的。对话系统则提供了一个用户和服务提供方进行交互的平台，双方可以互相切换主动和被动的地位。从这个角度看，对话系统有着广泛的应用，如智能音箱、智能客服等。

2. 对话系统的发展史

对话系统在九十年代之前，主要是基于规则或者是基于经验的来实现的；之后进入模块化和统计方法，在这个过程中有非常多的产品出现，如百度在2015年就开始做的“度秘”；自2015年之后，随着深度学习的发展，百度也开始从模块化的对话方法逐步地走向基于深度学习的对话这一类方法。接下来，我们介绍在对话系统发展过程中出现的一些标志性的对话系统及其存在的一些问题。

① 基于专家经验和规则的对话系统

ELIZA作为最早的对话系统，于1966年诞生，是世界第一个聊天机器人，可以模拟心理治疗师同患者进行聊天。ELIZA体现了符号主义和专家系统这一类AI设计方法，而符号主义和专家系统在1960~1970年达到顶峰，曾经大多数人认为通过这些逻辑运算规则可以最终实现类人AI，但是在1980年之后这一类方法逐渐沉寂，现在大家已经基本否决了通过专家经验或是规则这一类方式就能达到AGI的可能性。

② 基于模块化方法的对话系统

模块化方法作为大家所熟知的一类方法，主要用于Task Oriented Dialogue System或是基于任务的、垂类或者领域的对话系统。这类对话系统通常包含几个固定的模块，首先是自然语言理解（NLU）模块，紧接着是对话状态追踪（Dialogue State Tracking）模块，然后是策略学习模块，将状态映射为动作，最终通过自然语言生成（NLG）模块来生成出想要的回复。

比如在订餐馆这一任务场景下，用户想要订一家餐馆，他有一些要求，NLU首先会理解用户意图，将其解析成一些结构化、填槽式的一类数据，所谓的槽位（slots）信息，包括位置、款式、要求等信息；然后通过对话管理（Dialogue manager）模块输出一个推荐餐馆的动作，通过NLG生成一些自然语言。这类方法在九十年代到二十一世纪初基本上处于统治地位，但它存在的问题是单领域定制的成本非常高，跨领域非常困难，它基本上只能聊预先定义好的一些领域的槽位信息，而不能泛化到更广阔的领域。

③ 召回式对话系统

另一类受到大家比较多的关注就是召回式对话系统。这类对话系统的特点是当其接收到用户信息的时候，它并不是去产生一个回复，而是从一个固定的语料库去找最能够贴近用户需求的一个句子。其特点就是用一些召回式的模型或者排序模型从巨大的语料库中去检索。其主要的问题是回复质量完全受限于语料库，且场景越复杂越难以匹配。在单轮对话场景下，召回式方法总能找到一些似是而非的回复，效果较好；但是在多轮对话场景下，召回式就显得捉襟见肘了，因为我们的语料库中不可能找到能够精确匹配的语料。

④ 生成式对话系统

自2015年之后，生成式对话系统逐渐受到了一些关注，利用生成模型，尤其是Auto Regressive这种自回归的模型直接生成回复，使得模型不再受限于一个固定的语料库，而是能生成语料库里面原来没有的回复。早期的生成式模型基于递归神经网络模型，包括GRU或者LSTM这类模型，能够产生一些似是而非、看上去还不错的回复，但其存在效果差、内容空洞和可控性差这些问题，因而在效果上一直是远差于召回式对话系统，直到Transformer这种大规模语料、大参数的模型出现，生成式对话系统的效果才得到了一个质的飞升。

—

对话系统面临的问题和挑战

前面提到的对话系统主要可以分为两类，一类是垂类对话系统，一类是闲聊系统，垂类对话系统通常是用模块化的方式实现，存在单领域定制成本高、跨领域对话困难等问题；闲聊系统往往是通过类似生成式或者召回式这一类方法实现的，存在无目标、内容空洞、无吸引力等限制。即使像GPT-3这类模型也会出现无常识、无逻辑这种情况，同时存在对话提供的信息少、缺乏感情等限制。

—

百度PLATO开放域对话系统

1. PLATO的发展史

百度PLATO是一个针对开放域对话系统的模型，开放域对话系统既不完全等于闲聊，也不等于任务式垂类对话系统。PLATO自2019年10月发布，是首个高性能隐空间增强的开放域对话模型，有约一亿参数。相较于之后谷歌、微软和Facebook各自发布的对话模型，百度PLATO模型的规模还是不够大，所以之后又发布了更大规模的PLATO-2和PLATO-XL。

2. 开放域对话系统存在的问题

开放域对话系统有很多亟需解决的问题，百度PLATO也致力于解决这些问题，包括并不限于以下问题：

内容

开放域对话系统需要有内容，即需要言之有物，能提供信息。举个例子，比如说如果开放域对话系统不提供内容的话，它仅用“哈哈”这句话，就可以回复绝大部分对话，但是这样的对话系统显然是没有意义的。

逻辑

逻辑就说模型要上下自洽，符合常识，能够接上用户前面的对话，回答用户想要问的问题并配合用户的对话节奏。

主动性

主动性是指我们的模型要在一定程度上能主动引导话题，因为用户找机器人聊天，他不会说我来主动找话题，然后让机器人来回答。很多时候并不是这样的，用户很多时候是因为他觉得无聊，然后希望机器人能够主动去引导话题，去找一些有意思的东西。

人格人设

人格人设就是机器人需要具有稳定的人格人设，并且能正确反映在它的行为上，比如说它不能今天是张三，明天是李四，或者说过一会儿就变成了另外一个人。

记忆&长期记忆

记忆和长期记忆就是能够正确并且长期记忆起自己说过和对方说过的内容，用户跟机器人对话，他希望机器人能像一个真人一样，过去跟它聊天的所有内容，它都能够一定程度上记着。

正确价值观

正确的价值观指对话系统需要避免谈论一些有偏见的观点，然后符合正常的这种价值观。

开放域对话系统还有很多其他问题存在，我们可以看到它本身是一个多么复杂且综合的一个系统。

—

数据驱动的对话系统

1. 与自然语言处理的区别

对话系统本身也是一个自然语言处理的系统，但是它跟其他的自然语言处理系统又存在着一些区别，有着其独有的挑战。如图中前两个填空题的例子，第一个是“中国的首都是什么”，第二个是“我讨厌披萨翻译成英文是什么”，这两个问题使用通用自然语言处理的一些方法基本上能够预测符合我们想要的ground truth，但是第三个例子，一个人说外面在下雪呢，接下来这个人会说什么呢？这个问题使用通用自然语言处理的方法，他的下一句是非常不确定的。这就是对话系统显著不同于不通用自然语言处理的一个体现。

现有的大规模NLU模型，如Bert和ERNIE等模型，在训练的时候，我们通常会把语料中间的某些词遮蔽，然后让模型去预测这些词，以此来提升模型的能力。我们看前面提的两个例子，如果具有充分知识的模型，它是一定能预测出来；但是第三个例子，我们的模型通常不太能预测出来，或者说熵（entropy）比较大。这也是对话系统存在的一个巨大的困境。

我们用一张冰山图来展示，那么可以认为漏在外面的部分是对话的语料。但事实上，我们拿到的每一段对话语料，它背后都有个人背景、知识背景、性格、发生语境、和对方的关系以及当前的意图等一系列我们未知的东西，那么这系列未知的东西就导致我们的对话其实不是表面看上去的那么简单，反映在具体数据上，我们觉得多样性是对话的关键问题。

2. 多样性是对话的关键问题

举个例子，外面下在下雪，我们可以想象到很多种不同的回复，它们都是非常有可能的回复，比如“堆个雪人怎么样”、“好冷”、“我真怀念夏天”、“不想出门”和“挺好的”。所有的这些不同的回复，如果出现在语料里面，而我们直接用神经网络去建模的话，就相当于我们尝试用神经网络一对一的映射关系去处理这种一对多的映射关系，模型的效果自然也不会好。

如图中的Case 1，比如说我们让两个人分别去问同一个对话系统，一个人问“你今年多大”，对话系统回复说“31”；另一个人问同样问题，它的回复就变成“15”了。这就是对话系统的不可控性，它的回复往往受到一个字或者一些标点的影响就会产生剧烈的波动。然后我们用对话系统做推理的时候，有的时候我们不是做beam search或greedy search，而是用sample的方式，那sample本身是存在随机性的，同一个问题，我们经常就会碰到两次推理出截然相反的答案。比如第一次问对话系统“到底是支持特朗普还是拜登”，它会说“支持特朗普”；然后第二次他会说“支持拜登”。这样的情况归根结底就是对话的不可控性。

还有一个负面的影响就是当模型发现语料库里面的回复过于复杂、多样的时候，它往往会选择最简单而且出现频次最多的回复，这种回复我们通常把它称为“安全回复”，就是这类回复它回复用户是没有问题的，但事实上它让整个对话的体验急剧下降了。

3. 百度PLATO在解决多样性问题的尝试

第一版的PLATO就利用了隐空间去建模这种潜在的多样性，我们把隐空间这类方式引入到Transformer Block中，让不同的隐变量（Latent Variable）去捕捉对话过程中不同人的背景知识包括性格、观点态度等，然后使得单个隐变量的Embedding下面的多样性急剧的减少。

通过这种方式我们可以实现类似下图的效果。比如说一个人说“我计划去什么阿巴拉契亚山脉徒步，以后再也不回来了”，然后我们通过不同隐变量的就可以sample出不同的回复。一个说“我去过阿巴拉契亚山脉几次，那地方真漂亮”，一个说“我没去过阿巴拉契亚山脉，但听说挺不错的”，第三个说“我不会想住在那”，第四个说“别担心，你会回来的”。这样的话就使得回复本身的不确定性被隐变量这个机制给捕捉住了。

这里还有一个例子展示了利用隐变量机制去捕捉对话中的不确定性，我们统计了训练得到的每个隐变量机制，它会捕捉到哪些信息。比如说Map-1中我们把它的高频词输出来，它是会包含“哪里”、“在”、“你”、“什么”、“意思”，这些词是倾向于这种问句的意思。而在Map-2中，这个隐变量会倾向于产生一些相对敷衍的回复，如“嗯”、“呵呵”、“好吧”这样一类回复。那相应的每一个隐变量我们看它都捕捉到了一类观点也好，态度也好，或者是一类倾向性的这种思维也好，这样使得一旦sample出一个隐变量，我们就可以利用这个模型生成相对比较稳定的回复。

4. 百度PLATO的效果

从合理性、丰富度和吸引度三个指标上，百度的PLATO可以说在当时公开模型上是全面的领先。另外也首次采用十轮连续对话的图灵测试评估，混淆比例达到35%。这个其实是一个相当严格的一个图灵测试，举个例子来说，如果我们只让我们的对话机器人答复一轮的话，我们人去辨别它到底是人产生还是机器产生的，这个难度是非常大的。但是如果要让机器人跟人连续的聊十轮，而且还能让我们人类分辨不出来，那么对它的要求是非常高的。基于PLATO我们参与了DSTC-9、DSTC-10这两届比赛，我们获取了多个榜的榜首，包括一些任务型的、开放域的，主办方对我们的模型效果也是高度评价。

那么这里列了一些例子，包括中文的、英文的对话，整个对话的逻辑，包括它的一些知识都是有非常好的体现。这些例子是随机选出来的，大家可以看到，百度PLATO模型的效果整体上看还是相对比较惊艳的。

总的来说百度PLATO通过隐空间、大模型、大语料，已经在一定程度上解决了包括上下文逻辑、内容等等一些问题，但是对于人格人设、长期记忆还有正确的价值观还没有解决。

—

环境驱动的对话系统

1. 静态数据的局限性

在无人驾驶或者是无人控制里面，我们想要训练一个机器人去学习怎么开车，那么首先我们会收集很多人类的演示数据，然后这些静态数据，比如用监督学习的方式让机器人去学习，但是学出来的效果往往一开始还好，但可能突然有一段时间就完全偏离了。

之所以产生这种现象，延伸到对话系统里面，其实是因为很多时候对话系统是利用人类和人类的这种对话的静态数据来进行学习的。当我们把这些静态数据用到人机交互或者机机交互场景的时候，就会碰到很多问题。举个例子，如果人或机器人有一方不按常理出牌，那么对话的这个话题可能会逐渐偏离掉，这主要是因为我们收集训练数据跟我们在做测试的时候，它的场景不一致导致的。

这种不一致的影响会有多严重呢？下图中列举了一些PLATO失败的案例，比如我跟PLATO在聊天的过程中，我故意去刁难PLATO，去用一些它没太见过的东西，你可以认为我在一定程度上去hack它，当我一旦hack成功之后，它基本上就傻了。当它见到跟它之前训练数据分布差异很大的对话数据的时候，这会使得它的对话的逻辑完全失控。

然后其实除了这些之外，其实原本对话系统还存在很多其他的问题，包括内容重复、话题难以深入。其实如果有调过对话模型，大家应该都有经验，现在主流的方法往往是通过在Decoding策略里面去重来解决，但这个始终其实是一个权宜之计。为什么我们的模型不能自己去解决这类重复的问题？这也是值得思考的。造成这些问题的原因其实跟静态数据本身的局限性有关。

2. 交互式学习与元宇宙

除了使用静态数据，我们还可以选择交互式学习或者类似强化学习这一类方法来训练对话系统。使用静态数据学习时，我们从一个环境中收集了很多离线的数据，然后通过监督学习去训练一个神经网络；而在交互式学习的过程中，它是通过我们的网络和我们的环境进行不断地交互，然后在这个过程中产生数据，再进一步去优化这个网络。这种交互式闭环训练出来的神经网络模型，它的鲁棒性，或者它的各种其他方面的性能，有可能远超越监督学习这类方式。

说到强化学习或者交互式学习，在真实世界中，我们不可避免碰到的就是交互学习的交互和学习的成本和风险的不可控的问题，那么我们可以使用虚拟环境来替代真实环境广泛用于强化学习训练，这类方式广泛存在并被称为Sim2Real迁移方法。

这其实可以很好地对应到元宇宙的场景里，因为元宇宙就是一个典型的虚拟环境。过去我们更多的是谈论怎么用AI来辅助元宇宙，使元宇宙建设得更好。我更想谈论的是我们是有可能通过元宇宙来反哺AI，然后实现AI进一步增强的这种可能性。其优势类似于Sim2Real迁移方法，我们可以先在虚拟环境下面去训练AI，虚拟环境意味着更低的干涉成本和试错成本，以及更低的交互式数据获取成本。

3. 基于交互式数据训练的方法

基于交互式数据训练的方法有两种，第一类就是Human-In-The-Loop，也就是基于人类的反馈的交互式学习或者是强化学习，它常常存在的问题是成本大、获取反馈难；第二类是就是AI的Self-Play，它的好处是成本低，但是他的学习目标不明确。

4. AI对谈的目标

如果我们考虑在对话系统里面AI对谈，它们需要一个什么样的目标，才能去使得训练朝着我们想要的方向前进？百度做了不少尝试让两个AI对话并收集数据。可是它们对话的目的是什么？我们想了一个方案，我们首先给两个AI一些人设，比如A有四个孩子，喜欢Game of Thrones；B喜欢滑雪和墨西哥食物，这两个AI一开始并不相互了解，我们希望在它们对谈过程中，能够逐渐地相互了解。基于这个目的，我们让这两个机器人不断地去交流，然后去优化彼此以获取更好的一个效果。这个方案我们当时获得了一些成功，通过交流实现互相了解不失为一个合理的目标，但是开放域对话中这个目标，显然不能代表开放域对话的全部。我们认为开放域对话目标的量化，有可能是和开放域对话本身一样难的。即便是我们平常的对话，也很难解释目标是什么，所以这个目标非常难以清晰地量化。

那么有没有可能换种思路，我们可以考虑另外一个场景，就是在强化学习里面的多智能体协作的问题。经典的设定中，多个智能体一起完成某一个特定的任务，是通过共享观测量。我们也可以尝试另一种思路——我们让这每个智能体它们之间不能共享观测量，我们只允许它们利用语言和符号进行交流。如此，它们为了做得更好，必须主动去互相交流。这样，机器人跟机器人，Agent跟Agent之间，AI跟AI之间，它们可以以一定方式，基于自己的决策，去交流一些语言文字，然后通过这种语言文字交流，更好地完成某一项既定的任务。

这任务我们不确定是什么，可以有很多想法：比如一个大型的一个网游，比如几个人组成一支军队，要打败另外一支军队，类似这样的一类任务都可以。在这种情况下，它有没有可能产生类似我们人类语言的东西？这是一个非常有意思的话题。也就是说，有没有可能模仿我们人类的语言这种产生的方式，然后让这个语言的产生成为他们去完成某一个任务的一个手段。

这个问题一般就被称为自然语言出现，下图展示的是可能在学术圈大家用的比较多的一个非常简单的学习对话的一个协作游戏，这游戏里面有两个Agent，第一个Agent会给选择一张图片，然后第二个Agent会收到三张图片，其中包含的给第一个Agent的一张图片，但是它并不知道这三张图片里面哪张图片是第一个Agent给的，它们之间可以通过语言交流来帮助选择。它们可以说任何想说的话，但是说完之后，第二个Agent必须能够指出正确的那张图片。那么这样一个简单的Referential Games，我们就可以很简单地模拟人类，为了某项任务来启动交流的过程。

5. 自然语言出现学习与约束

上述学习对话的协作游戏有一个非常早期的尝试性的工作：通过自然语言出现来生成针对Referential Games这个场景的一些语言。当我们没有对这些符号做任何限制的时候，我们看到这些模拟生成出来的语言是乱七八糟的，它没有什么实际的含义，但是这些机器跟机器之间才能理解的这种特殊的语言。它们之间建立了独特的语言通道，使得它们能够完成很好地完成交流，然后选出正确的图。

如果我们单纯通过这种方式的话，自然语言出现通常演化出的是全新的、未知的语言，是只针对这个场景，而且是只有机器人之间才会理解的未知的语言，它对于我们做对话系统是没有帮助的。

如何让机器产生人类可以理解的语言？

第一个方法，我们可以通过预训练使得语言生成和理解器先学会人类的语言，即我们先把这个模型在人类自身的大量的对话文本上预训练一遍，然后再放到这个场景下，这样的话它只要训练得不过量的话，可能不会太脱离人类的语言。

第二个方法，我们在训练的过程中，引入对生成语言的约束。

第三个方法，在训练中同时同步引入人类。因为如果都是机器人的话，那它们可能产生人类都理解不了的语言，但当我们加入一个人类，它们都因为人类只能理解人类自己的语言而必须去适应人类语言。

另外一个近期工作是基于population或者动态population-based的自然语言出现学习。在这里面除了机器可以跟机器互相聊天，机器也可以跟人类交互，在这个过程中，使得大家的语言能够逐步一致，并且产生相对可以理解的语言。

—

未来发展方向展望

当然除了前面提到这些东西，其实我们可以想象一个更宏大的场景，我们可以建立一个大规模的人类跟AI混合的虚拟社区，在虚拟社区里面，我们通过把人类和AI放一起，让他们完成某些任务，以此来迫使AI和AI之间、AI和人类之间以及人类和人类之间进行不断交互并获取数据，从而不断地去优化自然语言的理解以及生成模型，最后形成完整的对话系统与交流的机制。我觉得这个是有可能，但是这个只有可能出现在元宇宙里面。

总结一下，元宇宙和AI好像是一对couple，我们前面讲的很多是AI辅助元宇宙，但其实元宇宙很有可能是成为AI的孵化器。我们通过元宇宙孵化或者培育出来的AI，需要走向现实世界，必须通过智能体迁移。但是另一方面，如果我们有一个足够好的元宇宙，那么我们构建出来的AI迁移至现实世界，就好比我们在现实世界成长的人类去玩一个游戏一样，随着AI和元宇宙的发展，这是有可能的。

—

精彩问答

Q：对话系统如何使AI具有常识，现在的对话系统AI并不具备很好的常识，但实际上也有一些常识学习相关的研究工作，是不是可以介绍一下这块？

A：常识是一个非常复杂的问题，但其实我反倒认为现在大模型、大语料解决得比较好的是常识这一部分。之前我们内部测试有这样一个例子，我们的同学上来就说“你好”，PLATO回复说“你好，请问怎么称呼”；然后我们的同学说“我姓曾”，PLATO说“曾哥好”；为了刁难PLATO，同学说“我比你小”，接着PLATO就说“曾弟好”；同学又说“我是女的”，PLATO回复说“曾妹好”。这么一个简单的例子其实反映出PLATO能学到非常多的常识。

我不知道大家认为的常识是怎样的，但大家如果去测试PLATO，比如说你问“洗衣服要用什么”，PLATO会告诉你“洗衣机”，这种常识很自然的能从语料里面学会。当然还有一类否定类的或者说不确定性的那种常识，比如说你问“青蛙的脚上有几只眼睛”，像这类似是而非的问题，有的时候我们的模型会因为没有见过这种语料而感到困惑。

但是其实现在大家看更大规模的，如果现在大家去测PLATO，会发现它很多这类问题能回答得不错，包括你问它脚上有没有眼睛，很可能回答你没有。所以我认为常识这个问题至少已经解决了一半了。但是真正没有解决的，是记忆和一些更精准的知识和逻辑的掌握，比如它有时候会告诉你一些张冠李戴的东西，或者是这些知识是错位的，比如把某个名人A的事迹套到名人B上，这种情况我觉得是后续需要重点解决的一个方向。

Q：针对基于预训练这样的一些技术的对话技术，怎么去保证它的一个安全性，防止信息泄露？用一些方言使用攻击性的语言或者脏话可能会引发AI相关的回复，那怎么去杜绝这种情况，目前有什么实践？

A：这块其实我们一直在努力。其实我们因为从大规模语料学到的东西永远是相对来说比较杂的，什么都有。针对这些情况，你很难让这个机器人具有某一个态度，或者是他在某一个回复是可控的。但是我们有非常多的手段去尽量降低这种情况。

第一类手段是在训练的时候通过引入一些特定的目标，或者故意引入一些“有毒”的数据，让它去做负向的训练，比如不让它输出“有毒”的回复；或者说我们可以在数据增强的时候，故意用一些“有毒”的上文，让它回复的下文必须保证没有这种问题。第二类手段就是在模型已经训练好的情况下，在不改动模型的情况下我们也可以在它的上文去加一些东西，又叫Prompting，比如说“我不能说脏话”、“我说的每一句都是文明用语”或者“我热爱中国”等，你把这些态度观点的东西加到前面，那它的回复在一定程度上会被降低随机性。PLATO带隐变量这种控制也是一类，我们现在还做不到精准地去定位哪个隐变量在这个问题上是否“有毒”，但是也是一个值得尝试的方向。

今天的分享就到这里，谢谢大家。

阅读更多技术干货文章、下载讲师PPT，请关注微信公众号“DataFunSummit”。

分享嘉宾：王凡百度主任架构师

编辑整理：高站超中科院信息工程研究所

出品平台：DataFunTalk

01/分享嘉宾

02/报名看直播免费领PPT

03/关于我们

DataFun：专注于大数据、人工智能技术应用的分享与交流。发起于2017年，在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会，已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章700+，百万+阅读，14万+精准粉丝。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 sumchina520@foxmail.com 举报，一经查实，本站将立刻删除。
如若转载，请注明出处：https://www.summeng.com/17470.html

百度经验首页官网（百度经验悬赏任务平台）

相关推荐