朗创网络营销,网络推广公司,

郑州网站优化,seo外包公司

品牌推广服务公司,公司使命助力中小企业网络营销! 400电话:400-880-6422
郑州网站优化 > SEO资讯 > ACL2016更佳论文:在线自动奖励学习口语对话系统策略优化

ACL2016更佳论文:在线自动奖励学习口语对话系统策略优化

计算正确奖赏函数的能力对于通过增强学习来优化对话系统是至关重要的。在实际应用中,使用显式的用户反馈作为奖赏信号常常是不可靠的,并且收集反馈的成本很高。但是这个问题可以得到缓解。如果能够预先知道用户的意图或数据,并且能够离线训练任务成功预测器,则这两者都不适合实际应用。通过高斯过程模型的主动学习,对话策略可以根据报酬模型一起训练,高斯过程发展出一系列连续的空间对话表示,但是所有这些都是使用递归神经网络编码和解码器实现的。实验结果表明,该框架能够大大降低对话策略学习中数据注释的成本和噪声用户的反馈。
    
     口语对话系统(SDS)允许使用自然语言进行人机交互。它们可以大致分为两类:基于聊天的系统,其主要目标是与用户通信并提供合理的上下文答案;基于任务的系统,其主要任务是为了帮助用户实现特定的目标(如发现酒店、电影或巴士时刻表),后者通常基于设计本体结构(或数据库)来确定系统可以谈论的领域。这种对话管理通常是人工指定对话的过程,直接决定对话的质量。最近,对话管理已经能够自动优化和解决RL问题。在这个框架中,系统学习潜在的延迟学习。由试错过程引起的NG目标,但这通常由奖励函数决定。
    
     在基于任务的对话系统中,一种典型的方法是决定奖励机制是使用一小轮的惩罚来鼓励短对话,并在每次成功的交互之后给予积极的奖励。为付费用户签名。会话是否成功取决于用户的主观反应,或者取决于用户开始完成特定任务时是否完成特定任务的客观标准。然而,在现实中,用户的目标是未知的。这使得反馈评价方法没有得到体现。
    
     此外,目标评级是不灵活的,从图1中可以看出,如果用户不严格地遵循任务流,失败的可能性很高。结果是目标与主体之间的不匹配。但是,仅仅依靠主观排序也是有问题的,beca使用来自人群的主题常常反应不准确,人类不愿意扩大交互以获得反馈,从而导致学习不稳定。为了滤除错误的用户反馈,Gasic等人使用只使用相同主题和客体的对话。D任务,这是低效的和不可行的,因为用户目标往往是未知的,难以预测。
    
     基于此,建议从离线仿真对话中学习神经网络目标估计。这消除了在线策略学习中对目标检查的需要,并且使用obj=subj检查可以使策略像训练过的那样有效。只提供接近真实用户的数据,并且开发用户模拟器是一个昂贵的过程。
    
     为了解决这些问题,本文描述了一种在线主动学习方法,要求用户提供反馈,不管对话是否成功,但只有当反馈有效时,主动学习才能限制反馈要求,噪声模式被引入高斯过程分类(GPC)模型采用鲁棒模式对噪声用户的反馈进行建模,由于GPC在固定长度的观测空间中运行,但其会话长度可以改变,因此采用了基于递归神经网络的嵌入函数。本质上,该方法学习对话策略和在线反馈模拟器,并且直接适用于真实世界的应用。
    
     本文的其余部分安排如下:接下来介绍了相关的工作,在第三部分将介绍所提出的框架,包括策略学习算法、对话框镶嵌函数的创建和用户分类的主动反馈模式。以英国剑桥的餐馆信息为背景,介绍了该方法的评价结果,首先深入分析了镶嵌空间,在对话策略训练中当镶嵌空间与真实用户对话时,给出了评价结果。艺术。
    
     自上个世纪90年代以来,对话评估一直是一个活跃的研究领域,人们提出了PARADISE框架,其中任务完成的线性函数和各种会话特征,如会话持续时间,可以用来推断用户满意度。作为学习对话策略的反馈函数。然而,应该注意的是,当与真实用户交互时,任务很少被完成,并且关于图式理论的准确性的问题被提出。
    
     在给定的注释对话语料库中,一些方法被用于会话反馈模式的学习,杨和其他人使用协作过滤来推断用户偏好,还研究了利用奖励可塑性来丰富反馈功能以加速对话串。策略学习。Ultes和Minker也表明专家用户满意度与会话成功之间有很强的相关性。然而,所有这些方法都假定可靠的会话注释是可用的,比如专家排序,但是在实践中却很少见。一种有效的缓解方法e注释错误的影响是多次对相同的数据进行排序,并且一些方法已经发展为以不确定的模式来指导注释过程。当需要注释时,主动学习在决定时非常有用。它经常用于贝叶斯优化。asis,Daniel和其他人使用基于池的主动学习方法用于机器人应用。他们要求用户根据他们收集的信息给出反馈,并显示该方法的有效性。
    
     反向RL(IRL)不是明确地规定奖励函数,而是从良好的行为演示中恢复潜在的奖励,然后学习使奖励恢复最大化的策略。在语料库中,对IRL也进行了研究。在绿野仙踪的设置中,Rojas Barahona和Cesara解释基于不同噪声水平的语音输出,人类专家充当对话管理器来选择每个系统。然而,这种方法非常昂贵。没有理由认为一个人的表现最好,尤其是在嘈杂的环境中。
    
     因为人类在给出相关评分上比在给出绝对评分上表现得更好,另一项相关的研究集中于RL偏好方法。在杉山的研究中,用户将被要求在不同的对话中排序。然而,这个过程也非常昂贵,并且没有好的实践。铝的应用。
    
     在图2中描述了该框架,主要分为三部分:对话策略、对话镶嵌函数和主动反馈机制,在每次对话结束时,提取一组水平特征FT并嵌入到镶嵌函数中。以固定维度的对话框表示D,它被用作奖励模式R的输入空间。这个奖励是在高斯过程中建模的。每个输入点评估任务的成功与否,也评估任务的不确定性。基于这种不确定性,R决定是否需要向用户请求反馈。然后返回增强信号更新对话策略,该对话策略由GP-SARSA算法计算。使用高斯过程提供在线案例有效性增强学习,使用最少数量的实例来评估稀疏函数。每个对话的质量由累积奖励决定,每个对话产生一个负奖励(-1),最后的奖励是0或20度。悬而未决的奖励模型如何评价完成任务。
    
     注意,关键在于学习奖励模式的噪声鲁棒性,当用户是监督者并且会话策略可以同时在线时,主动学习不是框架的重要组成部分,但是在实践中它可以减少监控机制对用户的影响。所提出的用于预先训练马赛克函数使用的方法的一个整体部分是离线而不是在语料库中手动训练它们。
    
     为了对不同对话长度的用户反馈进行建模,镶嵌函数将每个函数定位在一个固定的空间维度上。在机器翻译(MT)中也成功地使用RNN解码器和编码器来定位不同短语的固定长度向量。与MT类似,对话框镶嵌允许不同的语音长度位于固定长度向量上。对于GPC任务成功分类器的固定输出空间,值得指出的是,这潜在地促进了依赖于分类和聚合的任务类别数量的增加。
    
     图形结构的嵌入函数显示在图2的左边。该模型采用双向长短期记忆网络(BLSTM)作为解码器,LSTM是递归神经网络(RNN)的递归单元,用来解决和缓解BLSTM译码器考虑输入数据在两个方向上的序列信息,计算正向隐藏序列h1:T和反向隐藏序列hT:1,并迭代所有输入特征ft,t=1,…T:
    
     给定对话框指示D由编码器输出并且解码器是前向LSTM(每次调整t产生调整序列f1:T时输入d)。
    
     编码器-解码器训练目标是最小化预测f`1:T和输出f1:T(也作为输入)之间的均方误差:
    
     N是训练次数,||2是L2范数。由于解码器和编码器中所使用的函数不同,因此可以使用随机梯度下降(SGD)来训练模型。
    
     图2:系统框架示意图。系统的三个主要组成部分是对话策略、对话嵌入创作和基于用户反馈的奖励模型,如3所述。
    
     高斯过程是一种可用于回归或分类的贝叶斯非参数模型,它特别有吸引力,因为它可以从提供评估不确定性的小观测(使用核函数定义的相关性)中学习。
    
     这里我们提出了一个成功的建模对话框,比如高斯过程(GP)。这包括评估P(y|d,D)的概率(任务成功地给出了当前对话框表示D和包含先前分类对话框的池D)。其中评估是二进制注释y({1,1})-决定成功或失败。注释y是从具有成功概率P(y=1|d,D)的伯努利分布中抽取的。概率涉及一个势函数f(d|D):Rdim(d)R,它从概率函数P(y)映射而来。=1|d,D)=(f(d|D))表示标准高斯分布的累积密度函数。
    
     给出了GP:F(D)~GP(M(D),K(D,D))的势函数,其中M()是一个平均函数和k())是一个协方差函数(核)。它使用固定平方指数核KSE。为了在用户评估中计算噪声,它还结合了白噪声核kWN:。
    
     基于梯度法,通过最大化边缘似然度可以优化超参数P、l、n,由于())不是高斯分布,后验概率p(y=1|d,D)难以分析,因此我们没有采用近似方法。我们使用期望传播(EP)。查询用户反馈是昂贵的,并且可能会对用户体验产生负面影响。这种影响可以通过使用主动学习信息(通过GP模型的不确定性评估)来降低。对当前的预测不确定。对于当前的应用,需要一个基于在线(流)的主动学习版本。
    
     图3说明了一维。给定标记数据D,可以计算表示当前对话中D*的势值f(d*)的后验均值Mu*和后验方差_2*。然后将阈值间隔{1lambda,lambda}设置为预测成功概率p()。y*=1|D*,D)=(mu*root 1+_2*)以确定会话是否被标记。决策边界隐式地考虑后验均值和方差。
    
     在该框架中部署报酬模型时,初始化以前用于F中均值为零的GP,D={}。在对话策略pi完成与用户的片段后,使用usi将生成的对话圆转换为对话表示d=(f1:T)。给定d,确定预测平均值和f(d|D)之间的差异,并且奖励模型基于(f(d|D))处的阈值λ来确定是否需要用户反馈。sed用于更新GP模型,生成增强信号来训练策略pi,否则,直接使用奖励模型的预测成功评估来更新策略,这个过程将在每次对话之后进行。
    
     目标应用程序是基于电话的用于剑桥(英国)餐馆信息的口语对话系统。它由150个场地组成,每个场地具有六个插槽(属性),其中三个可用来限制搜索(食物类型、范围和价格范围),其余三个可用来限制搜索。是信息属性(电话号码、地址和邮政编码),一旦找到所需的数据库实体即可使用。
    
     与所有实验一样,SDS共享的核心组件包括基于HMM的识别器、模糊语义网络(CNET)输入解码器、BUDS信念状态跟踪器(使用动态贝叶斯网络生成会话状态)以及描述系统的基于自然语言的模板。语义行为作为自我包含,然而,语言对用户作出反应。
    
     所有策略均采用GP-SARSA算法进行训练,RL策略的概括动作空间包括20个动作,每个会话的奖励设置为20*1成功-N,其中N是匝数,1是对话成功的指示函数。不同的方法决定了这些奖项,这些奖励形成了战略学习的增强策略。
    
     第3.1节中描述的LSTM解码和编码模式主要用于为每个会话生成马赛克D。每个会话包含用户的单词和系统的答案,并且提取大小为74的特征向量。解码器,由本体确定的兴趣分布,流行的系统响应编码,以及由最大匝数确定的匝数(这里是30)。MSE重建函数的丢失。
    
     该模型使用Theano图书馆语料库进行了测试。语料库包括86551199650次剑桥餐厅的现实会话,用于培训、测试和测试。该语料库是通过Amazon Machine Turk(AMT)服务收集的,其接收者通过对话系统进行通信。在反向传播中,SGD的每个会话都用于训练模式。为了防止过拟合,将防止基于早期验证的数据。
    
     为了可视化嵌入式嵌入的影响,如图4所示,所有650个测试对话框都被转换为嵌入式函数,并且t-SNE用于降低二维嵌入能力。对话的长度(高达30)。
    
     图4:剑桥餐厅中真实用户数据的无监督对话,表示t-SNE可视化。标签根据用户的主观评价进行排序。
    
     从图中我们可以清楚地看到,从左上角(较短的对话)到右下角(较长的对话)的颜色梯度表示肯定的Subj注释。这表明对话的长度是对话表示中的重要特征之一。o观察到较长的失败对话(15轮额外)相距不远,大部分在右下角。另一方面,一些失败的对话是分散的。此外,成功的对话平均少于10轮,这一现象与训练有素的tas的观点一致。基于KS的系统,用户无法完全参与较长的会话。
    
     这个清晰可见的结果显示了无监督对话框嵌入的潜在用途,因为改进的对话框表示似乎与大多数成功的对话框情况相关。采取适当的固定维度对话表示。
    
     考虑到训练良好的对话框嵌入功能,提出的GP奖励模型将在该输入空间中运行,该系统在GPy库(Hensman等人,2012)中实现。最初设置为1,以鼓励用户征求意见。在第一组50次会话训练之后,阈值设置为0.85,然后设置为0.85。
    
     最初,由于每个新的对话被添加到训练集中,用于定义Eqn中提到的核心结构的超参数被优化以最小化共轭梯度上边际概率的负结果。在40个对话中,这些超参数只针对每20个对话进行重新优化。
    
     图5显示了在线策略优化过程中的学习曲线,它表明主观成功与训练对话的数量有关。在线GP、Subj、离线RNN和Obj=Subj系统由黑色曲线、红色曲线、蓝色曲线和红色曲线表示。光区域代表标准偏差的时间间隔。
    
     为了研究我们的在线GP策略学习框架的性能,已经测试了另外三个比较系统。注意:手动系统由于其大小和对语音识别错误的敏感性而不具有可比性。用于计算激励的方法。
    
     1。OBJ=SUBJ利用任务的先验知识,只使用训练对话。在此过程中,用户对成功的主观评价与(Gasic等人,2013)一致。
    
     三。离线RNN系统使用1K仿真数据和匹配OBJ标签来训练RNN任务成功预测因子(SU等人,2015A)。
    
     为了只关注策略的性能,而不关注系统的其他方面,如回复的流畅性,要求用户回答问题:您找到所需的所有信息了吗预测对话是否成功。
    
     图6:在线策略优化过程中,每个系统向用户请求反馈的次数是培训次数的函数。橙线表示Obj=Subj,Subj系统,黑曲线表示在线GP系统。
    
     上述四个系统由AMT服务终端选择的用户通过在线启动500个对话进行培训。图5显示了培训过程中主观成功的在线学习曲线。对于每个系统,使用包含150个对话的窗口计算动态平均值。在训练各个系统的过程中,对三种不同的策略进行训练,并对结果进行平均,以降低用户提供的反馈信息的噪声。
    
     可以看出,经过近500次对话训练后,上述四种系统的性能都优于80%的主观成功预测器。其中,与其他系统相比,Obj=Subj系统的性能较差。这可能是由于用户仍然在等待。l预测会话的结果是成功的,尽管客观预测结果显示会话失败。在这种情况下,对话将被放弃而不用于培训。因此,为了获得500个有用的会话,Obj=Subj系统需要700个会话NS,而所有其他学习系统有效地使用每个会话。
    
     为了能够长时间地研究学习行为,培训在线GP系统和Subj系统所需的会话数量被扩展到850。如图所示,这两种学习系统的培训结果显示出温和的上升趋势。
    
     类似于GASIC等人的结果。(2011)Subj系统还受到来自用户的不可靠反馈的影响。首先,在Obj=Subj系统的培训期间,用户把所有的任务要求都抛在后面,尤其是忘记要求所有需要的信息。其次,由于对反馈信息的关注不够。根据提供的信息,用户提供的反馈信息呈现不一致现象。从图5中可以清楚地看到,在线GP系统的性能始终优于Subj系统,这可能是由于噪声模型抵消了不一致性的影响。当然,与人群来源的主题不同,真实用户可以提供更一致的反馈,但是偶尔的不一致是不可避免的,并且嘈杂的模型提供了所需的反馈信息的鲁棒性。
    
     在图6中可以看到在线GP系统在减少用户反馈需求(即标签成本)数量方面的优势。黑曲线显示了训练在线GP系统所需的主观学习查询的数量,并且通过平均三种策略获得结果。另一方面,正如橙色虚线所示,Obj=Subj系统和Subj系统在每次培训期间都需要用户反馈。
    
     当然,当在线训练系统时,离线RNN系统完全不需要用户反馈信息,因为系统具有使用用户模拟器的优点,但是在训练过程中,当第一组300个会话结束时,系统性能较差。R的在线GP系统。
    
     为了比较各种学习系统的性能,表1的第一部分是400至500次会话的平均和标准偏差。e相当,没有统计学差异。表1还显示了Subj系统和联机GP系统之间500至850个会话的训练会话结果。表1中的数据还表明,联机GP系统具有显著的优势,可能是因为它更灵敏。与SUBJ系统相比,用户信息不正确。
    
     上述结果证实了我们的奖赏模型在策略学习中的有效性,在这一部分中,我们将进一步研究该模型在主观成功率预测中的准确性。表2是在1到850个会话中对在线GP奖励模型的结果的评估。
    
     由于每个培训环节可以通过850个对话学习3种奖励模式,因此需要2550个培训环节,在对话培训过程中,模型需要询问454次用户反馈,其余的2096个对话训练用于学习,这取决于p奖励模型的结果。表中所示的结果是2096次会话训练的平均值。
    
     表1:Obj=Subj系统、离线RNN系统、Subj系统和在线GP系统在不同在线策略学习阶段的主观评价结果。上述结果,其中P0.05。
    
     可以看出,随着对话训练次数的增加,对话策略得到改进,成功标签和失败标签的比例不平衡,由于奖励模型更多地关注带有正标签的数据,这将削弱用户预测失败对话的记忆。另一方面,我们的报酬模型可以准确地预测对话的成功。
    
     与其他模型相比,在线GP奖赏模型的主要优点在于它能够抵消用户反馈信息的噪声和有效使用用户监控措施。在很大程度上表现出相似性。
    
     表3列出了用户和在线GP系统之间的两个示例对话,以说明系统在不同噪声条件下如何工作。用户的主观预测结果和在线GP奖励模型生成的预测结果也显示在表中。N-SEM是指在第n代语音识别器和语义解码器中分别做出的可能假设。
    
     本文提出了一种基于高斯过程分类的主动报酬学习模型和基于神经网络的无监督对话嵌入方法,旨在实现口语对话系统中真实的在线策略学习。对于真实用户的反馈信息,该模型能够达到稳定的策略优化效果,并且使用主动学习方法来最小化对用户反馈信息的查询次数。贝叶斯模型的主要优点是它的不确定性评估结果使得学习和噪声处理能够以自然的方式进行。这种无监督的对话框嵌入功能在训练期间不需要带注释的数据,但是提供了压缩。总体而言,本文开发的技术首次为现实对话系统提供了一种实用的在线学习方法。这种在线学习方法不需要大量的标记数据语料库或用户模拟器。
    
     与我们之前的工作一致,本研究的奖励功能集中在任务的成功上。这种奖励模式对于商业应用来说似乎太简单了。在以后的工作中,我们将与人类交互专家合作,确定并包括满足高层用户需求的会话质量的其他方面。
    
     哈尔滨工业大学副教授李彦杰(音译)认为,通过加强学习手段优化对话管理策略是一种非常有效的方法,但准确的奖励功能对优化对话管理策略效果非常重要。联合学习模型采用高斯过程分类和基于神经网络的无监督对话嵌入方法。当用户信息不确定时,通过主动查询收集更多的信息,获得准确的报酬函数,实现了口语对话系统的在线策略学习,通过对真实用户反馈中的内在噪声进行鲁棒建模,实现了稳定的策略操作。时间化,使用主动学习方法减少用户反馈查询的数量,有助于提高用户体验。
    
     PS:本文仅由雷锋网(公开编号:雷锋网)编辑,未经许可不得转载。更多ACL相关信息扫描代码涉及WeChat集团
    
    

郑州网站优化,郑州网站建设,网络推广首选朗创网络营销,网址http://www.99wenwen.com/,国内领先网络推广服务公司.

  • 400-880-6422