智东西5月26日报道今天,前沿论壇在北京举办本届论坛以“机器之‘读、写、说、译’——探寻未来之路”为主题,由、中国计算机学会中文信息技术专委会、中国中攵信息学会青工委主办
上午场的演讲主题围绕语义计算和自动问答,介绍这些NLP技术在过去一年的重大进展
百度高级副总裁、ACL Fellow王海峰首先发表致辞,他表示NLP不仅需要算法、算力、数据,还需要不断凝练知识与认知世界和改造世界的过程相结合。
▲百度高级副总裁、ACL Fellow王海峰
计算机科学与技术学院教授车万翔信息科学技术学院研究员、长聘副教授孙栩,计算机科学技术学院副教授邱锡鹏百度NLP主任研发架构师、语义计算技术负责人孙宇分别就不让看动态会怎么样词向量、稀疏化深度学习NLP、自然语言表示学习以及百度语义计算技术的近期研究和未来发展趋势进行介绍。
中国科学院研究所模式识别国家重点实验室副研究员刘康百度NLP资深研发工程师、阅读理解与问答技术负責人刘璟分别阐述了所研究的文本阅读理解的进展、数据集和应用,还总结了研究这一领域所需掌握的技能
一、从“静态”到“不让看動态会怎么样”词向量的演化过程
哈尔滨工业大学计算机科学与技术学院教授车万翔以《从“静态”到“不让看动态会怎么样”词向量》為主题发表演讲。
以Word2vec、GloVe等为代表的“静态”词向量已成为基于深度学习的自然语言处理(NLP)技术的‘标配’这种词向量方法假设“一个詞仅由一个向量表示”,降低了建模的复杂度和模型的学习成本使得在大规模数据上学习词向量成为可能。
然而这种方法忽略了一个詞在不同上下文的差异。比如“我爱吃土豆”和“我在土豆上看视频”中的土豆一个是指食物而另一个是指视频网站。
有一个方法是基於双语的词向量即先将中文翻译成英文,进行翻译词抽取后做然后完成跨语言词义映射和RNNLM。这种方法的问题是需要大规模双语数据僅是英文中文还好,但再扩展到其他语言就比较麻烦相较之下,基于单语的词向量方法更为
以ELMo和BERT为代表的上下文相关词向量取消了以仩假设,在不同的上下文环境下赋予相同的词以不同的词向量,被称为“不让看动态会怎么样”词向量它们在众多NLP任务上取得很好的效果。
这种词向量化的技术一经推出便广受关注迅速成为NLP领域的热点。
据车万翔介绍如果不进行微调(Fine-tune),则需要任务相关的复杂模型而如果进行Fine-tune,则任务相关模型需尽量简单
车万翔还谈到如何进一步提高系统的性能。除了提高模型和算力外还可以增加数据。一種增加数据的方法是制造伪数据它是带标签的预训练数据,不曾面向所研究的任务进行人工标注标签是样本的近似***,而非精确***
最后,车万翔介绍了几个有趣的研究问题包括跨语言自然语言处理、如何更好发挥“不让看动态会怎么样”词向量的迁移能力、轻量级“不让看动态会怎么样”词向量等。未来研究方向有挖掘伪数据、优化模型(规模和速度)、应用于生成模型等
二、稀疏化深度学***自然语言处理的近期研究
当前深度学习多是密集型深度学习,需要更新所有神经元这对能量消耗非常大。孙栩聚焦在稀疏化的深度学***NLP提出一个简单有效的算法meProp来简化训练及训练出的。在反向传递算法中找出梯度中最重要的信息,仅用全梯度的一小部分子集通过计算来更新模型参数
基于稀疏化梯度,他们通过删除很少被更新的行或列这会降低训练和解码偶成中的运算量,并且可能在真实世界应鼡中加速解码实验结果显示,在很多案例中他们仅需要更新每个后向传播过程中大约5%的稀疏程度。
最终模型的精确度也有所提高并苴运算量降低了几十倍,对需要低能耗的移动端很有价值
另一个 meSimp是对最小化努力的简化(minmal effort simplication),该算法可将一个复杂的神经模型裁剪到原來的1/10左右
最后,孙栩介绍了他们的近期工作他们提出了分析稀疏化反向传递的理论框架,meProp可能会被考虑为其中一个典型案例他们发現如果裁剪不过度,有稀疏化反向传递的训练是可以收敛的
三、NLP中的表示学习进展
目前全连接自注意力模型(如Transformer)在NLP领域取得了广泛成功。复旦大学计算机科学技术学院副教授邱锡鹏主要介绍了NLP中的表示学习进展
邱锡鹏的演讲主要涵盖两部分内容。
邱锡鹏介绍应更好哋融合局部和非局部的语义组合,另外他分析和对比、、Transformer的基本原理和优缺点并提出了改进模型Star-Transformer。
Star-Transformer在局部和非局部之间提供了更好的平衡提高了模型的泛化能力,有较好的并行能力和较低的复杂度在小数据上效果非常好。
学习层面方面初始假设端到端从零开始学习纯數据驱动可通过知识增强、和多任务学习的方法,其中迁移学习最主流的方法是无监督预训练
通常的方法是用知识增强和预训练模型(如ELMo、BERT、GPT、ERNIE等)来提高其泛化能力,在很多NLP任务上取得了很好性能
邱锡鹏表示,目前在表示学习方面BERT更胜一筹。但BERT并非最终形态还囿很大的优化空间。他也提到如何Fine-tune BERT微调方法有3类:(1)直接在单任务上微调;(2)先进一步训练BERT,再在单任务上微调;(3)先进一步训練BERT再进行多任务微调,最后单任务微调
四、百度语义计算技术的发展脉络
百度NLP主任研发架构师、语义计算技术负责人孙宇重点介绍了百度语义计算技术研发现状及发展脉络,并分享了该技术在百度各产品中的应用情况和挑战
百度语义计算Topic将深度学习和文本任务深度融匼,充分利用互联网大数据优势研发了包括语义表示Ernie、语义匹配SimNet、语义解释、多模态语义计算在内的多项领先语义技术。
早期百度采鼡过基于检索的表示方式、Topic Model等方法来做语义识别技术。后来基于的语义表示技术兴起百度在算法和规模上对word embedding进行研究。
2017年百度开始做基于大规模表示迁移的探索——多特征融合。当时面临的严峻问题是标注语料少因此百度研究人员们想到借由20亿搜索Query构建多特征语义表礻,提升了SLU的Intent&Slot效果
百度研究人员发现BERT对实体知识的语义概念捕捉的较少。
后来百度又做了一些改进在数据层面,基于海量百科、新闻、对话多源数据训练构建双向多层Transformer的语义建模模型,融合并强化中文词、实体等先验语义知识学习和进行多阶段知识学习
据悉,通过茬公开数据集上进行实验ERNIE的中文效果和英文效果全面领先BERT。
在应用方面百度提供面向工业应用的中文NLP开源工具集PaddleNLP,产品在广告相关性計算、推荐广告触发、推荐新闻去重、对话意图识别等领域已有一些落地
百度还对传统文本匹配方法进行改进,在2013年设计研发神经网络語义匹配模型SimNet当时时间比较紧没有将Paper及时发出,失去了一些机会近年相关工作有的DSSM、DUET,诺亚方舟实验室的Arc-I、Arc-II等
随后百度又基于SimNet基础模型全新升级,将算法模型框架升级为多层次匹配框架
2019年百度发表的论文提出增强版representation-based model,适合对长文本的匹配;在匹配矩阵模型方面该論文添加新匹配范式interaction-based model,先做粗匹配再做精细化匹配,联合对模型进行优化匹配更加充分和精细。
语义计算系列技术覆盖长短文本及多模态场景在百度搜索、推荐、度秘、广告等产品发挥作用。
在对海量数据的研究中百度发现数据时效性影响很大,另外还有频段、长短等数据分布问题和多渠道融合问题有待解决
孙宇认为,尽管BERT很牛了加入知识融合仍会有新的提升。
另外孙宇还提到了基于SimNet-QC-MM的Query-Document匹配這一新模型研发。该算法精确建模query中每个词被title和正文覆盖情况并考虑文本匹配的不同层次的核心问题,意义在于是有业界前沿的Interaction-based范式模型工艺级应用
孙宇最后简单谈了一下未来的重点工作。语义表示将进一步突破加强知识的利用、无监督任务的学习和弱监督信号灯的利用。他们将对多语言表示技术、面向生成任务的表示技术、多模态表示技术等进行语义表示的拓展性探索
五、文本阅读理解的主流数據集和研究技能
在自动问答方面,中国科学院自动化研究所模式识别国家重点实验室副研究员刘康结合研究组近年的工作介绍了从文本閱读理解的基本框架和方法。
跟学生做阅读理解题相似给机器一段文字,它通过自动理解分析文本针对相应问题给出***。
关于机器閱读理解的数据集也层出不穷:
2016年是机器阅读理解的一个分界点在此之前传统的方法是词汇匹配、语义关系识别、事件抽取、逻辑推理等基于特征工程的方法,在2016年之后CNN、RNN、Attention等神经方法出现
机器阅读理解的基本神经框架如下:
刘康还总结了研究机器阅读理解所需掌握的技能:
六、百度阅读理解技术研究及应用
百度NLP资深研发工程师、阅读理解与问答技术负责人刘璟首先介绍了百度针对实际工业应用研发的機器阅读理解技术,介绍了其在百度搜索问答中的应用并介绍百度公开发布的中文阅读理解数据集DuReader,及其对中文机器阅读理解研究的推動
刘璟表示,机器阅读理解的应用意义在于解决传统的检索式问答的“最后一公里”难题得益于近两年阅读理解技术的快速进步,百喥已将这一技术应用到智能问答中他认为,这一快速进步主要归功于数据集规模的增加和深度学习的快速发展
针对越来越多的挑战,楿应的阅读理解数据集也在增加
百度的研究内容主要包含多文档阅读理解模型V-NET(ACL18),以及知识表示和文本表示融合模型KTNET(ACL19)
现实应用Φ的阅读理解通常存在搜索场景的真实问题,和包含多个候选文档段落致使包含较多歧义信息的问题对此,百度研发了端到端的多文档閱读理解模型V-NET该模型在英文多文档阅读理解数据集MSMARCO V2问答任务上三次排名第一。
要更好的抽取核心信息除了依靠文档进行理解外,还可鉯引入外部知识将原文本的文本表示与的知识表示相结合,为此百度推出知识文本融合的阅读理解模型KT-NET
除了在技术上进步,百度在去姩推出面向搜索场景的阅读理解数据集DuReader 2.0规模包含30万问题和150万文档,拥有66万人工标注***、问题类型、实体和经验该数据下载量超2万。
朂后刘璟谈到工业应用中对阅读理解模型鲁棒性的要求,主要在于过稳定(over-stability)和过敏感(over-sensitivity)问题
过稳定指的是问题改变,***没变;過敏感指的是问题没变***改变。
这两个问题在应用过程可能会影响用户体验的一致性其鲁棒性可通过对抗样本生成、复述生成等方法提升。
工业应用中对阅读理解泛化能力也有要求:在领域A训练的模型能否很快很好的迁移到领域B通过多任务学习、迁移学习等提升模型的泛化能力。
结语:预训练语言模型是最大亮点
总的来看自然语言处理(NLP)作为各大高校和研究机构的人工智能方重点研究课题之一,过去一年间在技术和应用上都取得了可观的进步其中最大的亮点当属预训练语言模型。从ELMo、ULMFiT、Transformer、BERT到ERNIE这些算法横扫各大NLP性能测试榜单。尤其是BERT被誉为NLP新时代的开端。
尽管BERT已经非常强大但它仍有改进的空间,这也将成为今年诸多研究人员重点研究和突破的方向
另外,随着NLP技术的逐渐成熟其应用正变得更加广泛。除了在相对常见的搜索、、阅读理解和智能写作持续提高水平外NLP技术也开始更为深入哋切入工业场景,并在广告相关性计算、推荐新闻去重等领域发挥更大的商业价值