
自然语言处理(NLP)是一门融合了语言学、计算机科学和人工智能的科学。它解决了让机器理解自然语言3354,这是迄今为止人类独有的特权,因此被誉为人工智能皇冠上的明珠。
最近我采访了加州大学圣巴巴拉分校——助理教授王威廉,他是自然语言处理领域的中国后起之秀,向他请教了自然语言处理领域最前沿的研究问题,以及对自然语言处理研究方向的一些建议。
关于王威廉:2009年毕业于深大,后赴美留学,获硕士学位和博士先后在哥伦比亚大学和卡内基梅隆大学获得博士学位。他的研究范围包括统计关系学习、信息抽取、社交媒体、语音和视觉等等。2016年博士毕业后,王威廉加入了加州大学圣巴巴拉分校。如今,王威廉是该校NLP团队的负责人,也是计算机科学系的助理教授。近年来,王威廉在一些重要的NLP/AI/ML会议和期刊上发表了60多篇论文,多次获得著名学术会议的最佳论文奖和提名。
1)你现在的主要研究领域是什么?有什么最新进展?
王威廉:我现在的主要研究领域有三个:自然语言处理、机器学习和人工智能。
在自然语言处理领域,我们实验室主要致力于信息抽取、社交媒体、语音和语言处理,以及语言和视觉的研究。
在机器学习领域,更注重强化学习、对抗学习、深度学习技术的突破。
在人工智能的一般领域,我们非常注重知识表示、推理和知识图谱。
我们最近的一些突破,比如发表在EMNLP 2017上的DeepPath,首次提出了强化学习的方法在知识图谱上进行推理,这项工作获得了极大的关注。我们还有一些相关的工作,比如利用变分推理进一步提高知识图谱路径搜索的效率。
此外,我们在语言和视觉方面也做了很多尝试,包括文章字幕、文章讲故事,以及如何将深度强化学习技术与这些复杂的语言和视觉技术相结合。我们尝试了反向强化学习来学习生成的文本描述的多样性,并主动学习它的一些奖励函数。最近也做了一些语言的铺垫工作,比如教机器人根据语言和视觉的信息去寻找路径,到达目的地。与此同时,我们在社交媒体领域的假新闻和仇恨言论检测方面做了大量工作。
2)2)NLP目前有哪些突破?未来的研究难点是什么?
王威廉:在自然语言处理领域,实体标注等工作的结果非常好,准确率基本超过90%。现在有些工作,包括大家都很关心的阅读理解,第一版上SQuAD的成绩已经很不错了。未来我觉得语言的生成还是一个难题,就是如何做一些可控的生成,如何保证语义的连贯性和语法的正确性,这些都是在神经网络的框架下很难实现的。
还有一个推理的问题。如何在分类、序列标注等任务的基础上,进一步设计一些算法和机器学习模型,进而让机器在一些复杂的任务,尤其是一些推理相关的任务上有所突破?这些仍然是相当困难的问题。
3)3)NLP中流行的SQuAD数据集有什么局限性?NLP需要什么样的数据集?又是什么样的评价标准?
王威廉:它有几个局限性。第一,数据量不大。第二,当机器做阅读理解时,它不会我真的不需要完全理解这个问题或这一章。它可以使用简单的模式识别方法来找到模式。比如这个问题中的哪个单词和短文中的哪个单词相匹配,然后回答答案。所以它可以我真的不懂这种语言,不是吗?I don’我不能很好地理解这些问题。不要回答复杂的问题。
NLP领域需要更复杂的数据集,比如多个文本,要在知识图谱中进行一些推理,还要根据上下文中不同的假设进行一些推理。这样的数据集可能更有帮助。
评价是很多人都在讨论的话题,比如BLEU,已经用了一二十年了。它有很大的局限性。比如它是用重叠词而不是语义方法做出的评价标准,所以它可以不要取代人的评价。
4)Salesforce针对十种常见的自然语言任务(问答、机器翻译、摘要、自然语言推理、情感分析、语义角色标注、关系抽取、任务驱动的多轮对话、数据库查询生成器和代词消解)开发了通用模型de clap。这种通用模式的优缺点是什么?
王威廉:我个人认为多任务学习是一个非常有趣的方向。可以看一下decaNLP的单个结果。它确实离每个单项的SOTA还有一段距离。总的来说,这是一个很有意思的研究方向,但是在实际应用中,每个单项的成就还是远远落后于单个SOTA的。
5)基于注意力的网络真的能取代RNN及其变体吗?为什么?
王威廉:不一定。RN及其变体确实有一些优势,例如,它可以掌握非常准确的局部语义关系,LSTM在序列标注等任务上仍然可以取得非常好的效果。总的来说,Transformer是一个有趣的研究角度,但现实是,除了机器翻译,它在NLP任务上并没有取得最好的结果。
6)现在很流行强化学习和GAN,但是在NLP任务中有很多局限性。面对这种情况,科研人员该怎么办?
王威廉:我认为首先,你应该找出你为什么要使用强化学习。在我看来,强化学习在NLP中可以做到三点。第一件事,你可以用它来做学习搜索,学习排名,然后用强化学习作为一种手段来解决传统方法所不能解决的问题解决。其次,我们发现在强化协同训练的工作中,强化学习可以学习选择数据,然后我们可以用强化学习做denoiser。另外,强化学习还可以用来优化BLEU评分,ROUGE评分。我们最近发表在ACL 2018上的工作也使用反向强化学习来学习它的评估标准。总之,学习的空间还是很大的。
GAN是一个很有意思的方向。在CV领域取得了良好的效果。在NLP领域,由于语言是离散的,大家还在研究如何更好地设计对抗网络,让鉴别器把误差传播回去,从而更好地更新生成器。我们在负面案例生成和远程监督去噪方面也做了一些尝试,包括今年的KBGAN和DSGAN。
总的来说,首先你为什么要这么做?你到底要做什么?强化学习和甘适合这个任务吗?了解这几点,然后才有可能提高你的NLP成绩。如果你不我不知道,它盲目地应用GAN和强化学习很难在你的任务中取得好的结果。
7)对于研究人员来说,NLP中哪些研究方向更容易取得突破?
王威廉:自然语言研究有两个部分,一个是生成,另一个是理解。生成和理解都很重要,而且很难说哪一个更容易取得突破。
但是生成的任务肯定是很难的,因为首先词汇量是无穷无尽的,然后潜在空间和单词的映射也很难,所以生成会稍微难一点。
至于理解任务,就看你走了哪一步了。如果是做文本分类等简单的任务,当然有一些难度,比如结构化预测,序列标注会更难。例如,最困难的任务可能是生成语法树,如依存语法分析或语义分析。
8)面对当前NLP领域的研究困境,过去我们会在数据、ML或DL方法上进行创新或改变。现在还是同样的想法吗?需要了解语言学知识还是整合其他学科的知识?
王威廉:早些年,人们可能会通过NLP研究来研究计算语言学,即如何通过计算方法更好地理解语言学。基本上现在已经改了。在过去的10-15年中,NLP一直由计算机科学家主导。他们可能关心一些更实际的任务,比如机器翻译和对话系统。如你所见,很多NAACL和EMNLP的论文经常在数据、任务或机器学习方法上做一些创新。
其实这也和计算机科学有关,因为计算机科学本身就喜欢算法层面的创新。需要语言学知识吗?深度学习之前,大家都觉得有必要。深度学习后,大家都觉得可能没必要。但是现在大家发现像Seq2Seq这样的模型结果很差,语义连贯性和语法正确性没有保证,大家都想把结构整合到深度学习模型中。所以我个人认为你还是需要掌握一些语言学知识,至少是你所学习和研究的语言的一些基础知识,根据你的不同应用,其他学科的知识也很重要。比如你做计算社会科学,你当然需要了解一些社会科学,包括心理学和社会学,才能在你的研究上有所突破。
9)近几年NLP在中国的发展?
王威廉:近年来,自然语言处理在中国的发展非常迅速,主要体现在以下几个方面。第一,大家可以看到,在NLP的ACL、NAACL、EMNLP三个大会上,中国人基本上已经撑起了半边天。目前论文至少有一半来自国内高校,但如果看第一作者,中国作者的比例可能更高。国内行业发展也非常迅速,尤其是在自然语言处理领域。另外,目前国内百花齐放,不仅是传统的清华、北大、中科院、哈工大,其他很多学校也有很多优秀的教授和一些优秀的研究。与美国相比,中国的增长速度肯定要快得多。总的来说,中国和美国已经是NLP领域的两个强国。接下来希望有更多的中国论文获得最佳论文奖。
10)中文NLP和英文NLP有什么区别?
王威廉:中文自然语言处理的难点在于它的处理单位不是单词,而是字符。不管是的强化学习或者Seq2Seq,在单词层面做,离字符层面还是很远的。如果是在人物层面做,你的序列可能会变得很长,不容易做。所以汉语的挑战在于语言本身很难。除了汉语,还有其他少数民族语言值得我们关注。









