NLP顶级专家Dan Roth :自然语言处理领域近期的任务和主

NLP顶级专家Dan Roth
作者:知否
来源:智能
2018-03-13 22:34
[ 导读 ] 麻省理工科技评论》新兴科技峰会EmTech China在北京召开,营长也受邀参加,会上有多位人工智能领域的重磅大佬出没

《麻省理工科技评论》新兴科技峰会EmTech China在北京召开,营长也受邀参加,会上有多位人工智能领域的重磅大佬出没,Dan Roth 就是其中一位。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

说起Dan Roth,他可是全球自然语言处理领域的顶级专家,宾夕法尼亚大学计算机和信息科学系的讲席教授。他致力于通过机器学习和推理的方法帮助机器理解自然语言。也是 AAAS、ACL、AAAI 和 ACM 的会士,曾在多个重要会议上担任程序主席一职。2017 年,他因“在自然语言理解、机器学习和推理领域中做出重大的概念和理论创新”而获得国际人工智能联合会议(IJCAI)颁发的约翰·麦卡锡奖。Dan Roth 在哈佛大学获得博士学位,并曾在伊利诺伊大学担任教授。他曾开发出 SNoW 等多种应用广泛的自然语言处理工具。

今天Dan Roth教授为我们带来了题为“利用非结构化数据——AI的崛起”的演讲,为我们讲解了自然语言处理领域近期的重要任务;为什么非结构化的数据处理很难以及应对措施;自然语言处理领域现阶段的主要应用及挑战等内容。

以下为Dan Roth教授演讲实录:

▌NLP领域近期的重要任务

当我们连接wifi的时候,或者当你在下载的时候,会出现一个提示框询问你是否接受用户协议。这是一份很长的文本,那么你要接受吗?可能你会回答,对,我要接受,哪怕这个时候,你还没有读完这份长长的文本。

但是这个文本中会涉及很多问题,比如,它会如何利用我的个人信息?会不会侵害我的隐私?我们需要了解这些知识。这个文本能不能让用户清楚了解这些相关的保密内容呢?我们现在还没有一种稳定的方法可以去了解整个文本的内容,这就是我们现在遇到的问题。这个问题不仅是一个科学上的问题,这些文本关乎我们个人信息的安全性,这是每个人都要面对的问题。

我们接触到的绝大多数数据是非结构性的。从科学领域,再到医学、教育、商业、互联网等等,包括我们的邮件都是非结构性数据。这背后的挑战就是,我们如何去了解这些数据的结构,从而建立一个系统,可以去分析、利用它们,了解其背后的意义。这就是自然语言处理领域近期,尤其是近几年的一个重要任务。

▌为什么非结构化的数据处理很难?

今天,我来给大家解释一下,为什么非结构性的数据处理这么难?以及我们要采取什么样的措施?

我们从一个简单的故事开始。这是美国二年级学生的一道阅读测试题。有三个名字:Kris Robin、Kiris和Ms. Robin,大家觉得他们是同一个人的名字吗?我想大多数人都觉得不是。为什么不是呢?因为通过阅读理解,大家会觉得其中有一个可能是父亲。虽然这篇文章中没有明确指出这一点,但是大家可以推断出来。这样一道题,有人做对,有人做错,有人可能做的很快,有人则可能会慢一点。那么我们如何帮助计算机快速地做出选择呢?

其实,这个故事中是有很多陷阱的,有的人会被误导。文章中往往有很多的逻辑词,有很多时间节点,比如说三年前五年前,还有一些定性和定量的词语,让我们可以分析和梳理人物之间的关系。哪怕是一个很简单的问题,我们也需要通过逻辑来梳理。

对计算机而言,这是一个比较复杂的问题。为什么呢?因为这背后有两层逻辑。表层语言层和底层意义层。语言层具有模糊性,因此可能会产生歧义,所以我们需要去了解它的背景,推测它的言外之意来消除这样的歧义。除此之外,语言层还具有多样性。我们想要表达的每一点,都可以通过不同的方式表达出来。这两个特点就使得语意理解非常困难。

再给大家举一个例子,这里有三篇文本,都提到了芝加哥。

“我来自芝加哥。”

我这么说,它可能没有别的意思。但如果我提到芝加哥乐队,或者芝加哥的足球队,或者提到与它相关的专辑。有的文本中甚至不会直接出现芝加哥,但是这些不同的意义点都可以帮我们表达出芝加哥。

传统的编程能力暂时没办法帮助我们解决语言的模糊性问题。所以我们就要利用最新的机器学习去减少文本中的模糊性,去连接语言中的逻辑,去解读背景知识,去识别不同的词汇,以最终地消解这种模糊性。

机器学习是解决语言中模糊性和多样性一个必要的工具。在过去几年我们也看到了这个领域的发展,我们有不同分类方法来解决文本分类问题,他们依据不同的规则,使用不同的方法。比如我们会通过打上一个标签对文本进行标记,在标记的过程中对文件进行分类。比如可以通过病例来判断一个患者是否可以复诊,这是一种宏观的分类方法。

全部评论

相关文章

  • 验证码: 看不清?点击更换 看不清? 点击更换
  • 微信扫一扫

    知否网