什么是自然语言处理,它是如何工作的?

已发表: 2022-01-29
与智能手机上的聊天机器人交谈。
NicoElNino/Shutterstock.com

自然语言处理使计算机能够将我们所说的内容处理成它可以执行的命令。 了解它是如何工作的基础知识,以及它是如何被用来改善我们的生活的。

什么是自然语言处理?

无论是 Alexa、Siri、Google Assistant、Bixby 还是 Cortana,如今每个拥有智能手机或智能扬声器的人都有声控助手。 每年,这些语音助手似乎都能更好地识别和执行我们告诉他们要做的事情。 但是你有没有想过这些助手是如何处理我们所说的事情的? 由于自然语言处理或 NLP,他们设法做到了这一点。

从历史上看,大多数软件只能响应一组固定的特定命令。 由于您单击了打开,文件将打开,或者电子表格将根据某些符号和公式名称计算公式。 一个程序使用它被编码的编程语言进行通信,因此当它得到它识别的输入时会产生一个输出。 在这种情况下,单词就像一组不同的机械杠杆,总是提供所需的输出。

这与人类语言形成鲜明对比,人类语言是复杂的、非结构化的,并且基于句子结构、语气、口音、时间、标点符号和上下文具有多种含义。 自然语言处理是人工智能的一个分支,它试图弥合机器识别为输入的内容与人类语言之间的差距。 这样当我们自然地说话或打字时,机器就会产生与我们所说的内容一致的输出。

广告

这是通过在实际单词的含义之上获取大量数据点来从人类语言的各种元素中获取含义来完成的。 这个过程与机器学习的概念密切相关,机器学习使计算机能够在获得更多数据点时学习更多。 这就是为什么我们经常与之交互的大多数自然语言处理机器似乎随着时间的推移而变得更好的原因。

为了更好地阐明这个概念,让我们看一下 NLP 中用于处理语言和信息的两种最顶级的技术。

相关:人工智能的问题:机器正在学习,但无法理解它们

代币化

标记化自然语言处理

标记化意味着将语音分成单词或句子。 每段文本都是一个标记,这些标记是处理您的语音时显示的内容。 这听起来很简单,但在实践中,这是一个棘手的过程。

假设您正在使用文本转语音软件(例如 Google 键盘)向朋友发送消息。 你想发信息,“在公园见我。” 当您的手机记录并通过 Google 的文本转语音算法对其进行处理时,Google 必须将您刚才所说的内容拆分为令牌。 这些标记将是“meet”、“me”、“at”、“the”和“park”。

人们在单词之间有不同长度的停顿,而其他语言在单词之间的可听停顿可能不会很少。 语言和方言之间的标记化过程差异很大。

词干和词形还原

词干提取和词形还原都涉及删除机器可以识别的词根的添加或变体的过程。 这样做是为了使不同单词的语音解释保持一致,这些单词基本上都意味着相同的东西,这使得 NLP 处理更快。

词干自然语言处理

词干提取是一个粗略的快速过程,涉及从词根中删除词缀,这些词缀是附加到词根之前或之后的词的附加词。 这通过简单地删除字母将单词变成最简单的基本形式。 例如:

  • “走”变成“走”
  • “快”变“快”
  • “严重”变成“严重”
广告

如您所见,词干提取可能会产生完全改变单词含义的不利影响。 “Severity”和“sever”不是同一个意思,只是在词干提取的过程中去掉了后缀“ity”。

另一方面,词形还原是一个更复杂的过程,涉及将一个词简化为它们的基础,称为引理。 这考虑了单词的上下文以及它在句子中的使用方式。 它还涉及在单词数据库及其各自的引理中查找术语。 例如:

  • “是”变成“是”
  • “操作”变成“操作”
  • “严重”变成“严重”

在这个例子中,词形还原成功地将术语“严重性”变成了“严重”,这是它的词形和词根。

NLP 用例和未来

前面的例子只是开始触及自然语言处理的表面。 它涵盖了广泛的实践和使用场景,其中许多是我们在日常生活中使用的。 以下是当前使用 NLP 的一些示例:

  • 预测文本:当您在智能手机上键入消息时,它会自动向您推荐适合句子或您以前使用过的单词。
  • 机器翻译:广泛使用的消费者翻译服务,例如谷歌翻译,将高级形式的 NLP 合并到处理语言并翻译它。
  • 聊天机器人: NLP 是智能聊天机器人的基础,尤其是在客户服务领域,它们可以在客户面对真人之前协助客户并处理他们的请求。

还有更多。 NLP 用途目前正在新闻媒体、医疗技术、工作场所管理和金融等领域开发和部署。 未来我们有可能与机器人进行全面而复杂的对话。

如果您有兴趣了解有关 NLP 的更多信息,可以查看 Towards Data Science 博客或 Standford National Language Processing Group 上的许多出色资源。