¿Qué es el procesamiento del lenguaje natural y cómo funciona?
Publicado: 2022-01-29El procesamiento del lenguaje natural permite a las computadoras procesar lo que decimos en comandos que puede ejecutar. Descubra los conceptos básicos de cómo funciona y cómo se utiliza para mejorar nuestras vidas.
¿Qué es el procesamiento del lenguaje natural?
Ya sea Alexa, Siri, Google Assistant, Bixby o Cortana, hoy en día todos los que tienen un teléfono inteligente o un altavoz inteligente tienen un asistente activado por voz. Cada año, estos asistentes de voz parecen mejorar en el reconocimiento y ejecución de las cosas que les decimos que hagan. Pero, ¿alguna vez te has preguntado cómo estos asistentes procesan las cosas que decimos? Se las arreglan para hacer esto gracias al Procesamiento del Lenguaje Natural, o NLP.
Históricamente, la mayoría del software solo ha podido responder a un conjunto fijo de comandos específicos. Se abrirá un archivo porque hizo clic en Abrir, o una hoja de cálculo calculará una fórmula basada en ciertos símbolos y nombres de fórmula. Un programa se comunica utilizando el lenguaje de programación en el que fue codificado y, por lo tanto, producirá una salida cuando se le proporcione una entrada que reconozca. En este contexto, las palabras son como un conjunto de diferentes palancas mecánicas que siempre brindan el resultado deseado.
Esto contrasta con los lenguajes humanos, que son complejos, no estructurados y tienen una multitud de significados basados en la estructura de la oración, el tono, el acento, el tiempo, la puntuación y el contexto. El procesamiento del lenguaje natural es una rama de la inteligencia artificial que intenta cerrar la brecha entre lo que una máquina reconoce como entrada y el lenguaje humano. Esto es para que cuando hablemos o escribamos con naturalidad, la máquina produzca una salida acorde con lo que dijimos.
Esto se hace tomando grandes cantidades de puntos de datos para derivar el significado de los diversos elementos del lenguaje humano, además de los significados de las palabras reales. Este proceso está estrechamente relacionado con el concepto conocido como aprendizaje automático, que permite que las computadoras aprendan más a medida que obtienen más puntos de datos. Esa es la razón por la cual la mayoría de las máquinas de procesamiento de lenguaje natural con las que interactuamos frecuentemente parecen mejorar con el tiempo.
Para aclarar mejor el concepto, echemos un vistazo a dos de las técnicas de más alto nivel utilizadas en PNL para procesar el lenguaje y la información.
RELACIONADO: El problema con la IA: las máquinas están aprendiendo cosas, pero no pueden entenderlas
Tokenización
La tokenización significa dividir el discurso en palabras u oraciones. Cada fragmento de texto es una ficha, y estas fichas son las que aparecen cuando se procesa su discurso. Suena simple, pero en la práctica, es un proceso complicado.
Supongamos que está utilizando un software de texto a voz, como el teclado de Google, para enviar un mensaje a un amigo. Quieres enviar un mensaje, "Encuéntrame en el parque". Cuando su teléfono toma esa grabación y la procesa a través del algoritmo de texto a voz de Google, Google debe dividir lo que acaba de decir en tokens. Estos tokens serían "conocer", "yo", "en", "el" y "parque".
Las personas tienen diferentes longitudes de pausas entre palabras, y otros idiomas pueden no tener muy pocas pausas audibles entre palabras. El proceso de tokenización varía drásticamente entre idiomas y dialectos.
Stemming y Lematización
La derivación y la lematización involucran el proceso de eliminar adiciones o variaciones a una palabra raíz que la máquina puede reconocer. Esto se hace para que la interpretación del habla sea consistente en diferentes palabras que significan esencialmente lo mismo, lo que hace que el procesamiento de NLP sea más rápido.
Stemming es un proceso rápido y crudo que consiste en eliminar afijos de una palabra raíz, que son adiciones a una palabra adjunta antes o después de la raíz. Esto convierte la palabra en la forma base más simple simplemente eliminando letras. Por ejemplo:
- “Andar” se convierte en “caminar”
- “Más rápido” se convierte en “rápido”
- “Severity” se convierte en “sever”
Como puede ver, la lematización puede tener el efecto adverso de cambiar el significado de una palabra por completo. “Severidad” y “severo” no significan lo mismo, pero el sufijo “idad” se eliminó en el proceso de derivación.
Por otro lado, la lematización es un proceso más sofisticado que consiste en reducir una palabra a su base, lo que se conoce como lema. Esto toma en consideración el contexto de la palabra y cómo se usa en una oración. También implica buscar un término en una base de datos de palabras y su respectivo lema. Por ejemplo:
- “Son” se convierte en “ser”
- “Operación” se convierte en “operar”
- “Severidad” se convierte en “severo”
En este ejemplo, la lematización logró convertir el término "severidad" en "severo", que es su forma de lema y su palabra raíz.
Casos de uso de PNL y el futuro
Los ejemplos anteriores solo comienzan a arañar la superficie de lo que es el procesamiento del lenguaje natural. Abarca una amplia gama de prácticas y escenarios de uso, muchos de los cuales utilizamos en nuestra vida diaria. Estos son algunos ejemplos de dónde se usa actualmente la PNL:
- Texto predictivo: cuando escribe un mensaje en su teléfono inteligente, automáticamente le sugiere palabras que encajan en la oración o que ha usado antes.
- Traducción automática: servicios de traducción de consumo ampliamente utilizados, como Google Translate, para incorporar una forma de NLP de alto nivel para procesar el lenguaje y traducirlo.
- Chatbots: NLP es la base de los chatbots inteligentes, especialmente en el servicio al cliente, donde pueden ayudar a los clientes y procesar sus solicitudes antes de que se enfrenten a una persona real.
Hay más por venir. Actualmente, los usos de la PNL se están desarrollando y desplegando en campos como los medios de comunicación, la tecnología médica, la gestión del lugar de trabajo y las finanzas. Existe la posibilidad de que podamos tener una conversación sofisticada y completa con un robot en el futuro.
Si está interesado en obtener más información sobre PNL, hay muchos recursos fantásticos en el blog Hacia la ciencia de datos o en el Grupo nacional de procesamiento de idiomas de Standford que puede consultar.