Qu'est-ce que le traitement automatique du langage naturel et comment fonctionne-t-il ?
Publié: 2022-01-29Le traitement du langage naturel permet aux ordinateurs de transformer ce que nous disons en commandes qu'ils peuvent exécuter. Découvrez les bases de son fonctionnement et comment il est utilisé pour améliorer nos vies.
Qu'est-ce que le traitement automatique du langage naturel ?
Qu'il s'agisse d'Alexa, de Siri, de Google Assistant, de Bixby ou de Cortana, tous ceux qui possèdent un smartphone ou un haut-parleur intelligent disposent aujourd'hui d'un assistant à commande vocale. Chaque année, ces assistants vocaux semblent mieux reconnaître et exécuter les choses que nous leur disons de faire. Mais vous êtes-vous déjà demandé comment ces assistants traitent ce que nous disons ? Ils y parviennent grâce au Natural Language Processing, ou NLP.
Historiquement, la plupart des logiciels ne pouvaient répondre qu'à un ensemble fixe de commandes spécifiques. Un fichier s'ouvrira parce que vous avez cliqué sur Ouvrir, ou une feuille de calcul calculera une formule basée sur certains symboles et noms de formule. Un programme communique en utilisant le langage de programmation dans lequel il a été codé et produira donc une sortie lorsqu'il reçoit une entrée qu'il reconnaît. Dans ce contexte, les mots sont comme un ensemble de différents leviers mécaniques qui fournissent toujours le résultat souhaité.
Cela contraste avec les langues humaines, qui sont complexes, non structurées et ont une multitude de significations basées sur la structure de la phrase, le ton, l'accent, le timing, la ponctuation et le contexte. Le traitement du langage naturel est une branche de l'intelligence artificielle qui tente de combler l'écart entre ce qu'une machine reconnaît comme entrée et le langage humain. C'est ainsi que lorsque nous parlons ou tapons naturellement, la machine produit une sortie conforme à ce que nous avons dit.
Cela se fait en prenant de grandes quantités de points de données pour dériver le sens des différents éléments du langage humain, en plus du sens des mots réels. Ce processus est étroitement lié au concept connu sous le nom d'apprentissage automatique, qui permet aux ordinateurs d'en savoir plus à mesure qu'ils obtiennent plus de points de données. C'est la raison pour laquelle la plupart des machines de traitement du langage naturel avec lesquelles nous interagissons semblent s'améliorer avec le temps.
Pour mieux éclairer le concept, examinons deux des techniques les plus avancées utilisées en PNL pour traiter le langage et l'information.
CONNEXES: Le problème avec l'IA: les machines apprennent des choses, mais ne peuvent pas les comprendre
Tokénisation
La tokenisation consiste à diviser le discours en mots ou en phrases. Chaque morceau de texte est un jeton, et ces jetons sont ce qui apparaît lorsque votre discours est traité. Cela semble simple, mais en pratique, c'est un processus délicat.
Supposons que vous utilisez un logiciel de synthèse vocale, tel que le clavier Google, pour envoyer un message à un ami. Vous voulez envoyer un message : "Rencontrez-moi au parc". Lorsque votre téléphone prend cet enregistrement et le traite via l'algorithme de synthèse vocale de Google, Google doit alors diviser ce que vous venez de dire en jetons. Ces jetons seraient « rencontre », « moi », « chez », « le » et « parc ».
Les gens ont différentes longueurs de pauses entre les mots, et d'autres langues peuvent ne pas avoir très peu de pauses audibles entre les mots. Le processus de tokenisation varie considérablement entre les langues et les dialectes.
Stemming et lemmatisation
La radicalisation et la lemmatisation impliquent toutes deux le processus de suppression des ajouts ou des variations d'un mot racine que la machine peut reconnaître. Ceci est fait pour rendre l'interprétation de la parole cohérente entre différents mots qui signifient tous essentiellement la même chose, ce qui accélère le traitement de la PNL.
La radicalisation est un processus rapide et grossier qui consiste à supprimer les affixes d'un mot racine, qui sont des ajouts à un mot attaché avant ou après la racine. Cela transforme le mot en la forme de base la plus simple en supprimant simplement les lettres. Par example:
- "Marcher" se transforme en "marcher"
- "Plus vite" devient "rapide"
- "Severity" se transforme en "sever"
Comme vous pouvez le constater, la radicalisation peut avoir pour effet négatif de modifier entièrement le sens d'un mot. "Severity" et "sever" ne signifient pas la même chose, mais le suffixe "ity" a été supprimé dans le processus de radicalisation.
D'autre part, la lemmatisation est un processus plus sophistiqué qui consiste à réduire un mot à sa base, connue sous le nom de lemme. Cela prend en considération le contexte du mot et la façon dont il est utilisé dans une phrase. Il s'agit également de rechercher un terme dans une base de données de mots et leur lemme respectif. Par example:
- "Sont" se transforment en "être"
- « Opération » se transforme en « opérer »
- La « gravité » devient « sévère »
Dans cet exemple, la lemmatisation a réussi à transformer le terme « sévérité » en « sévère », qui est sa forme de lemme et son mot racine.
Cas d'utilisation de la PNL et avenir
Les exemples précédents ne font qu'effleurer la surface de ce qu'est le traitement du langage naturel. Il englobe un large éventail de pratiques et de scénarios d'utilisation, dont beaucoup sont utilisés dans notre vie quotidienne. Voici quelques exemples d'utilisation actuelle de la PNL :
- Texte prédictif : Lorsque vous tapez un message sur votre smartphone, il vous suggère automatiquement des mots qui correspondent à la phrase ou que vous avez déjà utilisés.
- Traduction automatique : services de traduction grand public largement utilisés, tels que Google Traduction, pour incorporer une forme de PNL de haut niveau afin de traiter le langage et de le traduire.
- Chatbots : la PNL est la base des chatbots intelligents, en particulier dans le service client, où ils peuvent aider les clients et traiter leurs demandes avant qu'ils ne soient confrontés à une personne réelle.
Il y a plus à venir. Les utilisations de la PNL sont actuellement développées et déployées dans des domaines tels que les médias d'information, la technologie médicale, la gestion du lieu de travail et la finance. Il y a une chance que nous puissions avoir une conversation sophistiquée à part entière avec un robot à l'avenir.
Si vous souhaitez en savoir plus sur la PNL, il existe de nombreuses ressources fantastiques sur le blog Towards Data Science ou le Standford National Langauge Processing Group que vous pouvez consulter.