Che cos'è l'elaborazione del linguaggio naturale e come funziona?
Pubblicato: 2022-01-29L'elaborazione del linguaggio naturale consente ai computer di elaborare ciò che stiamo dicendo in comandi che possono eseguire. Scopri come funzionano le basi e come vengono utilizzate per migliorare le nostre vite.
Che cos'è l'elaborazione del linguaggio naturale?
Che si tratti di Alexa, Siri, Google Assistant, Bixby o Cortana, tutti coloro che hanno uno smartphone o un altoparlante intelligente hanno al giorno d'oggi un assistente ad attivazione vocale. Ogni anno, questi assistenti vocali sembrano migliorare nel riconoscere ed eseguire le cose che diciamo loro di fare. Ma ti sei mai chiesto come questi assistenti elaborano le cose che stiamo dicendo? Riescono a farlo grazie a Natural Language Processing, o NLP.
Storicamente, la maggior parte dei software è stata in grado di rispondere solo a un insieme fisso di comandi specifici. Si aprirà un file perché hai fatto clic su Apri oppure un foglio di calcolo calcolerà una formula in base a determinati simboli e nomi di formule. Un programma comunica utilizzando il linguaggio di programmazione in cui è stato codificato e quindi produrrà un output quando riceve un input che riconosce. In questo contesto, le parole sono come un insieme di diverse leve meccaniche che forniscono sempre l'output desiderato.
Ciò è in contrasto con le lingue umane, che sono complesse, non strutturate e hanno una moltitudine di significati basati su struttura della frase, tono, accento, tempismo, punteggiatura e contesto. L'elaborazione del linguaggio naturale è una branca dell'intelligenza artificiale che tenta di colmare il divario tra ciò che una macchina riconosce come input e il linguaggio umano. Questo è così che quando parliamo o digitiamo in modo naturale, la macchina produce un output in linea con ciò che abbiamo detto.
Questo viene fatto prendendo grandi quantità di dati per ricavare un significato dai vari elementi del linguaggio umano, oltre ai significati delle parole effettive. Questo processo è strettamente legato al concetto noto come machine learning, che consente ai computer di apprendere di più man mano che ottengono più punti di dati. Questo è il motivo per cui la maggior parte delle macchine di elaborazione del linguaggio naturale con cui interagiamo frequentemente sembra migliorare nel tempo.
Per chiarire meglio il concetto, diamo un'occhiata a due delle tecniche di più alto livello utilizzate nella PNL per elaborare il linguaggio e le informazioni.
CORRELATI: Il problema con l'intelligenza artificiale: le macchine stanno imparando cose, ma non riescono a capirle
Tokenizzazione
Tokenizzazione significa dividere il discorso in parole o frasi. Ogni pezzo di testo è un token e questi token sono ciò che viene visualizzato quando il tuo discorso viene elaborato. Sembra semplice, ma in pratica è un processo complicato.
Supponiamo che tu stia utilizzando un software di sintesi vocale, come Google Keyboard, per inviare un messaggio a un amico. Vuoi inviare un messaggio "Ci vediamo al parco". Quando il tuo telefono prende quella registrazione e la elabora attraverso l'algoritmo di sintesi vocale di Google, Google deve quindi dividere ciò che hai appena detto in token. Questi token sarebbero "meet", "me", "at", "the" e "park".
Le persone hanno diverse lunghezze di pausa tra le parole e altre lingue potrebbero non avere molto poco in termini di pause udibili tra le parole. Il processo di tokenizzazione varia drasticamente tra lingue e dialetti.
Stemming e lemmatizzazione
Stemming e lemmatizzazione implicano entrambi il processo di rimozione di aggiunte o variazioni a una parola radice che la macchina può riconoscere. Questo viene fatto per rendere l'interpretazione del parlato coerente tra parole diverse che significano tutte essenzialmente la stessa cosa, il che rende più veloce l'elaborazione della PNL.
Lo stemming è un processo rapido e grezzo che comporta la rimozione di affissi da una parola radice, che sono aggiunte a una parola allegata prima o dopo la radice. Questo trasforma la parola nella forma base più semplice semplicemente rimuovendo le lettere. Per esempio:
- “Camminare” diventa “camminare”
- "Più veloce" diventa "veloce"
- "Severity" si trasforma in "sever"
Come puoi vedere, lo stemming può avere l'effetto negativo di cambiare completamente il significato di una parola. "Severity" e "sever" non significano la stessa cosa, ma il suffisso "ity" è stato rimosso nel processo di stemming.
D'altra parte, la lemmatizzazione è un processo più sofisticato che comporta la riduzione di una parola alla loro base, nota come lemma. Questo prende in considerazione il contesto della parola e il modo in cui viene usata in una frase. Implica anche la ricerca di un termine in un database di parole e il rispettivo lemma. Per esempio:
- "Are" si trasforma in "essere"
- “Operazione” diventa “Operazione”
- La "gravità" diventa "grave"
In questo esempio, la lemmatizzazione è riuscita a trasformare il termine "severità" in "severo", che è la sua forma lemma e la sua radice.
Casi d'uso della PNL e il futuro
Gli esempi precedenti iniziano solo a scalfire la superficie di ciò che è l'elaborazione del linguaggio naturale. Comprende un'ampia gamma di pratiche e scenari di utilizzo, molti dei quali utilizziamo nella nostra vita quotidiana. Questi sono alcuni esempi di dove è attualmente in uso la PNL:
- Testo predittivo: quando digiti un messaggio sul tuo smartphone, ti suggerisce automaticamente le parole che si adattano alla frase o che hai usato in precedenza.
- Traduzione automatica: servizi di traduzione dei consumatori ampiamente utilizzati, come Google Translate, per incorporare una forma di NLP di alto livello per elaborare la lingua e tradurla.
- Chatbot: la NLP è la base per i chatbot intelligenti, in particolare nel servizio clienti, in cui possono assistere i clienti ed elaborare le loro richieste prima che si trovino di fronte a una persona reale.
C'è altro in arrivo. Gli usi della PNL sono attualmente in fase di sviluppo e distribuzione in campi come i media, la tecnologia medica, la gestione del posto di lavoro e la finanza. C'è la possibilità che potremmo essere in grado di avere una conversazione sofisticata a tutti gli effetti con un robot in futuro.
Se sei interessato a saperne di più sulla PNL, ci sono molte fantastiche risorse sul blog Towards Data Science o sullo Standford National Langauge Processing Group che puoi consultare.