Ce este procesarea limbajului natural și cum funcționează?
Publicat: 2022-01-29Procesarea limbajului natural permite computerelor să proceseze ceea ce spunem în comenzi pe care le poate executa. Aflați cum funcționează elementele de bază și cum este folosit pentru a ne îmbunătăți viața.
Ce este procesarea limbajului natural?
Fie că este vorba de Alexa, Siri, Google Assistant, Bixby sau Cortana, oricine are un smartphone sau un difuzor inteligent are un asistent activat prin voce în zilele noastre. În fiecare an, acești asistenți vocali par să devină mai buni în recunoașterea și executarea lucrurilor pe care le spunem să le facă. Dar te-ai întrebat vreodată cum procesează acești asistenți lucrurile pe care le spunem? Ei reușesc să facă acest lucru datorită procesării limbajului natural sau NLP.
Din punct de vedere istoric, majoritatea software-ului a fost capabil să răspundă doar la un set fix de comenzi specifice. Se va deschide un fișier deoarece ați făcut clic pe Deschidere sau o foaie de calcul va calcula o formulă pe baza anumitor simboluri și nume de formule. Un program comunică folosind limbajul de programare în care a fost codat și, astfel, va produce o ieșire atunci când i se oferă o intrare pe care o recunoaște. În acest context, cuvintele sunt ca un set de pârghii mecanice diferite care oferă întotdeauna rezultatul dorit.
Acest lucru este în contrast cu limbajele umane, care sunt complexe, nestructurate și au o multitudine de semnificații bazate pe structura propoziției, ton, accent, sincronizare, punctuație și context. Procesarea limbajului natural este o ramură a inteligenței artificiale care încearcă să creeze o punte între ceea ce o mașină recunoaște ca intrare și limbajul uman. Astfel, atunci când vorbim sau tastăm în mod natural, aparatul produce o ieșire în conformitate cu ceea ce am spus.
Acest lucru se realizează prin luarea unor cantități mari de puncte de date pentru a obține sens din diferitele elemente ale limbajului uman, pe lângă semnificațiile cuvintelor reale. Acest proces este strâns legat de conceptul cunoscut sub numele de învățare automată, care permite computerelor să învețe mai multe pe măsură ce obțin mai multe puncte de date. Acesta este motivul pentru care majoritatea mașinilor de procesare a limbajului natural cu care interacționăm frecvent par să se îmbunătățească în timp.
Pentru a lumina mai bine conceptul, să aruncăm o privire la două dintre cele mai de vârf tehnici utilizate în NLP pentru a procesa limbajul și informațiile.
LEGATE: Problema cu AI: Mașinile învață lucruri, dar nu le pot înțelege
Tokenizare
Tokenizarea înseamnă împărțirea vorbirii în cuvinte sau propoziții. Fiecare fragment de text este un simbol, iar aceste simboluri sunt cele care apar atunci când vorbirea dvs. este procesată. Sună simplu, dar, în practică, este un proces complicat.
Să presupunem că utilizați un software de transformare a textului în vorbire, cum ar fi tastatura Google, pentru a trimite un mesaj unui prieten. Vrei să dai un mesaj: „Ne întâlnim în parc”. Când telefonul dvs. preia acea înregistrare și o procesează prin algoritmul Google de transformare a textului în vorbire, Google trebuie apoi să împartă ceea ce tocmai ați spus în simboluri. Aceste jetoane ar fi „întâlnește”, „eu”, „la”, „la” și „parc”.
Oamenii au lungimi diferite de pauze între cuvinte, iar alte limbi s-ar putea să nu aibă foarte puțin în ceea ce privește o pauză audibilă între cuvinte. Procesul de tokenizare variază drastic între limbi și dialecte.
Stemming și lematizare
Stemming și lematizare implică ambele procesul de eliminare a adăugărilor sau variațiilor la un cuvânt rădăcină pe care mașina îl poate recunoaște. Acest lucru se face pentru a face interpretarea vorbirii consecventă în diferite cuvinte care toate înseamnă în esență același lucru, ceea ce face procesarea NLP mai rapidă.
Stemming este un proces rapid brut care implică eliminarea afixelor dintr-un cuvânt rădăcină, care sunt completări la un cuvânt atașat înainte sau după rădăcină. Acest lucru transformă cuvântul în cea mai simplă formă de bază prin simpla eliminare a literelor. De exemplu:
- „Mersul” se transformă în „mersul”
- „Mai repede” se transformă în „rapid”
- „Severitatea” se transformă în „severitate”
După cum puteți vedea, stemming poate avea efectul negativ de a schimba în întregime sensul unui cuvânt. „Severitate” și „sever” nu înseamnă același lucru, dar sufixul „ity” a fost eliminat în procesul de derivare.
Pe de altă parte, lematizarea este un proces mai sofisticat care implică reducerea unui cuvânt la baza lor, cunoscut sub numele de lemă. Aceasta ia în considerare contextul cuvântului și modul în care este folosit într-o propoziție. De asemenea, implică căutarea unui termen într-o bază de date de cuvinte și lema lor respectivă. De exemplu:
- „Sunt” se transformă în „fi”
- „Operare” se transformă în „operare”
- „Severitatea” se transformă în „severă”
În acest exemplu, lematizarea a reușit să transforme termenul „severitate” în „sever”, care este forma sa de lemă și cuvântul rădăcină.
Cazuri de utilizare NLP și viitor
Exemplele anterioare încep doar să zgârie suprafața a ceea ce este Procesarea limbajului natural. Acesta cuprinde o gamă largă de practici și scenarii de utilizare, dintre care multe le folosim în viața de zi cu zi. Acestea sunt câteva exemple de locuri în care NLP este utilizat în prezent:
- Text predictiv: Când tastați un mesaj pe smartphone, acesta vă sugerează automat cuvinte care se potrivesc în propoziție sau pe care le-ați folosit anterior.
- Traducere automată: servicii de traducere pentru consumatori utilizate pe scară largă, cum ar fi Google Translate, pentru a încorpora o formă de nivel înalt de NLP pentru a procesa limbajul și a-l traduce.
- Chatbots: NLP este fundația chatbot-urilor inteligenți, în special în serviciul pentru clienți, unde pot asista clienții și procesa cererile înainte de a se confrunta cu o persoană reală.
Mai urmează. Utilizările NLP sunt în prezent dezvoltate și implementate în domenii precum mass-media, tehnologia medicală, managementul la locul de muncă și finanțe. Există șansa ca în viitor să putem avea o conversație sofisticată cu un robot.
Dacă sunteți interesat să aflați mai multe despre NLP, există o mulțime de resurse fantastice pe blogul Towards Data Science sau pe Standford National Language Processing Group pe care le puteți consulta.