Apa itu Pemrosesan Bahasa Alami, dan Bagaimana Cara Kerjanya?

Diterbitkan: 2022-01-29

Berbicara dengan bot obrolan di smartphone. — NicoElNino/Shutterstock.com

Pemrosesan bahasa alami memungkinkan komputer untuk memproses apa yang kita katakan menjadi perintah yang dapat dijalankannya. Cari tahu bagaimana dasar-dasar cara kerjanya, dan bagaimana itu digunakan untuk meningkatkan kehidupan kita.

Apa itu Pemrosesan Bahasa Alami?

Baik itu Alexa, Siri, Google Assistant, Bixby, atau Cortana, semua orang dengan smartphone atau speaker pintar saat ini memiliki asisten yang diaktifkan dengan suara. Setiap tahun, asisten suara ini tampaknya menjadi lebih baik dalam mengenali dan menjalankan hal-hal yang kami perintahkan untuk mereka lakukan. Tapi pernahkah Anda bertanya-tanya bagaimana para asisten ini memproses hal-hal yang kami katakan? Mereka berhasil melakukan ini berkat Natural Language Processing, atau NLP.

Secara historis, sebagian besar perangkat lunak hanya mampu menanggapi serangkaian perintah tertentu yang tetap. File akan terbuka karena Anda mengklik Buka, atau spreadsheet akan menghitung rumus berdasarkan simbol dan nama rumus tertentu. Sebuah program berkomunikasi menggunakan bahasa pemrograman yang dikodekan, dan dengan demikian akan menghasilkan output ketika diberikan input yang dikenalinya. Dalam konteks ini, kata-kata seperti seperangkat tuas mekanis yang berbeda yang selalu memberikan keluaran yang diinginkan.

Hal ini berbeda dengan bahasa manusia yang kompleks, tidak terstruktur, dan memiliki banyak makna berdasarkan struktur kalimat, nada, aksen, waktu, tanda baca, dan konteks. Pemrosesan Bahasa Alami adalah cabang kecerdasan buatan yang mencoba menjembatani kesenjangan antara apa yang dikenali mesin sebagai input dan bahasa manusia. Ini agar ketika kita berbicara atau mengetik secara alami, mesin menghasilkan output sesuai dengan apa yang kita katakan.

Ini dilakukan dengan mengambil sejumlah besar titik data untuk memperoleh makna dari berbagai elemen bahasa manusia, di atas makna kata-kata yang sebenarnya. Proses ini terkait erat dengan konsep yang dikenal sebagai pembelajaran mesin, yang memungkinkan komputer untuk belajar lebih banyak karena mereka memperoleh lebih banyak titik data. Itulah alasan mengapa sebagian besar mesin pemroses bahasa alami yang sering berinteraksi dengan kita tampaknya menjadi lebih baik dari waktu ke waktu.

Untuk memperjelas konsep dengan lebih baik, mari kita lihat dua teknik tingkat atas yang digunakan dalam NLP untuk memproses bahasa dan informasi.

TERKAIT: Masalah Dengan AI: Mesin Mempelajari Banyak Hal, Tetapi Tidak Dapat Memahaminya

Tokenisasi

pemrosesan bahasa alami tokenisasi

Tokenisasi berarti memecah ucapan menjadi kata-kata atau kalimat. Setiap bagian teks adalah sebuah token, dan token-token inilah yang muncul ketika pidato Anda diproses. Kedengarannya sederhana, tetapi dalam praktiknya, ini adalah proses yang rumit.

Katakanlah Anda menggunakan perangkat lunak text-to-speech, seperti Google Keyboard, untuk mengirim pesan ke teman. Anda ingin mengirim pesan, "Temui aku di taman." Saat ponsel Anda mengambil rekaman itu dan memprosesnya melalui algoritme text-to-speech Google, Google kemudian harus membagi apa yang baru saja Anda katakan menjadi token. Token ini akan menjadi “bertemu”, “saya”, “di”, “di”, dan “taman”.

Orang-orang memiliki panjang jeda yang berbeda di antara kata-kata, dan bahasa lain mungkin tidak memiliki jeda yang sangat sedikit di antara kata-kata. Proses tokenisasi bervariasi secara drastis antara bahasa dan dialek.

Stemming dan Lemmatization

Stemming dan lemmatization keduanya melibatkan proses menghilangkan penambahan atau variasi kata dasar yang dapat dikenali oleh mesin. Ini dilakukan untuk membuat interpretasi ucapan konsisten di berbagai kata yang semuanya pada dasarnya memiliki arti yang sama, yang membuat pemrosesan NLP lebih cepat.

stemming pemrosesan bahasa alami

Stemming adalah proses cepat kasar yang melibatkan penghapusan afiks dari kata dasar, yang merupakan tambahan pada kata yang dilampirkan sebelum atau sesudah kata dasar. Ini mengubah kata menjadi bentuk dasar paling sederhana dengan hanya menghapus huruf. Sebagai contoh:

"Berjalan" berubah menjadi "berjalan"
"Lebih cepat" berubah menjadi "cepat"
"Severity" berubah menjadi "sever"

Seperti yang Anda lihat, stemming mungkin memiliki efek buruk untuk mengubah arti kata secara keseluruhan. “Severity” dan “sever” tidak memiliki arti yang sama, tetapi akhiran “ity” dihilangkan dalam proses stemming.

Di sisi lain, lemmatisasi adalah proses yang lebih canggih yang melibatkan pengurangan kata ke dasarnya, yang dikenal sebagai lemma. Ini mempertimbangkan konteks kata dan bagaimana itu digunakan dalam sebuah kalimat. Ini juga melibatkan pencarian istilah dalam database kata-kata dan lemmanya masing-masing. Sebagai contoh:

"Apakah" berubah menjadi "menjadi"
"Operasi" berubah menjadi "operasi"
"Keparahan" berubah menjadi "parah"

Dalam contoh ini, lemmatisasi berhasil mengubah istilah “severity” menjadi “severe”, yang merupakan bentuk lemma dan akar kata.

Kasus Penggunaan NLP dan Masa Depan

Contoh-contoh sebelumnya hanya mulai menggores permukaan apa itu Natural Language Processing. Ini mencakup berbagai praktik dan skenario penggunaan, banyak di antaranya yang kita gunakan dalam kehidupan sehari-hari. Ini adalah beberapa contoh di mana NLP saat ini digunakan:

Teks Prediktif: Saat Anda mengetik pesan di ponsel cerdas Anda, itu secara otomatis menyarankan Anda kata-kata yang sesuai dengan kalimat atau yang pernah Anda gunakan sebelumnya.
Terjemahan Mesin: Layanan penerjemahan konsumen yang banyak digunakan, seperti Google Terjemahan, untuk menggabungkan bentuk NLP tingkat tinggi untuk memproses bahasa dan menerjemahkannya.
Chatbots: NLP adalah dasar untuk chatbots cerdas, terutama dalam layanan pelanggan, di mana mereka dapat membantu pelanggan dan memproses permintaan mereka sebelum mereka menghadapi orang sungguhan.

Ada lagi yang akan datang. Penggunaan NLP saat ini sedang dikembangkan dan digunakan di bidang-bidang seperti media berita, teknologi medis, manajemen tempat kerja, dan keuangan. Ada kemungkinan kita bisa melakukan percakapan canggih yang lengkap dengan robot di masa depan.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang NLP, ada banyak sumber daya yang fantastis di blog Towards Data Science atau Standford National Langauge Processing Group yang dapat Anda periksa.