Doğal Dil İşleme Nedir ve Nasıl Çalışır?
Yayınlanan: 2022-01-29Doğal dil işleme, bilgisayarların söylediklerimizi yürütebilecekleri komutlara dönüştürmesini sağlar. Nasıl çalıştığının temellerini ve hayatımızı iyileştirmek için nasıl kullanıldığını öğrenin.
Doğal Dil İşleme Nedir?
Alexa, Siri, Google Asistan, Bixby veya Cortana olsun, günümüzde akıllı telefonu veya akıllı hoparlörü olan herkesin sesle etkinleştirilen bir asistanı var. Her yıl, bu sesli asistanlar, onlara yapmalarını söylediğimiz şeyleri tanıma ve uygulama konusunda daha iyi hale geliyor. Ama bu asistanların söylediğimiz şeyleri nasıl işlediğini hiç merak ettiniz mi? Bunu Doğal Dil İşleme veya NLP sayesinde başarıyorlar.
Tarihsel olarak, çoğu yazılım yalnızca belirli bir dizi sabit komuta yanıt verebilmiştir. Aç'ı tıklattığınız için bir dosya açılır veya bir elektronik tablo, belirli sembollere ve formül adlarına dayalı olarak bir formül hesaplar. Bir program, kodlandığı programlama dilini kullanarak iletişim kurar ve bu nedenle, tanıdığı girdi verildiğinde bir çıktı üretecektir. Bu bağlamda kelimeler, her zaman istenen çıktıyı sağlayan bir dizi farklı mekanik kaldıraç gibidir.
Bu, karmaşık, yapılandırılmamış ve cümle yapısı, tonu, aksan, zamanlama, noktalama işaretleri ve bağlama dayalı çok sayıda anlamı olan insan dillerinin aksine. Doğal Dil İşleme, bir makinenin girdi olarak tanıdığı şey ile insan dili arasındaki bu boşluğu kapatmaya çalışan bir yapay zeka dalıdır. Bu, doğal olarak konuştuğumuzda veya yazdığımızda makine, söylediklerimize uygun bir çıktı üretecek şekildedir.
Bu, gerçek kelimelerin anlamlarının yanı sıra, insan dilinin çeşitli öğelerinden anlam türetmek için çok miktarda veri noktası alınarak yapılır. Bu süreç, bilgisayarların daha fazla veri noktası elde ettikçe daha fazla öğrenmesini sağlayan makine öğrenimi olarak bilinen kavramla yakından bağlantılıdır. Sıklıkla etkileşimde bulunduğumuz doğal dil işleme makinelerinin çoğunun zamanla daha iyi hale gelmesinin nedeni budur.
Konsepti daha iyi aydınlatmak için, dil ve bilgiyi işlemek için NLP'de kullanılan en üst düzey tekniklerden ikisine bir göz atalım.
İLGİLİ: Yapay Zeka ile İlgili Sorun: Makineler Bir Şeyler Öğreniyor Ama Onları Anlayamıyor
Tokenizasyon
Tokenizasyon, konuşmayı kelimelere veya cümlelere bölmek anlamına gelir. Her metin parçası bir belirteçtir ve bu belirteçler konuşmanız işlendiğinde ortaya çıkanlardır. Kulağa basit geliyor, ancak pratikte zor bir süreç.
Diyelim ki bir arkadaşınıza mesaj göndermek için Google Klavye gibi metinden konuşmaya yazılım kullanıyorsunuz. “Benimle parkta buluş” diye mesaj atmak istiyorsunuz. Telefonunuz bu kaydı alıp Google'ın metinden konuşmaya algoritması aracılığıyla işlediğinde, Google'ın az önce söylediklerinizi jetonlara ayırması gerekir. Bu belirteçler “buluş”, “ben”, “at”, “the” ve “park” olacaktır.
İnsanlar kelimeler arasında farklı uzunluklarda duraklamalara sahiptir ve diğer dillerde kelimeler arasında duyulabilir bir duraklama çok az olmayabilir. Belirteçleştirme süreci, diller ve lehçeler arasında büyük farklılıklar gösterir.
Köklenme ve Lemmatizasyon
Köklendirme ve lemmatizasyon, makinenin tanıyabileceği bir kök kelimeye yapılan eklemeleri veya varyasyonları kaldırma sürecini içerir. Bu, konuşmanın yorumlanmasını farklı kelimeler arasında tutarlı hale getirmek için yapılır, hepsi temelde aynı anlama gelir, bu da NLP işlemeyi daha hızlı hale getirir.
Köklendirme, kökten önce veya sonra eklenen bir kelimeye yapılan eklemeler olan bir kök kelimeden eklerin çıkarılmasını içeren kaba hızlı bir işlemdir. Bu, sadece harfleri kaldırarak sözcüğü en basit temel forma dönüştürür. Örneğin:
- “Yürümek” “yürümeye” dönüşüyor
- “Daha hızlı”, “hızlı”ya dönüşüyor
- “Şiddet” “sert”e dönüşüyor
Gördüğünüz gibi, kökten türetmek, bir kelimenin anlamını tamamen değiştirmek gibi olumsuz bir etkiye sahip olabilir. “Önem” ve “kes” aynı anlama gelmez, ancak köklenme sürecinde “it” eki çıkarılmıştır.
Öte yandan, lemmatizasyon, bir kelimeyi lemma olarak bilinen tabanlarına indirgemeyi içeren daha karmaşık bir süreçtir. Bu, kelimenin bağlamını ve bir cümlede nasıl kullanıldığını dikkate alır. Ayrıca, bir kelime veritabanında bir terimin ve ilgili lemmanın aranmasını da içerir. Örneğin:
- “Var”, “olmak”a dönüşür
- "İşlem", "işletme"ye dönüşüyor
- “Şiddet”, “şiddetli”ye dönüşüyor
Bu örnekte, lemmatization, “ciddilik” terimini, lemma formu ve kök kelimesi olan “şiddetli” haline getirmeyi başardı.
NLP Kullanım Örnekleri ve Gelecek
Önceki örnekler, Doğal Dil İşlemenin ne olduğunun yalnızca yüzeyini çizmeye başlar. Birçoğu günlük hayatımızda kullandığımız çok çeşitli uygulamaları ve kullanım senaryolarını kapsar. Bunlar, NLP'nin şu anda kullanımda olduğu yerlere birkaç örnek:
- Tahmini Metin: Akıllı telefonunuza bir mesaj yazdığınızda, size cümleye uyan veya daha önce kullandığınız kelimeleri otomatik olarak önerir.
- Makine Çevirisi: Dili işlemek ve çevirmek için üst düzey bir NLP biçimini birleştirmek için Google Çeviri gibi yaygın olarak kullanılan tüketici çeviri hizmetleri.
- Chatbotlar: NLP, özellikle müşteri hizmetlerinde müşterilere yardımcı olabilecekleri ve taleplerini gerçek bir kişiyle karşılaşmadan önce işleyebilecekleri akıllı sohbet robotlarının temelidir.
Gelecek daha çok şey var. NLP kullanımları şu anda haber medyası, tıbbi teknoloji, işyeri yönetimi ve finans gibi alanlarda geliştirilmekte ve uygulanmaktadır. Gelecekte bir robotla tam teşekküllü sofistike bir konuşma yapabilme şansımız var.
NLP hakkında daha fazla bilgi edinmekle ilgileniyorsanız, Towards Data Science blogunda veya Standford Ulusal Dil İşleme Grubunda kontrol edebileceğiniz birçok harika kaynak var.