Neden her dilde yapay zeka destekli çeviri yapılamıyor?

ChatGPT ve Google Çeviri gibi yapay zeka destekli araçlar, Küresel Güney'de yaşayan ve Batı dillerini konuşmayan milyarlarca insan için bir işe yaramıyor.

ChatGPT gibi yapay zeka destekli araçlar, destekledikleri dili biliyorsanız harika fırsatlar sunuyor.

Ancak Etiyopyanın başkenti Addis Ababada bulunan Ashagari danışmanlık şirketinin kurucusu Mekdes Gebrewold, Amharca dilinde makine çevirisinin imkansız olduğunu söylüyor. DWye konuşan Gebrewold, Google Çeviri gibi araçlar Amharca için iyi yapılandırılmamış. Bunun yerine profesyonellere para ödüyoruz diyor.

Mekdes Gebrewold gibi milyarlarca insan, yapay zeka destekli araçlardan anadillerinde yararlanamıyor.

Bu durum yalnızca ChatGPT gibi üretken yapay zeka destekli araçlar veya Google Çeviri (Translate) gibi çeviri hizmetlerine özgü değil. Otomatik tamamlama, metin çözümleme, sesli asistanlar ve sosyal medyadaki içerik denetimi gibi birçok yapay zeka destekli araç, farklı dillerde hizmet verme konusunda yetersiz.

Ancak bazı şirketler bunu değiştirmeye çalışıyor.

Yapay zeka destekli araçlar nasıl çalışıyor?
Aslında modern yapay zeka araçları, aldıkları girdiye göre en olası yanıtı tahmin ediyor. Gelişmiş otomatik tamamlama araçlarının yaptığı bu tahminler, yapay zeka mühendislerinin modellerini oluşturmak için kullandıkları eğitim verilerine dayanıyor. Dijital içerik koleksiyonlarından oluşan bu eğitim verileri çok büyük yer kaplıyor.

Common Crawl, bu eğitim verileri için önemli bir kaynak. Common Crawl, internetteki milyarlarca web sayfasından oluşan bir veri kümesi ve açık kaynak olarak erişilebiliyor. Yapay zeka destekli ChatGPT- 3.5 sürümünü eğitmek için kullanılan verilerin yaklaşık yüzde 60ı bu koleksiyondan alınmıştı.

Yapay zeka araçları, bazı dillerdeki eğitim verileri kısıtlı olduğu için farklı dillerde aynı performansla çalışmıyor. İnternetteki içerikler yoğun olarak birkaç dilde oluşturulduğu için, birçok dilde yapay zeka eğitim verisi bulmak bir sorun.

Örneğin İngilizce, Common Crawldaki tüm içeriklerin neredeyse yarısını oluşturuyor.

Öte yandan diğer tüm Afrika, Amerika ve Okyanusya dilleriyle birlikte Amharca, Common Crawl verilerinin yüzde 0,1inden azını oluşturuyor. Amharca çok az dijital veri üretilen, düşük kaynaklı bir dil olarak biliniyor. Dünyada milyarlarca insan düşük kaynaklı dilleri konuşuyor. Çok sayıda kişinin konuştuğu Hintçe, Arapça ve Bengalce gibi diller bile düşük kaynaklı dil olarak görülüyor.

Avrupa dilleri ise Asya ve Afrika dillerinin çoğuna kıyasla eğitim verilerinde daha fazla içerik sahibi. Örneğin Flemenkçe, Amharcaya benzer şekilde 20 milyondan fazla kişi tarafından anadil olarak konuşuluyor. Ancak Flemenkçe, Common Crawl veri setinde Amharcaya kıyasla neredeyse 700 kat daha fazla yer alıyor. Flemenkçe, Common Crawl veri setinde 300 milyondan fazla kişinin anadili Hintçeden bile yüzlerce kat daha fazla içeriğe sahip.

Ancak bu veri eksikliğini gidermenin yolları var.

Silikon Vadisindeki teknoloji devlerinin dışında, dünyanın her yerindeki makine öğrenimi araştırmacıları, kendi dilleri için yapay zeka destekli araçlar geliştiriyor.

Yapay zeka destekli araçlarda dil açığı nasıl kapatılır?
Asmelash Teka Hadgu, Etiyopyadaki Amharca ve Tigrinya dillerinde makine çevirisi ve konuşma teknolojisi sağlayan bir startup olan Lesanın kurucu ortağı. Bu dillerde çok büyük miktarda online kaynak bulunmadığından, Hadgunun ekibi doğrudan bu dilleri konuşan topluluklarla çalışıyor ve veri toplamanın yaratıcı yollarını buluyor.

DWye konuşan Hadgu, Genellikle kendi dillerini seven öğrencilerle çalışıyoruz diyor. Öğrenciler için Hadgu, Onlara böyle bir şey ürettiğimizi söylediğimizde etkileniyorlar ve katkıda bulunmak istiyorlar. Bu yüzden kendi dilimizde içerik toplamak için görevler belirledik. Onlara yardımcı oluyoruz ve finansal olarak çalışmalarının karşılığını veriyoruz ifadelerini kullanıyor.

Böylesi bir veri toplama süreci çok fazla el emeği gerektiriyor. Katkıda bulunan kişiler, öncelikle güvenilir kitaplar veya gazeteler gibi yüksek kaliteli veri kümelerini belirliyor ve ardından bunları dijitalleştirerek hedef dillere çeviriyorlar. Son olarak bu kişiler, makine öğrenimi sürecine rehberlik etmek için orijinal ve çevrilmiş versiyonları cümle cümle sıralıyorlar.

Bu yöntem, Lesan gibi şirketleri, milyarlarca sayfa İngilizce içeriğe sahip araçlara rakip hale getirmez. Ancak başka avantajlar sağiayabilir. Örneğin Lesan, hem Amharca hem de Tigrinyada Google Çeviriden daha iyi performans gösteriyor.

Asmelash Teka Hadgu, bu durumu Küçük, dikkatle seçilmiş veri kümelerini kullanarak kullanışlı modeller oluşturulabileceğini gösterdik diye açıklıyor. Hadgu, bu modeller için Sınırlamalarını ve yeteneklerini anlıyoruz. Bu esnada Microsoft veya Google genellikle tüm diller için tek, devasa bir model oluşturuyor, dolayısıyla bu modelin denetlenmesi neredeyse imkansız diye ekliyor.