Yeni bir araştırmaya göre, büyük dil modellerinin (LLM) bir kullanıcının sorusuna yanlış yanıt verme olasılığı, cevabı bilmediğini kabul etme olasılığından daha yüksek ve bu da onları daha az güvenilir yapıyor.
İspanyadaki Universitat Politecnica de Valenciadan yapay zeka (AI) araştırmacıları, BigScienceın BLOOM, Metanın Llama ve OpenAInin GPTsinin en son sürümlerini, her modele matematik, fen ve coğrafya üzerine binlerce soru sorarak doğruluk açısından test etti.
Araştırmacılar her bir modelin verdiği yanıtların kalitesini karşılaştırdı ve bunları doğru, yanlış ya da kaçıngan yanıtlar olarak sınıflandırdı.
Nature dergisinde yayınlanan çalışmada, her yeni modelle birlikte daha zorlu problemlerde doğru cevapların arttığı görüldü. Yine de modeller, bir soruyu doğru yanıtlayıp yanıtlayamadıkları konusunda daha az şeffaf olma eğilimindeydi.
Daha önceki LLM modelleri cevapları bulamadıklarını ya da bir cevaba ulaşmak için daha fazla bilgiye ihtiyaç duyduklarını belirtirken, yeni modellerin tahmin etme ve kolay sorulara bile yanlış cevaplar üretme olasılığı daha yüksekti.
Temel problemleri çözmede belirgin bir gelişme yok
LLMler, veri setlerini anlamak, tahmin etmek ve bunlara dayalı yeni içerikler üretmek için yapay zekayı kullanan derin öğrenme algoritmaları.
Yeni modeller daha karmaşık sorunları daha doğru bir şekilde çözebilirken, çalışmadaki LLMler temel soruları yanıtlarken hala bazı hatalar yapıyor.
Araştırmaya göre, çok düşük zorluk seviyelerinde bile tam güvenilirlik elde edilemiyor.
Modeller son derece zorlu örnekleri çözebilseler de, çok basit örneklerde de başarısız oluyorlar.
OpenAInin GPT-4ünde de durum böyle; kaçıngan cevapların sayısı bir önceki model olan GPT-3.5e göre önemli ölçüde düştü.
Çalışmanın yazarları, Bu durum, daha yeni LLMlerin kendi çalışma aralıkları dışında cevap vermekten daha başarılı bir şekilde kaçınacağı beklentisiyle uyuşmuyor, dedi.
Araştırmacılar daha sonra, teknoloji ölçeklendirilmiş olsa bile modeller için belirgin bir gelişme olmadığı sonucuna vardı.