Dev şirketler yapay zekalarını 'eğitmek' için yarışa girdi

Photobucket, 2000'li yılların başında dünyanın bir numaralı görsel sitesiydi. Myspace ve Friendster gibi bir zamanların popüler hizmetlerinin medya omurgası olan site, 70 milyon kullanıcıya sahipti ve ABD çevrimiçi fotoğraf pazarının neredeyse yarısını oluşturuyordu.

Analitik internet veri izleme şirketi Similarwebe göre bugün Photobucketı hala kullananların sayısı sadece 2 milyon. Ancak üretken yapay zeka devrimi, Photobucket’a yeni bir soluk getirebilir.

Coloradoda 40 çalışanı bulunan şirketi yöneten CEO Ted Leonard, Reuters haber ajansına verdiği demeçte, Photobucketın 13 milyar fotoğraf ve videosunu, üretken yapay zeka modellerini eğitmek için kullanılmak üzere ruhsatlandırmak amacıyla birden fazla teknoloji şirketiyle görüştüğünü söyledi.

Leonard, fotoğraf başına 5 sent ile 1 dolar arasında, video başına ise 1 dolardan fazla fiyatlandırma yaparak görüştüğünü, fiyatların hem alıcıya hem de aranan görüntü türlerine göre büyük ölçüde değiştiğini söyledi.

Çok daha fazlasına ihtiyacımız var diyen şirketlerle konuştuklarını belirten Leonard, bir alıcının bir milyardan fazla video istediğini, bunun da kendi platformunun sahip olduğundan daha fazla olduğunu söyledi.

Photobucket, ticari gizliliği gerekçe göstererek muhtemel müşterilerinin kimliğini açıklamayı reddetti.

Daha önce bildirilmeyen ve devam eden görüşmeler, şirketin milyarlarca dolar değerinde içeriğe sahip olabileceğini ve üretken yapay zeka teknolojisine hakim olma arzusuyla ortaya çıkan hareketli veri pazarına ilişkin ipuçları verebileceğini gösteriyor.

Google, Meta ve Microsoft destekli OpenAI gibi teknoloji devleri başlangıçta ChatGPT gibi insan yaratıcılığını taklit edebilen üretken yapay zeka modellerini eğitmek için internetten ücretsiz olarak toplanan veri yığınlarını kullanmıştı.

Şirketler, bu uygulama nedeniyle bir dizi telif hakkı sahibinin açtığı davalarla karşı karşıya olmalarına rağmen, bunu yapmanın hem yasal hem de etik olduğunu ileri sürmüştü.

Unutulan verilerin gizli ticareti

Bu teknoloji şirketleri aynı zamanda, ödeme duvarları ve giriş ekranları ardında saklı olan içerikler için sessizce ödeme yapıyor. Bu durum, sohbet kayıtlarından sosyal medya uygulamalarında uzun süredir unutulmuş kişisel fotoğraflara kadar her türlü verinin gizli ticaretinin yapılmasına yol açıyor.

Hukuk firması Klaris Lawdan Edward Klaris, yapay zeka eğitimi için fotoğraf, film ve kitap arşivlerini ruhsatlamak üzere içerik sahiplerine her biri on milyonlarca dolar değerinde anlaşmalar konusunda danışmanlık yapıyor. Klaris, Şu anda özel koleksiyonları olan telif hakkı sahiplerine yönelmek için bir telaş var diyor.

Reuters, aralarında ilgili şirketlerin mevcut ve eski yöneticileri, avukatlar ve danışmanların da bulunduğu, yapay zeka veri anlaşmaları hakkında bilgi sahibi 30dan fazla kişiyle görüşerek bu yeni gelişen pazarın ilk derinlemesine incelemesini yaptı.

Haber ajansı böylelikle satın alınan içerik türlerini, fiyatları ve kişisel verilerin sahiplerinin bilgisi veya açık rızası olmadan yapay zeka modellerine girme riskiyle ilgili ortaya çıkan endişeleri detaylandırdı.

OpenAI, Google, Meta, Microsoft, Apple ve Amazon, Reuters’ın bu değerlendirmesi için belirli veri anlaşmaları ve tartışmaları hakkında yorum yapmayı reddetti.

Ancak Microsoft ve Google, Reuterse veri gizliliği hükümlerini içeren tedarikçi davranış kurallarına atıfta bulundu.

Google, bir ihlal tespit etmesi halinde bir tedarikçiyle olan anlaşmasını feshetmeye kadar varabilecek şekilde derhal harekete geçeceğini de kaydetti.

Birçok büyük pazar araştırması firması, şirketlerin genellikle anlaşmalarını açıklamadığı kapalı yapay zeka veri pazarının büyüklüğünü tahmin etmeye bile başlamadıklarını söylüyor.

Business Research Insights gibi bunu yapan araştırmacılar, pazarın şu anda kabaca 2,5 milyar dolar olduğunu ve on yıl içinde 30 milyar dolara yakın büyüyebileceğini tahmin ediyor.

Üretken veriye hücum

Büyük üretken yapay zeka temel modellerinin üreticileri, yoğun bilgi işlem gücü gerektiren ve genellikle tamamlanması aylar süren eğitim olarak bilinen bir süreç olan sistemlerine besledikleri büyük miktarda içerikler hakkında, hesap vermek için artan baskıyla karşı karşıya.

Teknoloji şirketleri, kamuya açık olarak tanımladıkları kar amacı gütmeyen Common Crawl tarafından sağlananlar gibi ücretsiz toplanmış internet sayfası verilerinden oluşan geniş arşivleri kullanamazlarsa, teknolojinin maliyet açısından elverişsiz olacağını söylüyor.

Ancak bu yaklaşımları telif hakkı davalarına ve yasal düzenlemelere yol açtı.

Buna karşılık, yapay zeka modeli üreticileri, hem içerik sahipleriyle anlaşmalar yaparak hem de talebi karşılamak için ortaya çıkan veri tüccarları aracılığıyla risklerden korunmaya çalışarak veri tedarik zincirlerini güvence altına almaya başladılar.

Örneğin, ChatGPTnin 2022nin sonlarında piyasaya sürülmesinden sonraki aylarda Meta, Google, Amazon ve Apple gibi şirketler, görsel sağlayıcısı Shutterstock ile kütüphanesindeki yüz milyonlarca görsel, video ve müzik dosyasını eğitim için kullanmak üzere anlaşmalar yaptı.

Shutterstockun Mali İşler Müdürü Jarrod Yahes Reutersa yaptığı açıklamada, büyük teknoloji firmalarıyla yapılan anlaşmaların başlangıçta 25 milyon ila 50 milyon dolar arasında değiştiğini, ancak daha sonra çoğunun arttırıldığını söyledi. Yahes, daha küçük teknoloji oyuncularının da aynı yolu izlediğini ve son iki ayda yeni bir faaliyet furyası yaşandığını kaydetti.

Yahes bireysel sözleşmeler hakkında yorum yapmayı reddetti. Apple anlaşması ve diğer anlaşmaların büyüklüğü daha önce kamuoyuna açıklanmamıştı.

Podcastler, kısa biçimli videolar ve dijital asistanlarla etkileşimler gibi gerçek dünya içeriğinin haklarını güvence altına alan ve aynı zamanda sıfırdan özel görseller ve ses örnekleri üretmek için kısa süreli sözleşmeli çalışanlardan oluşan ağlar kuran, yapay zeka veri firmaları endüstrisi de ortaya çıkıyor.

Reutersa konuşan Seattle merkezli Defined.aiın kurucusu CEO Daniela Braga; Google, Meta, Apple, Amazon ve Microsoft gibi çeşitli şirketlere veri lisansladıklarını söyledi.

Ücretler alıcıya ve içerik türüne göre değişiyor. Ancak Braga, şirketlerin genellikle görüntü başına 1 ila 2 dolar, kısa video başına 2 ila 4 dolar ve daha uzun filmlerin saati başına 100 ila 300 dolar ödemeye istekli olduklarını, metin için piyasa fiyatının kelime başına 0,001 dolar olduğunu anlattı.

Braga, en hassas işlem gerektiren müstehcen görüntülerin de 5 ila 7 dolar arasında olduğunu kaydetti.

Defined.ainin bu kazançları içerik sağlayıcılarla paylaştığını söyleyen Braga, veri kümelerini etik kaynaklı olarak pazarladıklarını, çünkü verilerini kullandıkları kişilerden onay aldıklarını ve kişisel olarak tanımlayıcı bilgileri çıkardıklarını da sözlerine ekledi.

Firmanın tedarikçilerinden biri olan Brezilya merkezli bir girişimci, kaynak sağladığı fotoğraf, podcast ve tıbbi verilerin sahiplerine toplam anlaşma tutarının yaklaşık yüzde 20 ila 30unu ödediğini söyledi.

Aşırı şiddet içeren görüntülerin tedariki
Şirketinin adının açıklanmaması koşuluyla konuşan tedarikçi, portföyündeki en pahalı görüntülerin, teknoloji şirketleri tarafından yasaklanan aşırı şiddet gibi içerikleri engelleyen yapay zeka sistemlerini eğitmek için kullanılanlar olduğunu söyledi.
Tedarikçi, bu talepleri yerine getirmek için, genellikle Güney Amerika ve Afrikada bu görüntülerin dağıtımının daha yaygın olduğu yerlerde, çoğunlukla polis, serbest foto muhabirleri ve tıp öğrencilerinden suç mahalli, çatışma ve ameliyat görüntüleri elde ettiğini söyledi.

Tedarikçi Ekim ayında savaşın başlamasından bu yana Gazzedeki serbest fotoğrafçılardan ve çatışmaların başlangıcında İsrailden bazı görüntüler aldığını söyledi.

Tedarikçi, şirketinin, rahatsız edici olan görüntüleri anonimleştirmek ve açıklama eklemek için kanlı görüntülere alışkın hemşireleri işe aldığını da anlattı.