Bu durum, söz konusu teknolojik sistemlerin ve özellikle de ChatGPT gibi büyük dil modellerinin (LLM) gelişimini yavaşlatabilir. Hatta yapay zeka devriminin gidişatını bile değiştirebilir.

Avustralya'daki Macquarie Üniversitesi'nde öğretim üyesi Rita Matulionyte, The Conversation'da yayımlanan yazısında hızla tükenen veri sorununa ışık tuttu.

"İnternette bu kadar çok veri olduğu göz önüne alındığında bu eksiklik neden sorun olsun ki?" diyen akademisyen, kaliteli verilerin yapay zeka sistemlerinin eğitimi için zorunluluk olduğunu vurguladı.

Akademisyen ayrıca, veri tükenme riskini gidermenin bir yolu olup olmadığını da sorguladı.

YAPAY ZEKA İÇİN YÜKSEK KALİTELİ VERİLER NEDEN ÖNEMLİ?

Doğru ve işe yarar çıktılar üreten yapay zeka algoritmalarını eğitmek için çok fazla veriye ihtiyaç var. Örneğin ChatGPT, 570 gigabaytlık metin verisi veya yaklaşık 300 milyar kelimeyle eğitildi.

Benzer şekilde, DALL-E, Stable Diffusion ve Midjourney gibi birçok görüntü üretme uygulamasının arkasındaki algoritmaların eğitiminde de, 5,8 milyar görüntü-metin çiftinden oluşan LIAON-5B veri kümesi kullanıldı.

Matulionyte, "Bir algoritma yetersiz miktarda veriyle eğitilirse hatalı veya düşük kaliteli çıktılar üretir" diyor.

Eğitim verilerinin kalitesi de önemli. Sosyal medya gönderileri veya bulanık fotoğraflar gibi düşük kaliteli verilere ulaşmak kolay ama yüksek performanslı yapay zeka modellerini eğitmek için bunlar yeterli değil.

Bunun yanı sıra eğitim için sosyal medya platformlarından alınacak metinler yanlış bilgi veya cinsiyetçi, ırkçı ifadeler içerebilir. Örneğin Microsoft, kendi yapay zeka botunu Twitter içeriğini kullanarak eğitmeye çalıştığında ırkçı ve kadın düşmanı çıktılar ürettiği görülmüştü.

Akademisyen "Yapay zeka geliştiricilerinin kitaplar, makaleler, Wikipedia yazıları ve belirli filtrelenmiş internet içerikleri gibi yüksek kaliteli şeyleri aramasının nedeni bu" ifadelerini kullanıyor.

2026'YA KADAR BİTEBİLİR

Akademisyene göre yapay zeka endüstrisi, sistemlerini giderek daha büyük veri kümeleri üzerinde eğitiyor. Bu sayede ChatGPT veya DALL-E 3 gibi yüksek performanslı modellere sahibiz.

Ancak araştırmalar, çevrimiçi veri stoklarının, yapay zeka sistemlerinden çok daha yavaş büyüdüğünü gösteriyor. 

"Geçen yıl yayımlanan bir makalede bir grup araştırmacı, yapay zeka eğitimindeki mevcut eğilimlerin devam etmesi halinde 2026'dan önce yüksek kaliteli metin verilerinin tükeneceğini öngördü" diyen Matulionyte, sözlerini şöyle sürdürüyor:

Ayrıca düşük kaliteli dil verilerinin bile 2030 ve 2050 arasında, düşük kaliteli görüntü verilerinin de 2030'la 2060 arasında tükeneceğini tahmin ediyorlar.

O ZAMAN NE YAPACAĞIZ?

Öte yandan bu veri eksikliği riskini gidermenin birkaç yolu olabilir.

Yurtdışı telefon kullananlar dikkat! Kayıtsız kullanım süresi değişti Yurtdışı telefon kullananlar dikkat! Kayıtsız kullanım süresi değişti

Akademisyene göre bu, algoritmaları geliştirerek halihazırda sahip olduğumuz verileri daha verimli kullanmamız için bir fırsat:

Gelecek yıllarda muhtemelen daha az veri ve daha az hesaplama gücü kullanarak yüksek performanslı yapay zeka sistemlerini eğitebilecekler. Bu aynı zamanda yapay zekanın karbon ayak izinin azaltılmasına da yardımcı olacaktır.

Diğer bir seçenek de sistemleri eğitmek için sentetik veriler oluşturmak amacıyla yine yapay zekayı kullanmak.

Matulionyte "Başka bir deyişle ihtiyaç duydukları verileri kendi yapay zeka modellerine uyacak şekilde düzenleyerek kolayca oluşturabilirler" diyor ve ekliyor:

Pek çok proje halihazırda çoğunlukla Mostly AI gibi veri üreten hizmetlerden elde edilen sentetik içerikleri kullanıyor. Bu gelecekte daha yaygın hale gelecektir.