Yapay zekâ eğitirken çocuk istismarı görüntülerinin de kullanıldığı öğrenildi
Yapay zekâların eğitiminde kullanılan büyük veri setlerinin önemi, bu setlerin ne kadar geniş olursa yapay zekânın performansının o kadar iyi olacağı gerçeğiyle ilişkilidir. Bu bağlamda, yapay zekâ geliştiricileri için veri setleri oluşturan LAION, Stanford Internet Gözlemevi tarafından incelendi. LAION-5B adlı veri setinde yapılan incelemede, çocuk istismarına dair yüzlerce bağlantıya rastlandı.
Yapay zeka eğitilirken çocuk istismarı görsellerinin kullanıldığı tespit edildi
LAION-5B, Stable Diffusion'un yaratıcısı olan Stability AI tarafından kullanılmış ve Stanford araştırmacıları Eylül 2023'te veri setini incelemeye almıştı. Yapılan çalışma sonucunda, en az 1679 içerikte çocuk istismarına dair görsellere ait bağlantılar tespit edildi. Bu bilgiler, PhotoDNA ve Kanada Çocuk Koruma Merkezi gibi kurumlarla paylaşıldı.
LAION'un internet sitesine göre, LAION-5B veri seti görselleri depolamaz; bunun yerine, görüntülerin metin açıklamaları ve bağlantıları içeren bir internet indeksi oluşturur. Google, Imogen üretken yapay zekâ eğitimi için LAION-5B'nin önceki bir sürümü olan LAION-400M'i kullanmıştı. Ancak Imogen araştırmacıları, veri setinde çocuk istismarı, ırkçı küfürler ve zararlı toplumsal sterotipler gibi uygunsuz içerikler bulunduğunu belirtti.
Stanford araştırmacıları, bu tür içeriklerin doğrudan veri setinin çıktılarını etkilemediğini belirtirken, LAION, sıfır tolerans politikasıyla bu tür zararlı içeriklere karşı önlem aldıklarını ve veri setini geçici olarak yayından çekeceklerini açıkladı. Ancak, bu verilerle eğitilmiş yapay zekâları yeniden eğitmek önemli bir sorun ortaya çıkarmaktadır.
ABD'de eyalet savcıları daha önce kongreye, yapay zekânın çocuk istismarında kullanımı ve üretken yapay zekâlarla bu tür içeriklerin üretiminin engellenmesi için bir komite toplanması çağrısında bulunmuştu.