Brave ve Singapur Ulusal Üniversitesi araştırmacıları, yapay zeka güvenliğinde çığır açan bir yöntem geliştirdi. Uzmanlar bu yeni yönteme Community AI gizlilik saldırısı adını veriyor. Bu teknik, yapay zeka modellerinin eğitim verilerini ifşa edip etmediğini belirler. Özellikle gizlilik açıklarını tespit etmede önceki yöntemlerden çok daha etkilidir.
Yapay Zeka Modellerinde “Hafıza” Sorunu
Açıkçası, yapay zeka dünyasında “veri ezberleme” endişesi giderek artıyor. Modeller hassas bilgileri yanlışlıkla depolar. Dahası, bu bilgileri eğitim setlerinden sızdırma riski taşırlar. Örneğin, sağlık sektöründe eğitilen bir model, hasta notlarını açığa çıkarabilir.
Benzer şekilde, işletmeler de büyük risk altındadır. Şirketler eğitim sürecinde dahili e-postaları kullanır. Saldırganlar, bir LLM’yi (Büyük Dil Modeli) kandırabilir. Sonuç olarak, özel şirket iletişimlerini yeniden üretebilirler. Özellikle LinkedIn gibi platformların kullanıcı verilerini kullanma planları bu endişeleri artırıyor.
Üyelik Çıkarım Saldırılarının Mantığı
Güvenlik uzmanları sızıntıları kontrol etmek için genellikle “Üyelik Çıkarım Saldırıları” (MIA) kullanır. Basitçe söylemek gerekirse, MIA modele tehlikeli bir soru sorar. Modelin o örneği eğitim sırasında görüp görmediğini test eder.
Saldırgan cevabı güvenilir bir şekilde analiz eder. Böylece modelin veri sızdırdığını kanıtlar. Temel mantık şudur: Modeller tanıdık verilerde farklı davranır. Ancak, eski MIA yöntemleri modern üretken yapay zekalara karşı yetersiz kalıyor. Çünkü modern modeller metinleri kelime kelime işler.
Community AI Gizlilik Saldırısı Yönteminin Farkı
Buna karşın, yeni “Community” yöntemi oyunun kurallarını değiştiriyor. Bu saldırı türü bağlama odaklanır. Bir yapay zeka modeli bir sonraki kelimeden emin olmadığında ezberlemeye dayanır. Araştırmacılar tam bu noktayı hedefler.
Örneğin, “Harry Potter” dizisinde model tahminde zorlanmaz. Ancak daha belirsiz senaryolarda durum değişir. Community AI gizlilik saldırısı, modelin belirsizlik seviyesini ölçer. Modelin “tahmin” modundan “ezberden hatırlama” moduna geçiş hızını yakalar. Bu sayede gerçek ezberleme anlarını tespit eder.
Test Sonuçları ve Çarpıcı Veriler
Araştırmacılar, Community yöntemini Mimir kıyaslamasında test etti. Pythia ve GPT-Neo modellerini detaylıca incelediler. Sonuçlar oldukça çarpıcıdır.
-
Yüksek Doğruluk: Community, önceki yöntemlerin tespit doğruluğunu neredeyse ikiye katladı.
-
Başarı Oranı: Gerçek pozitif oranını %20,11’den %32,00’ye yükseltti.
-
Düşük Hata: Yanlış pozitif oranı sadece %1 seviyesinde kaldı.
-
Hız: Tek bir A100 GPU üzerinde 1.000 örneği sadece 38 dakikada işledi.
Özetle, bu çalışma yapay zeka endüstrisi için ciddi bir uyarı niteliğindedir. Şirketler büyük ve filtrelenmemiş veri kümelerini kullanırken dikkatli olmalıdır. Gelecekte Community AI gizlilik saldırısı gibi yöntemler, daha güvenli tekniklerin geliştirilmesine öncülük edecektir.
