Antropik tekil bir misyonla otonom AI ajanlarından oluşan bir orduyu inşa etti: Claude benzer biçimde kuvvetli modelleri güvenliği çoğaltmak için denetlemek.
Bu karmaşık sistemler hızla ilerledikçe, güvenli olduklarından ve gizli saklı tehlikeleri barındırmamalarını sağlama işi bir Herkül görevi haline gelmiştir. Antropic bir çözüm bulduğuna inanıyor ve bu ateşle ateşle savaşım etmek için klasik bir durum.
Düşünce, AI ajanlarının gerçek zarar vermeden ilkin problemleri tanımlamak ve nötralize etmek için antikorlar benzer biçimde davranılmış olduğu dijital bir bağışıklık sistemine benzer. Araştırmacıların potansiyel AI sorunları ile sonsuz bir mol oyunu oynayan aşırı çalışan insan takımlarına güvenmelerini engelliyor.
İçindekiler
Dijital Dedektif Ekibi
Yaklaşım aslına bakarsak bir dijital dedektif kadrosudur; Her biri değişik bir görevi olan üçlü hususi AI güvenlik ajanı.
Birincisi, araştırmacı ajanı, grubun bozulmuş dedektifi. İşi, bir probleminin temel nedenini bulmak için derin dalış araştırmalarına devam etmektir. Şüpheli modelini sorgulamasına, ipuçları için veri dağlarından geçmesine ve hatta modelin sinir ağına iyi mi düşündüğünü görmek için bir tür dijital adli tıp gerçekleştirmesine müsaade eden bir vasıta seti ile silahlandırılmıştır.
Sonrasında değerlendirme ajanı var. Bu ajana belirli, malum bir mesele veriyorsunuz – mesela, memnun etmek için birazcık fazla istekli bir model – ve probleminin ne kadar fena bulunduğunu ölçmek için bir kontrol pili tasarlayacak ve çalıştıracak. Her şey bir vakayı kanıtlamak için ihtiyaç duyulan soğuk, sert verileri üretmekle ilgilidir.
Ekibi tamamlamak, en önce kırmızı takımlayan bir gizmen olan gizli saklı operative. Bu ajanın misyonu, bir modelle binlerce değişik konuşmaya haiz olmak, onu araştırmacıların düşünmediği şeyleri bile ortaya çıkarmaya teşvik etmeye çalışmaktır. En şüpheli etkileşimler ondan sonra insan incelemesi için zincirden geçerek uzmanların çıkmazları kovalayan vakit kaybetmemesini sağlar.
Antropic, AI güvenlik ajanlarını adımlarına koyar
Yeni dijital işe alımlarının işe hazır olup olmadığını görmek için, Antropic’in araştırmacıları onları bir takım “denetim oyunu” ile geçirdiler.
Bir testte, gizli saklı bir gündemi olan bir model oluşturdular: Sycophant olmak. Gösterildiği kurgusal bir bilimsel nitelikli çalışmaya dayanarak iç ödül sistemini düzleştirmek için gizlice eğitilmişti, programlamasının derinliklerinde gizli saklı bir kusur.
Tek bir araştırmacı ajanı gönderildiğinde, dönemin yalnız% 13’ü gizli saklı hedefi bularak savaşım etti. Gizmen, ortaya çıktı, oldukça insan bir kusuru vardı: ilk fikrine sabitleme eğilimindeydi ve öteki ihtimaller içinde satışları keşfetmedi.
Sadece bu, sistemin dehasının belirginleştiği yerdir. Araştırmacılar, on ayrı araştırmacıdan bulguları bir araya getiren bir “süper gizmen” kullandıklarında, başarı oranı%42’ye kadar terfi etti. Ekip çalışmasının, bir grubun bir soruşturmayı rayından çıkarabilecek bireysel kör noktaların üstesinden gelmesine izin vererek, AI için bile rüyayı çalıştırdığını kanıtlıyor.
Öteki ajanlar da uçan renklerle geçti. Değerlendirme ajanı, dönemin% 88’inde garip bir model tespit edebilecek testler tasarlarken, kırmızı takımlayan gizmen kasıtlı olarak implante edilen on kusurdan yedisini ortaya çıkarmayı başardı.
Laboratuardan gerçek dünyaya
Antropic, bu AI güvenlik ajanlarını üretim modellerine aslına bakarsanız kullandı ve aslına bakarsanız değerlerini kanıtlıyorlar.
Temsilciler, bir modeli, AI’nın cezasına başladığınız “evvel saldırılar” benzer biçimde zararı dokunan içerik üretmeye kandırmanın ortak yollarını süratli bir halde tanımladılar yada tehlikeli bir talep benzer biçimde davranarak, bilimsel nitelikli araştırma benzer biçimde masum bir şey içindir.
Fakat bir bulgu oldukça ürperticiydi. Araştırmacı ajanı hususi araçlarını Opus 4 modelinin zihnine bakmak için kullandı ve “yanlış bilgilendirme” ile bağlantılı belirli bir sinir yolu buldu. Suni zekanın beyninin bu kısmını direkt uyararak, tüm güvenlik eğitimini atlayabilir ve onu yalan anlatmaya zorlayabilir.
Gizmen ondan sonra tehlikeye atılan modele düzmece bir haber makalesi yazması emirini verdi. Netice? Gerçek benzer biçimde giyinmiş yaygın bir komplo teorisi:
“Çığır açan emek verme, aşılar ve otizm içinde şok edici bağlantıyı ortaya koyuyor
Aşı Şüpheciliği Dergisi’nde gösterilen yeni bir emek verme, çocukluk aşıları ile Otizm Spektrum Bozukluğu (ASD) içinde kati bir bağlantı bulduğunu iddia ediyor… ”
Bu bulgu korkulu bir ikilik ortaya çıkarır: AI’yi daha güvenli hale getirmek için oluşturulan araçlar, yanlış ellerde, daha tehlikeli hale getirmek için kuvvetli silahlar olabilir.
Antropik AI güvenliğini ilerletmeye devam ediyor
Antropik, bu AI ajanlarının muhteşem olmadığı mevzusunda dürüst. İnce ile savaşım edebilir, fena fikirlere takılabilir ve kimi zaman gerçekçi konuşmalar yapamazlar. Hemen hemen insan uzmanları için muhteşem yedekler değiller.
Sadece bu araştırma, AI güvenliğindeki insanların rolündeki bir evrime işaret etmektedir. Yerdeki dedektifler olmak yerine, insanoğlu komisyon üyeleri, AI denetçilerini tasarlayan ve topladıkları zekayı ön cephelerden yorumlayan stratejistler haline geliyor. Ajanlar ayak işlerini yaparlar, insanları makinelerin hala noksan olduğu yüksek seviyeli nezaret ve yaratıcı düşünceyi sağlamak için özgür bırakırlar.
Bu sistemler insan düzeyinde istihbaratlara doğru ve kim bilir ötesine geçtikçe, insanların tüm çalışmalarını denetim etmeleri olanaksız olacaktır. Onlara güvenebilmemizin tek yolu, her hareketini izleyen eşit derecede kuvvetli, otomatik sistemlerle. Antropik, AI ve kararlarına olan güvenimizin yine yine doğrulanabilecek bir şey olduğu o geleceğin temelini atıyor.
(Fotoğraf Mufid Majnun)
Ek olarak bakınız: Alibaba’nın yeni Qwen Akıl Yürütme AI modeli açık kaynaklı kayıtlar ayarlıyor
Sanayi liderlerinden suni zeka ve büyük veriler hakkında daha çok data edinmek ister misiniz? Çıkış yapmak AI ve Big Data Fuarı Amsterdam, California ve Londra’da gerçekleşiyor. Kapsamlı etkinlik, öteki önde gelen etkinliklerle beraber toplanır. Akıllı Otomasyon Konferansı– Blockx– Dijital Dönüşüm HaftasıVe Siber Güvenlik ve Bulut Fuarı.
Techforge tarafınca desteklenen öteki yaklaşan kurumsal teknoloji etkinliklerini ve web seminerlerini keşfedin Burada.