Antropik detaylar AI güvenlik stratejisi

Date:

Antropic, popüler AI modeli Claude, yararlı, yararlı ve zararları önlemekten kaçınmaya çalışmak için güvenlik stratejisini detaylandırdı.

Bu çabanın merkezinde Antropic’in Koruma Ekibi; Averaj teknoloji destek grubunuz olmayan, aktörlerin ne düşündüğünü bilen siyaset uzmanları, veri bilimcileri, mühendisler ve tehdit analistlerinin bir karışımıdır.

Bununla beraber, Antropic’in güvenlik yaklaşımı tek bir duvar değil, daha oldukca birden fazla müdafa katmanına haiz bir kale şeklinde. Her şey doğru kuralları yaratmakla adım atar ve yırtıcı doğada yeni tehditleri avlamakla biter.

Birincisi, temelde Claude’un iyi mi kullanılması ve kullanılmaması gerektiğine dair kaide kitabı olan kullanım politikasıdır. Seçim bütünlüğü ve çocuk güvenliği şeklinde büyük mevzular ve ek olarak Finans yada Sıhhat Hizmetleri şeklinde duyarlı alanlarda Claude’u görevli bir halde kullanma mevzusunda net bir rehberlik sunmaktadır.

Bu kuralları şekillendirmek için ekip birleşik bir zarar çerçevesi kullanır. Bu, fizyolojik ve psikolojikten ekonomik ve toplumsal zararlara kadar ihtimaller içinde negatif etkilerle düşünmelerine destek verir. Resmi bir derecelendirme sistemi ve karar verirken riskleri tartmak için yapılandırılmış bir yoldur. Ek olarak siyaset güvenlik açığı testleri için dış uzmanlar getiriyorlar. Terörizm ve çocuk güvenliği şeklinde alanlardaki bu uzmanlar, zayıflıkların nerede bulunduğunu görmek için zor sorularla Claude’u “kırmaya” iş koşturmacasındadır.

Bunu 2024 ABD seçimlerinde çalışırken gördük. Stratejik Diyalog Enstitüsü ile çalıştıktan sonrasında, Antropik Claude eski oy detayları verebilir. Bundan dolayı, kullanıcıları güncel, partizan olmayan seçim detayları için güvenilir bir kaynak olan TurboVote’a yönlendiren bir poster eklediler.

Claude’u yanlıştan öğretmek

Antropik Korumalar Ekibi, Claude’u en başından beri güvenlik oluşturmak için eğiten geliştiricilerle yakın bir halde çalışır. Bu, Claude’un ne tür şeylerin yapması gerektiğine ve yapmaması gerektiğine karar vermek ve bu değerleri modelin kendisine gömmek anlamına gelir.

Ek olarak bunu doğru yapmak için uzmanlarla beraber çalışırlar. Mesela, ortaklık yaparak Çizgibir kriz destek lideri, Claude’a yalnız konuşmayı reddetmekten ziyade akıl sağlığı ve kendine zarar verme ile ilgili duyarlı konuşmaların iyi mi ele alınacağını öğrettiler. Bu dikkatli eğitim, Claude’un yasadışı faaliyetlere destek olmak, fena amaçlı kod yazmak yada dolandırıcılık oluşturmak için talepleri geri alacağıdır.

Claude’un yeni bir versiyonu canlı olarak, üç temel değerlendirme türü ile adım atıyor.

  1. Güvenlik Değerlendirmeleri: Bu testler, Claude’un zor, uzun konuşmalarda bile kurallara bağlı olup olmadığını denetim ediyor.
  1. Risk Değerlendirmeleri: Siber tehditler yada biyolojik riskler şeklinde hakikaten yüksek bahis alanları için ekip, çoğu zaman hükümet ve sanayi ortaklarının yardımıyla hususi testler yapıyor.
  1. Önyargı Değerlendirmeleri: Bu tamamen adaletle ilgili. Claude’un hepimiz için güvenilir ve doğru cevaplar verip vermediğini denetim ederler, siyasal önyargı için kontrol eder yada cinsiyet yada ırk şeklinde şeylere dayalı çarpık yanıtlar.

Bu yoğun kontrol, ekibin eğitimin sıkışıp kalmadığını görmesine destek verir ve lansmandan ilkin extra koruma oluşturmaları gerekip gerekmediğini söyler.

Antropik koruma ekibinin, Claude modellerinin yaşam döngüsü boyunca etkili AI güvenlik korumaları oluşturma yaklaşımına nasıl yaklaştığı döngüsü.
(Kredi: Antropik)

Antropik’in asla uyudum AI Güvenlik Stratejisi

Claude dünyaya çıktıktan sonrasında, otomatik sistemlerin ve insan gözden geçirenlerin bir karışımı belaya dikkat çekiyor. Buradaki ana vasıta, belirli siyaset ihlallerini gerçek zamanlı olarak saptamak için eğitilmiş “sınıflandırıcılar” adında olan bir takım hususi Claude modelidir.

Bir sınıflandırıcı bir problemi tespit ederse, değişik eylemleri tetikleyebilir. Claude’un yanıtını spam şeklinde zararı dokunan bir şey üretmekten uzaklaştırabilir. Tekrarlayan suçlular için ekip ikazlar verebilir ve hatta hesabı kapatabilir.

Ekip ek olarak daha büyük resme de bakıyor. Claude’un iyi mi kullanıldığına dair eğilimleri saptamak için gizlilik dostu araçlar kullanıyorlar ve koordineli tesir kampanyaları şeklinde büyük ölçekli kötüye kullanımı saptamak için hiyerarşik özetleme şeklinde teknikler kullanıyorlar. Devamlı olarak yeni tehditler avlıyorlar, verileri kazıyorlar ve fena aktörlerin takılabileceği forumları izliyorlar.

Sadece Antropic, AI güvenliğinin tek başına yapabilecekleri bir iş olmadığını bildiğini söylüyor. Mümkün olan en iyi güvenceleri oluşturmak için araştırmacılar, siyaset yapıcılar ve halkla etken olarak çalışıyorlar.

(Kurşun görüntüsü Nick Azings)

Ek olarak bakınız: Suvianna Grecu, Değişiklik için AI: Kurallar olmadan, AI ‘Itimat Krizi Riskleri’

Sanayi liderlerinden suni zeka ve büyük veriler hakkında daha çok informasyon edinmek ister misiniz? Çıkış yapmak AI ve Big Data Fuarı Amsterdam, California ve Londra’da gerçekleşiyor. Kapsamlı etkinlik, öteki önde gelen etkinliklerle beraber toplanır. Akıllı Otomasyon KonferansıBlockx Dijital Dönüşüm HaftasıVe Siber Güvenlik ve Bulut Fuarı.

Techforge tarafınca desteklenen öteki yaklaşan kurumsal teknoloji etkinliklerini ve web seminerlerini keşfedin Burada.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

Share post:

Popular

More like this
Related

Genius Yasası Bomba? Bankacılık Grupları, Nakit Kazanmadan Önce Yaklaşan Stablecoin Faiz boşluklarını talep ediyor

Anahtar çıkarımlar: ABD Bankacılık Dernekleri Kurultay'nin Stablecoin bağlı kuruluşları için...

BTC Bulut Madencilik Sırrı: Bazıları 10.000 dolar kazandı

Bitcoin'in son 120.000 doların üstünde artışı, geçen senenin aynı...