Coin Haber

Kusurlu yapay zeka kıyaslamaları kurumsal bütçeleri riske atıyor

enterprise ai benchmarks flawed test flaw research artificial intelligence flaw report study.jpg

Yeni bir bilimsel nitelikli araştırma, AI kıyaslamalarının kusurlu bulunduğunu ve potansiyel olarak bir işletmenin “yanıltıcı” veriler üstünde riskli kararlar almasına yol açtığını öne sürüyor.

Kurumsal liderler üretken suni zeka programlarına sekiz yada dokuz haneli bütçeler ayırıyor. Bu satın alma ve geliştirme kararları, model kabiliyetlerini karşılaştırmak için çoğu zaman halka açık skor tablolarına ve kıyaslamalara dayanır.

‘Mühim Olanı Ölçmek: Büyük Dil Modeli Karşılaştırmalarında Geçerliliği Oluşturma’ başlıklı büyük ölçekli bir emek harcama, önde gelen AI konferanslarından alınan 445 ayrı LLM kıyaslamasını çözümleme etti. 29 uzman incelemeciden oluşan bir ekip, “neredeyse tüm yazıların minimum bir alanda zayıf yönleri bulunduğunu” tespit etti; bu da model performansıyla ilgili iddiaları boşa çıkarıyor.

CTO’lar ve Baş Veri Sorumluları için suni zeka yönetişimi ve yatırım stratejisinin tam kalbinde yer alır. ‘Güvenliği’ yada ‘sağlamlığı’ ölçtüğünü iddia eden bir karşılaştırma aslen bu nitelikleri yakalayamazsa, bir kurum kendisini ciddi mali ve saygınlık riskine maruz bırakacak bir model uygulayabilir.

‘Yapı geçerliliği’ problemi

Araştırmacılar yapı geçerliliği olarak malum temel bir bilimsel prensibe odaklandılar. Kolay bir ifadeyle bu, bir testin ölçtüğünü iddia etmiş olduğu soyut terimi ölçme derecesidir.

Mesela, ‘zeka’ direkt ölçülemezken, ölçülebilir temsili olarak hizmet edecek testler yaratılır. Makalede, bir kıyaslamanın yapısal geçerliliği düşükse “yüksek bir puanın alakasız ve hatta yanıltıcı olabileceği” belirtiliyor.

Bu problem suni zeka değerlendirmesinde yaygındır. Emek harcama, temel kavramların çoğu zaman “yetersiz tanımlandığını yada işlevsel hale getirildiğini” ortaya çıkardı. Bu, “yetersiz desteklenen bilimsel iddialara, yanlış yönlendirilmiş araştırmalara ve sağlam kanıtlara dayanmayan siyaset çıkarımlarına” yol açabilir.

Satıcılar, karşılaştırmalı değerlendirmelerde en yüksek puanlarını öne çıkararak kurumsal sözleşmeler için rekabet ettiğinde, liderler bu puanların gerçek dünyadaki iş performansının güvenilir bir göstergesi olduğuna etkili bir halde güveniyorlar. Bu yeni araştırma güvenin yersiz olabileceğini öne sürüyor.

Kurumsal suni zeka kıyaslamalarının başarısız olduğu bölgeler

İnceleme, kıyaslamaların iyi mi tasarlandığından sonuçların iyi mi raporlandığına kadar genel olarak sistemik başarısızlıkları belirledi.

Belirsiz yada tartışmalı tanımlar: Tanımlayamadığınız şeyi ölçemezsiniz. Araştırma, bir olgunun tanımları sunulsa bile yüzde 47,8’inin “tartışmalı” bulunduğunu, “birçok ihtimaller içinde tanımı olan yada hiçbir net tanımı olmayan” kavramlara değindiğini ortaya çıkardı.

Makalede, kurumsal güvenliğin uyumlaştırılmasında temel bir amaç olan ‘zararsızlık’, bir çok vakit net ve üstünde anlaşmaya varılan bir tanımın bulunmadığı bir olgunun örneği olarak kullanılıyor. İki satıcı ‘zararsızlık’ kriterinde değişik puanlar alırsa, bu durum model güvenliğinde gerçek bir fark değil, terimin yalnızca iki değişik, tadı tanımını yansıtıyor olabilir.

İstatistiksel titizlik eksikliği: Veriye dayalı kuruluşlar için kim bilir en kaygı verici olan araştırma, 445 kıyaslamanın yalnızca yüzde 16’sının model neticelerini karşılaştırmak için belirsizlik tahminleri yada istatistiksel testler kullandığını ortaya çıkardı.

İstatistiksel çözümleme olmadan, Model A’nın Model B’ye bakılırsa yüzde 2’lik bir farkın gerçek bir beceri farkı mı yoksa rahat rastgele talih mı bulunduğunu bilmek imkansızdır. Kurumsal kararlara, temel bir bilimsel yada iş zekası incelemesinden geçemeyecek rakamlar rehberlik ediyor.

Veri kirliliği ve ezberleme: Pek fazlaca karşılaştırma, bilhassa de akıl yürütmeye yönelik olanlar (yaygın olarak kullanılan GSM8K şeklinde), soruları ve cevapları modelin eğitim öncesi verilerinde göründüğünde zayıflıyor.

Bu olduğunda model, cevabı bulmak için akıl yürütmez; bir tek onu ezberlemektir. Yüksek puan, bir işletmenin karmaşık bir vazife için hakikaten gereksinim duyduğu gelişmiş muhakeme kabiliyetini değil, iyi bir hafızayı izah edebilir. Yazı bu mevzuda “zayıflama” uyarısında bulunuyor[s] sonuçların geçerliliği” ve bina kirliliği kontrollerinin direkt karşılaştırmalı değerlendirmeye dahil edilmesini önerir.

Temsili olmayan veri kümeleri: Emek harcama, kıyaslamaların yüzde 27’sinin mevcut kıyaslamalardan yada insan muayenelerinden elde edilmiş verilerin tekrardan kullanılması şeklinde “kolay örnekleme” kullandığını buldu. Bu veriler bir çok vakit gerçek dünya olgusunu temsil etmez.

Mesela yazarlar, “hesap makinesi içermeyen bir sınavdaki” soruların tekrardan kullanılmasının, problemlerin temel aritmetik için kolay olacak şekilde seçilen sayıları kullanımı anlamına geldiğini belirtiyorlar. Bir model bu testte iyi puan alabilir sadece bu puan “LLM’lerin zorlandığı daha büyük sayılardaki performansı tahmin edemez”. Bu, malum bir model zayıflığını gizleyen eleştiri bir kör nokta yaratır.

Genel ölçümlerden dahili doğrulamaya

Bu emek harcama, kurumsal liderler için kuvvetli bir uyarı niteliği taşıyor: Kamuya açık suni zeka kıyaslamaları, dahili ve alana hususi değerlendirmelerin yerini alamaz. Her insana açık liderlik sıralamasında yüksek puan almak, belirli bir iş amacına uygunluğun garantisi değildir.

Isabella Grandi, Veri Stratejisi ve Yönetişim Direktörü, NTT DATA İngiltere&Işu yorumu yapmış oldu: “Tek bir karşılaştırma, suni zeka sistemlerinin karmaşıklığını yakalamanın doğru yolu olmayabilir ve bunu yapmasını beklemek, ilerlemeyi gerçek dünyadaki sorumluluğun bir ölçüsü yerine bir sayı oyununa indirgeme riskini taşır. En mühim şey, değişen teknolojinin ilerlemenin yanı sıra insanlara da hizmet etmesini elde eden açık ilkelere bakılırsa tutarlı değerlendirmedir.

“İyi metodoloji – belirtildiği şeklinde ISO/IEC 42001:2023 – bu dengeyi beş temel ilke vasıtasıyla yansıtır: hesap verebilirlik, hakkaniyet, şeffaflık, güvenlik ve telafi. Mesuliyet, devreye alınan herhangi bir suni zeka sisteminin sahipliğini ve sorumluluğunu belirler. Şeffaflık ve hakkaniyet, kararları etik ve açıklanabilir sonuçlara yönlendirir. Güvenlik ve gizlilik tartışılamaz; kötüye kullanımı önler ve kamunun itimatını sağlamlaştırır. Düzeltme ve itiraz edilebilirlik, nezaret için yaşamsal bir mekanizma sağlayarak insanların gerektiğinde sonuçlara itiraz edebilmesini ve düzeltebilmesini sağlar.

“Suni zekada gerçek ilerleme, hükümetin vizyonunu, akademinin merakını ve endüstrinin ergonomik dürtüsünü bir araya getiren işbirliğine bağlıdır. Ortaklıklar açık diyalogla desteklendiğinde ve ortak standartlar yerleştiğinde, insanların suni zeka sistemlerine itimat aşılaması için ihtiyaç duyulan şeffaflığı oluşturur. Görevli inovasyon devamlı tutkuyu canlı tutarken nezarete güçlendiren işbirliğine dayanacaktır.”

Belgede yer edinen sekiz tavsiye, ilkelere dayalı yaklaşıma uygun olarak kendi dahili suni zeka kıyaslamalarını ve değerlendirmelerini oluşturmak isteyen her kurum için ergonomik bir denetim sıralaması sağlıyor.

  • Fenomeninizi tanımlayın: Modelleri kontrol etmeden ilkin kuruluşların ilk olarak “ölçülmekte olan olgu için kati ve operasyonel bir tarif” oluşturması gerekir. Satın alan hizmetleriniz bağlamında ‘yararlı’ bir cevap ne anlama gelir? Finansal raporlarınız için ‘doğru’ ne anlama geliyor?
  • Temsili bir veri kümesi oluşturun: En kıymetli karşılaştırma, kendi verilerinizden oluşturulan kıyaslamadır. Yazı, geliştiricileri “vazife için temsili bir veri seti meydana getirmeye” teşvik ediyor. Bu, çalışanlarınızın ve müşterilerinizin karşılaşmış olduğu gerçek dünya senaryolarını, formatlarını ve zorlukları yansıtan vazife öğelerini kullanmak anlamına gelir.
  • Hata analizi yapın: Son puanın ötesine geçin. Rapor, ekiplerin “yaygın arıza türlerinin niteliksel ve niceliksel analizini yapmasını” öneriyor. Bir modelin niçin başarısız bulunduğunu çözümleme etmek, onun puanını bilmekten daha öğreticidir. Başarısızlıklarının tümü düşük öncelikli, belirsiz konulardaysa kabul edilebilir olabilir; en yaygın ve yüksek kıymetli kullanım senaryolarınızda başarısız olursa, bu tek puanın geçerliliği kalmaz.
  • Geçerliliği gerekçelendirin: Son olarak, takımların “olguya yönelik karşılaştırmalı değerlendirmenin gerçek dünyadaki uygulamalarla olan ilgisini gerekçelendirmesi” gerekir. Her değerlendirme, bu hususi testin niçin iş kıymeti için geçerli bir gösterge bulunduğunu açıklayan açık bir gerekçeyle beraber gelmelidir.

Üretken suni zekayı devreye alma yarışı, kuruluşları yönetim çerçevelerinin ayak uydurabileceğinden daha süratli hareket etmeye zorluyor. Bu rapor, ilerlemeyi ölçmek için kullanılan araçların çoğunlukla hatalı bulunduğunu gösteriyor. İleriye yönelik tek güvenilir yol, genel suni zeka kıyaslamalarına güvenmeyi bırakıp kendi kuruluşunuz için “mühim olanı ölçmeye” başlamaktır.

Ek olarak bakınız: OpenAI, AWS, Oracle ve Microsoft’a 600 milyar dolarlık bulut suni zeka bahisini yayıyor

TechEx etkinliklerinin Yapay Zeka ve Büyük Veri Fuarı için Banner.

Sektör liderlerinden suni zeka ve büyük veri hakkında daha çok data edinmek ister misiniz? Çıkış yapmak Yapay Zeka ve Büyük Veri Fuarı Amsterdam, Kaliforniya ve Londra’da gerçekleşiyor. Kapsamlı etkinlik, TechEx ve aşağıdakiler de dahil olmak suretiyle öteki önde gelen teknoloji etkinlikleriyle aynı yerde bulunmaktadır: Siber Güvenlik Fuarıtıklamak Burada daha çok data için.

AI News tarafınca desteklenmektedir TechForge Medyası. Yaklaşan öteki kurumsal teknoloji etkinliklerini ve web seminerlerini keşfedin Burada.

Exit mobile version