Google’a Antropik: Yapay zeka halüsinasyonlarına karşı kim kazanıyor?

Date:

Kurumsal uygulamalara yönelik üretken yapay zekanın lider geliştiricisi Galileo, en son sürümünü yayınladı Halüsinasyon Endeksi.

Retrieval Augmented Generation’a (RAG) odaklanan değerlendirme çerçevesi, OpenAI, Anthropic, Google ve Meta dahil olmak üzere büyük oyuncuların 22 önde gelen Nesil Yapay Zeka Yüksek Lisans Programını değerlendirdi. Bu yılın endeksi önemli ölçüde genişledi ve son sekiz ayda hem açık hem de kapalı kaynaklı LLM’lerdeki hızlı büyümeyi yansıtacak şekilde 11 yeni model eklendi.

Galileo CEO’su ve Kurucu Ortağı Vikram Chatterji şunları söyledi: “Günümüzün hızla gelişen yapay zeka ortamında, geliştiriciler ve kuruluşlar kritik bir zorlukla karşı karşıyadır: maliyet, doğruluk ve güvenilirliği dengelerken üretken yapay zekanın gücünden nasıl yararlanılacağı. Mevcut kıyaslamalar genellikle gerçek dünyadaki uygulamalardan ziyade akademik kullanım senaryolarına dayanmaktadır.”

Endeks, 1.000 ila 100.000 jeton arasında değişen çeşitli girdi uzunluklarındaki çıktı hatalarını kontrol etmek için Galileo’nun tescilli değerlendirme ölçütü olan bağlam bağlılığını kullandı. Bu yaklaşım, işletmelerin yapay zeka uygulamalarında fiyat ve performansı dengeleme konusunda bilinçli kararlar almasına yardımcı olmayı amaçlamaktadır.

Endeksin önemli bulguları arasında şunlar yer alıyor:

  • Antropik Claude 3.5 Sone kısa, orta ve uzun bağlam senaryolarında sürekli olarak mükemmele yakın puanlar alarak en iyi genel performans gösteren model olarak ortaya çıktı.
  • Google’ın İkizler 1.5 Flaş maliyet etkinliği açısından en iyi performans gösteren model olarak sıralandı ve tüm görevlerde güçlü performans sağladı.
  • Alibaba’nın Qwen2-72B-Instruct’ı Özellikle kısa ve orta bağlam senaryolarında üstün performans göstererek en iyi açık kaynak modeli olarak öne çıktı.

Endeks ayrıca LLM ortamındaki çeşitli eğilimleri de vurguladı:

  • Açık kaynaklı modeller kapalı kaynak muadilleriyle aradaki farkı hızla kapatıyor ve daha düşük maliyetlerle gelişmiş halüsinasyon performansı sunuyor.
  • Akım RAG Yüksek Lisans Dereceleri kaliteden veya doğruluktan ödün vermeden, genişletilmiş içerik uzunluklarının işlenmesinde önemli gelişmeler olduğunu göstermektedir.
  • Daha küçük modeller bazen daha büyük olanlardan daha iyi performans gösteriyor; bu da verimli tasarımın ölçekten daha önemli olabileceğini gösteriyor.
  • Güçlü sanatçıların ortaya çıkışı ABD dışındanMistral’ın Mistral-large ve Alibaba’nın qwen2-72b-instruct’ı gibi, LLM geliştirmede artan küresel rekabete işaret ediyor.

Claude 3.5 Sonnet ve Gemini 1.5 Flash gibi kapalı kaynaklı modeller, özel eğitim verileri nedeniyle liderliğini korurken, endeks, ortamın hızla geliştiğini ortaya koyuyor. Açık kaynaklı Gemma-7b modelinin düşük performans göstermesi, kapalı kaynaklı Gemini 1.5 Flash’ın ise sürekli olarak üst sıralarda yer almasıyla Google’ın performansı özellikle dikkat çekiciydi.

Yapay zeka endüstrisi, üretime hazır Nesil Yapay Zeka ürünlerinin önünde büyük bir engel olarak halüsinasyonlarla boğuşmaya devam ederken, Galileo’nun Halüsinasyon Endeksi, kendi özel ihtiyaçları ve bütçe kısıtlamaları için doğru modeli benimsemek isteyen kuruluşlara değerli bilgiler sağlıyor.

Ayrıca bakınız: Senatörler güvenlik ve istihdam uygulamaları konusunda OpenAI’yi araştırıyor

Sektör liderlerinden yapay zeka ve büyük veri hakkında daha fazla bilgi edinmek ister misiniz? Çıkış yapmak Yapay Zeka ve Büyük Veri Fuarı Amsterdam, Kaliforniya ve Londra’da gerçekleşiyor. Kapsamlı etkinlik, aşağıdakiler de dahil olmak üzere diğer önde gelen etkinliklerle aynı yerde bulunuyor: Akıllı Otomasyon Konferansı, BlockX, Dijital Dönüşüm HaftasıVe Siber Güvenlik ve Bulut Fuarı.

TechForge tarafından desteklenen diğer yaklaşan kurumsal teknoloji etkinliklerini ve web seminerlerini keşfedin Burada.

Google’a antropik gönderi: Yapay zeka halüsinasyonlarına karşı kim kazanıyor? İlk olarak AI News’te göründü.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

Share post:

Popular

More like this
Related

Solana, İnternet Tarihinin En Büyük DDoS Saldırılarından Birine Ağ Kesintisi Olmadan Dayandı

Solana, şimdiye kadar kaydedilen en kuvvetli dağıtılmış hizmet reddi...

İlk 100 coinin 75’i önemli ortalamaların altında işlem görüyor

Kripto para piyasası, yıl sonu yaklaşırken derin düşüş sinyalleri...

Bitcoin 90 Bin Doları Geri Kazanamadıktan Sonra 86 Bin Dolara Düştü

Bitcoin, günün erken saatlerinde kısa süreliğine 90.000 $ civarında...

Uzman: Fırtına Geliyor ve Ayı da Takip Edebilir

Bitcoin Fintech platformu pazar analisti Tony Severino'ya nazaran yükseliş...