Samsung Benchmarks Enterprise AI modellerinin gerçek verimliliği

Date:

Samsung, kurumsal ortamlarda AI modellerinin gerçek dünyadaki üretkenliğini daha iyi değerlendirmek için mevcut kriterlerin sınırlamalarını aşıyor. Yeni sistem, geliştirilen Samsung Araştırma ve Truebench olarak adlandırılan, kuramsal AI performansı ile işyerindeki gerçek faydası arasındaki artan eşitsizliği ele almayı amaçlamaktadır.

Dünya genelinde işletmeler operasyonlarını iyileştirmek için büyük dil modellerini (LLMS) benimsemelerini hızlandırdıkça, bir güçlük ortaya çıktı: etkinliklerini iyi mi doğru bir halde ölçecekleri. Mevcut birçok kriter, çoğu zaman İngilizce ve kolay sual ve yanıt formatlarıyla sınırı olan olan bilimsel nitelikli yada genel data testlerine odaklanmaktadır. Bu, bir AI modelinin karmaşık, oldukça dilli ve bağlam açısından varlıklı iş görevleri üstünde iyi mi performans göstereceğini değerlendirmek için güvenilir bir yöntem olmadan işletmeleri bırakan bir boşluk yarattı.

Bu boşluğu doldurmak için güvenilir gerçek dünya kullanım değerlendirme ölçütü için kısa olan Samsung’un TrueBench’i geliştirildi. LLM’leri gerçek dünyadaki kurumsal ortamlarla direkt ilgili senaryolara ve görevlere dayalı olarak değerlendiren kapsamlı bir metrik paketi sağlar. Benchmark, Samsung’un AI modellerinin kendi kapsamlı iç işletme kullanımından yararlanır ve değerlendirme kriterlerinin gerçek işyeri taleplerine dayanmasını sağlar.

Çerçeve, içerik oluşturma, veri çözümleme etme, uzun belgelerin özetlenmesi ve materyalleri çevirme şeklinde ortak kurumsal işlevleri değerlendirir. Bunlar, AI’nın verimlilik yeteneklerinin detaylı bir görünümünü elde eden 10 değişik kategoriye ve 46 alt kategoriye ayrılmıştır.

Samsung Electronics’teki DX bölümünün CTO’su Paul (Kyungwhoon) Cheun, “Samsung Research, gerçek dünya AI deneyimi ile derin uzmanlık ve rekabet pozitif yanları getiriyor” dedi. “Truebench’in verimlilik için değerlendirme standartları oluşturmasını bekliyoruz.”

Eski kriterlerin sınırlamalarını ele almak için, Truebench 12 değişik dili kapsayan ve dilbilimler arası senaryoları destekleyen 2.485 çeşitli kontrol seti temeline dayanmaktadır. Bu oldukça dilli yaklaşım, bilginin değişik bölgelerde akmış olduğu küresel firmalar için tehlikeli sonuç öneme haizdir. Kontrol materyalleri, yalnız sekiz karakterdeki kısa talimatlardan 20.000 karakteri aşan belgelerin karmaşık analizine kadar çeşitli işyeri taleplerini yansıtmaktadır.

Samsung, gerçek bir iş bağlamında, bir kullanıcının tam niyetinin ilk istemlerinde devamlı açıkça belirtilmediğini kabul etti. Bundan dolayı ölçüt, bir AI modelinin bu örtük işletme gereksinimlerini anlama ve yerine getirme kabiliyetini değerlendirmek için tasarlanmıştır ve kolay doğruluğun ötesine geçerek daha nüanslı bir yardımseverlik ve ilgi düzeyine geçer.

Bunu başarmak için Samsung Research, üretkenlik puanlama kriterlerini oluşturmak için insan uzmanları ve suni zeka içinde benzersiz bir işbirlikçi süreç geliştirdi. Başlangıçta, insan ek açıklamaları belirli bir vazife için değerlendirme standartlarını belirler. Bir AI sonrasında bu standartları gözden geçirir, potansiyel hataları, iç çelişkileri yada gerçekçi bir kullanıcı beklentisini yansıtmayabilecek gereksiz kısıtlamaları denetim eder. Suni zekanın geri bildirimlerini takiben, insan ek açıklamaları kriterleri geliştirir. Bu yinelemeli döngü, nihai değerlendirme standartlarının kati ve yüksek kaliteli bir sonucu yansıtır.

Bu çapraz doğrulanmış işlem, LLM’lerin performansını puanlayan otomatik bir değerlendirme sistemi sunar. Bu rafine kriterleri uygulamak için AI kullanarak sistem, tüm testlerde tutarlılık ve güvenilirlik sağlayarak yalnız insanlara yönelik puanlamada meydana gelebilecek öznel yanlılığı en aza indirir. Truebench ek olarak, bir AI modelinin geçiş işareti almak için bir testle ilişkili her durumu karşılaması ihtiyaç duyulan katı bir puanlama modeli kullanır. Bireysel koşullar için tüm bu ya da asla yaklaşım, AI modellerinin değişik işletme görevlerinde performansının daha detaylı ve titiz bir değerlendirmesini sağlar.

Şeffaflığı çoğaltmak ve daha geniş bir evlat edinmeyi teşvik etmek için Samsung, TrueBench’in veri örneklerini ve liderlik tablolarını küresel açık kaynaklı platform sarılma yüzünde halka açık hale getirdi. Bu, geliştiricilerin, araştırmacıların ve işletmelerin aynı anda beş değişik AI modelinin verimlilik performansını direkt karşılaştırmasına olanak tanır. Platform, çeşitli AI’lerin ergonomik görevlerde birbirlerine karşı iyi mi yığıldığına dair bir bakışta net bir bakış sağlar.

Yazma itibariyle, Samsung’un AI Benchmark’a dayanan genel sıralamaya bakılırsa en iyi 20 model:

Mevcut ilk 20 model, AI modellerinin kurumsal ortamlarda gerçek dünyadaki üretkenliğini değerlendiren Samsung'un AI kıyaslamasına dayanan genel sıralamaya göre.

Gösterilen tam veriler ek olarak AI tarafınca üretilen yanıtların averaj uzunluğunu da ihtiva eder. Bu, operasyonel maliyetleri ve hızı tartan işletmeler için mühim bir husus olan yalnız performansın değil, verimliliğin aynı anda karşılaştırılmasına izin verir.

Truebench’in lansmanı ile Samsung yalnız başka bir aracı yayınlamakla kalmıyor, bununla beraber endüstrinin AI performansı hakkında düşünme şeklini değiştirmeyi hedefliyor. Goal Post’ları soyut bilgilerden somut verimliliğe taşıyarak, Samsung’un ölçütü, kuruluşların hangi kurumsal AI modellerinin iş akışlarına entegre edileceği ve bir AI’nın potansiyeli ile kanıtlanmış kıymeti arasındaki boşluğu dolduracakları mevzusunda daha iyi kararlar vermelerine destek olmada rol oynayabilir.

Ek olarak bakınız: Huawei’nin binlerce AI cipsinin bir bilgisayar şeklinde düşünmesini sağlama planının içinde

AI & Big Data Expo Etkinlik Serisi için Banner.

Sanayi liderlerinden suni zeka ve büyük veriler hakkında daha çok data edinmek ister misiniz? Çıkış yapmak AI ve Big Data Fuarı Amsterdam, California ve Londra’da gerçekleşiyor. Kapsamlı etkinlik bir parçası Techex ve öteki önde gelen teknoloji etkinlikleriyle beraber bulunuyor, tıklayın Burada Daha çok data için.

AI haberleri tarafınca desteklenmektedir Techforge Medya. Yaklaşan öteki kurumsal teknoloji etkinliklerini ve web seminerlerini keşfedin Burada.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

Share post:

Popular

More like this
Related