Tencent, yeni kıyaslama ile yaratıcı AI modellerini test etmeyi geliştirir

Tencent, yaratıcı AI modellerini kontrol etme ile mevcut sorunları çözmeyi amaçlayan yeni bir ölçüt olan ArtifactSbench tanıttı.

Hiçbir AI’dan kolay bir web sayfası yada grafik şeklinde bir şey yapmasını istediniz ve çalışan sadece fena bir kullanıcı deneyimi olan bir şey aldı mı? Düğmeler yanlış yerde olabilir, renkler çatışabilir yada animasyonlar tıknaz hisseder. Bu yaygın bir sorundur ve AI gelişimi dünyasında büyük bir zorluğu vurgular: Bir makineye iyi bir tada haiz olmayı iyi mi öğretirsiniz?

Uzun süreden beri AI modellerini kabiliyetleri üstünde kontrol ediyoruz. Kod yazmak için Bu işlevsel olarak doğrudur. Bu testler kodun çalışacağını doğrulayabilir, sadece “çağıl kullanıcı deneyimlerini tanımlayan görsel sadakat ve interaktif bütünlüğe karşı tamamen kördüler”.

Bu, Artifactsbench’in çözmek için tasarlandığı kati sorundur. AI tarafınca üretilen kod için daha azca kontrol ve otomatik sanat eleştirmeni

🚀 tanıtmak için #Artifactsbench! Kod oluşturma değerlendirmesinde görsel etkileşimli boşluğu dolduruyoruz.

Benchmark’ımız, 1.825 değişik görevde LLM’leri değerlendirmek için yeni bir otomatik, multimodal boru hattı kullanıyor. Yargılayan bir MLLM, görsel eserleri değerlendirir ve% 94.4 sıralamaya ulaşır… pic.twitter.com/84xclcnnys

– hunyuan (@tenceenthunyuan) 9 Temmuz 2025

Bir insan şeklinde doğru yapmak istemek mecburi

Peki, Tencent’in AI kıyaslaması iyi mi çalışıyor? Birincisi, bir AI’ya veri görselleştirmeleri ve web uygulamaları oluşturmaktan etkileşimli mini oyunlar hayata geçirmeye kadar 1.800’den fazla güçlük kataloğundan yaratıcı bir vazife verilir.

AI kodu oluşturduktan sonrasında ArtifactSbench işe yarar. Kodu otomatikman güvenli ve kum havuzu ortamında oluşturur ve çalıştırır.

Uygulamanın iyi mi davrandığını görmek için süre içinde bir takım ekran görüntüsü yakalar. Bu, animasyonlar, bir düğme tıklamasından sonrasında durum değişimleri ve öteki dinamik kullanıcı geri bildirimleri şeklinde şeyleri denetim etmesini sağlar.

Son olarak, tüm bu kanıtları – orijinal talep, AI’nın kodu ve ekran görüntüleri – bir Multimodal LLM’ye (MLLM) hakim olarak hareket eder.

Bu MLLM hakimi yalnız belirsiz bir görüş vermekle kalmıyor ve bunun yerine on değişik metrikte sonucu puanlamak için detaylı, vazife başına bir denetim sıralaması kullanıyor. Puanlama işlevselliği, kullanıcı deneyimini ve hatta güzel duyu kaliteyi ihtiva eder. Bu, puanlamanın adil, tutarlı ve kapsamlı olmasını sağlar.

Büyük sual şu ki, bu otomatik hakimin hakkaten iyi bir tadı var mı? Sonuçlar bulunduğunu gösteriyor.

ArtifactSbench’ten gelen sıralamalar, gerçek insanların en iyi AI kreasyonlarına oy verdiği altın standart platformu olan Webdev Arena ile karşılaştırıldığında,% 94.4’lük bir tutarlılıkla eşleştiler. Bu, yalnız% 69,4’lük bir tutarlılığı yöneten eski otomatik ölçütlerden büyük bir sıçrama.

Bunun da ötesinde, çerçevenin kararları ustalaşmış insan geliştiricilerle% 90’tan fazla antak kalma gösterdi.

Tencent, yeni karşılaştırma ile en iyi AI modellerinin yaratıcılığını değerlendirir

Tencent, dünyanın en iyi AI modellerinden 30’dan fazlasını adımlarına koyduğunda, skor tablosu ortaya çıkıyordu. Google (Gemini-2.5-Pro) ve Antropik (Claude 4.0-Sonnet) en iyi ticari modeller liderlik ederken, testler büyüleyici bir içgörü ortaya çıkardı.

Yazma kodu mevzusunda uzmanlaşmış bir AI’nın bu görevlerde en iyisi olacağını düşünebilirsiniz. Fakat tam tersi doğruydu. Araştırma, “genelist modellerin bütünsel yeteneklerinin çoğu zaman uzmanlaşmış olanların bu tarz şeyleri aştığını” buldu.

Genel amaçlı bir model olan Qwen-2.5-in-insruct, aslına bakarsak daha uzmanlaşmış kardeşlerini, qwen-2.5-kodu (koda özgü bir model) ve qwen2.5-vl (vizyon hususi bir model) yendi.

Araştırmacılar, bunun mükemmel bir görsel uygulama oluşturmanın yalnız tek başına kodlama yada görsel anlayışla ilgili olmaması ve bir beceri karışımı gerektirdiğine inanıyorlar.

Araştırmacılar, “Sağlam akıl yürütme, nüanslı eğitim takip ve örtük bir tasarım güzel duyu duygusu” şeklinde. Bunlar, en iyi genel modellerin geliştirmeye başladığı oldukca yönlü, neredeyse insan benzeri kabiliyetler türleridir.

Tencent, esnaftsbench ölçütünün bu nitelikleri güvenilir bir halde değerlendirebileceğini ve böylece AI’nın yalnız işlevsel değil, kullananların gerçekte kullanmak istediklerini yaratma kabiliyetinte gelecekteki ilerlemeyi ölçmesini umuyor.

Ek olarak bakınız: Tencent hunyuan3d-poligen: ‘sanat sınıfı’ 3D varlıklar için bir model

Sanayi liderlerinden suni zeka ve büyük veriler hakkında daha çok data edinmek ister misiniz? Çıkış yapmak AI ve Big Data Fuarı Amsterdam, California ve Londra’da gerçekleşiyor. Kapsamlı etkinlik, öteki önde gelen etkinliklerle beraber toplanır. Akıllı Otomasyon Konferansı– Blockx– Dijital Dönüşüm HaftasıVe Siber Güvenlik ve Bulut Fuarı.

Techforge tarafınca desteklenen öteki yaklaşan kurumsal teknoloji etkinliklerini ve web seminerlerini keşfedin Burada.

Tencent, yeni kıyaslama ile yaratıcı AI modellerini test etmeyi geliştirir

Bir insan şeklinde doğru yapmak istemek mecburi

Tencent, yeni karşılaştırma ile en iyi AI modellerinin yaratıcılığını değerlendirir

CEVAP VER İptal

XRP Fiyat Tahmini: Piyasa Tankları Olarak XRP Haftanın En Düşük Seviyesine Düştü – Ayı Piyasası Resmi Olarak Başlıyor mu?

Exodus (EXOD), MoonPay destekli dijital dolar ile stabilcoin yarışına katılıyor

Bitcoin ve Litecoin: Temel Farklılıklar ve Benzerlikler

Yapay zeka arama araçları SEO uzmanlarının geleceği için ne anlama geliyor?

Solana, İnternet Tarihinin En Büyük DDoS Saldırılarından Birine Ağ Kesintisi Olmadan Dayandı

More like this
Related

XRP Fiyat Tahmini: Piyasa Tankları Olarak XRP Haftanın En Düşük Seviyesine Düştü – Ayı Piyasası Resmi Olarak Başlıyor mu?

Exodus (EXOD), MoonPay destekli dijital dolar ile stabilcoin yarışına katılıyor

Bitcoin ve Litecoin: Temel Farklılıklar ve Benzerlikler

Yapay zeka arama araçları SEO uzmanlarının geleceği için ne anlama geliyor?

Hakkımızda

Company

SON HABERLER

XRP Fiyat Tahmini: Piyasa Tankları Olarak XRP Haftanın En Düşük Seviyesine Düştü – Ayı Piyasası Resmi Olarak Başlıyor mu?

Exodus (EXOD), MoonPay destekli dijital dolar ile stabilcoin yarışına katılıyor

Bitcoin ve Litecoin: Temel Farklılıklar ve Benzerlikler

Tencent, yeni kıyaslama ile yaratıcı AI modellerini test etmeyi geliştirir

Bir insan şeklinde doğru yapmak istemek mecburi

Tencent, yeni karşılaştırma ile en iyi AI modellerinin yaratıcılığını değerlendirir

CEVAP VER İptal

More like thisRelated

Hakkımızda

Company

SON HABERLER

More like this
Related