Tencent, yeni kıyaslama ile yaratıcı AI modellerini test etmeyi geliştirir

Date:

Tencent, yaratıcı AI modellerini kontrol etme ile mevcut sorunları çözmeyi amaçlayan yeni bir ölçüt olan ArtifactSbench tanıttı.

Hiçbir AI’dan kolay bir web sayfası yada grafik şeklinde bir şey yapmasını istediniz ve çalışan sadece fena bir kullanıcı deneyimi olan bir şey aldı mı? Düğmeler yanlış yerde olabilir, renkler çatışabilir yada animasyonlar tıknaz hisseder. Bu yaygın bir sorundur ve AI gelişimi dünyasında büyük bir zorluğu vurgular: Bir makineye iyi bir tada haiz olmayı iyi mi öğretirsiniz?

Uzun süreden beri AI modellerini kabiliyetleri üstünde kontrol ediyoruz. Kod yazmak için Bu işlevsel olarak doğrudur. Bu testler kodun çalışacağını doğrulayabilir, sadece “çağıl kullanıcı deneyimlerini tanımlayan görsel sadakat ve interaktif bütünlüğe karşı tamamen kördüler”.

Bu, Artifactsbench’in çözmek için tasarlandığı kati sorundur. AI tarafınca üretilen kod için daha azca kontrol ve otomatik sanat eleştirmeni

Bir insan şeklinde doğru yapmak istemek mecburi

Peki, Tencent’in AI kıyaslaması iyi mi çalışıyor? Birincisi, bir AI’ya veri görselleştirmeleri ve web uygulamaları oluşturmaktan etkileşimli mini oyunlar hayata geçirmeye kadar 1.800’den fazla güçlük kataloğundan yaratıcı bir vazife verilir.

AI kodu oluşturduktan sonrasında ArtifactSbench işe yarar. Kodu otomatikman güvenli ve kum havuzu ortamında oluşturur ve çalıştırır.

Uygulamanın iyi mi davrandığını görmek için süre içinde bir takım ekran görüntüsü yakalar. Bu, animasyonlar, bir düğme tıklamasından sonrasında durum değişimleri ve öteki dinamik kullanıcı geri bildirimleri şeklinde şeyleri denetim etmesini sağlar.

Son olarak, tüm bu kanıtları – orijinal talep, AI’nın kodu ve ekran görüntüleri – bir Multimodal LLM’ye (MLLM) hakim olarak hareket eder.

Bu MLLM hakimi yalnız belirsiz bir görüş vermekle kalmıyor ve bunun yerine on değişik metrikte sonucu puanlamak için detaylı, vazife başına bir denetim sıralaması kullanıyor. Puanlama işlevselliği, kullanıcı deneyimini ve hatta güzel duyu kaliteyi ihtiva eder. Bu, puanlamanın adil, tutarlı ve kapsamlı olmasını sağlar.

Büyük sual şu ki, bu otomatik hakimin hakkaten iyi bir tadı var mı? Sonuçlar bulunduğunu gösteriyor.

ArtifactSbench’ten gelen sıralamalar, gerçek insanların en iyi AI kreasyonlarına oy verdiği altın standart platformu olan Webdev Arena ile karşılaştırıldığında,% 94.4’lük bir tutarlılıkla eşleştiler. Bu, yalnız% 69,4’lük bir tutarlılığı yöneten eski otomatik ölçütlerden büyük bir sıçrama.

Bunun da ötesinde, çerçevenin kararları ustalaşmış insan geliştiricilerle% 90’tan fazla antak kalma gösterdi.

Tencent, yeni karşılaştırma ile en iyi AI modellerinin yaratıcılığını değerlendirir

Tencent, dünyanın en iyi AI modellerinden 30’dan fazlasını adımlarına koyduğunda, skor tablosu ortaya çıkıyordu. Google (Gemini-2.5-Pro) ve Antropik (Claude 4.0-Sonnet) en iyi ticari modeller liderlik ederken, testler büyüleyici bir içgörü ortaya çıkardı.

Yazma kodu mevzusunda uzmanlaşmış bir AI’nın bu görevlerde en iyisi olacağını düşünebilirsiniz. Fakat tam tersi doğruydu. Araştırma, “genelist modellerin bütünsel yeteneklerinin çoğu zaman uzmanlaşmış olanların bu tarz şeyleri aştığını” buldu.

Genel amaçlı bir model olan Qwen-2.5-in-insruct, aslına bakarsak daha uzmanlaşmış kardeşlerini, qwen-2.5-kodu (koda özgü bir model) ve qwen2.5-vl (vizyon hususi bir model) yendi.

Araştırmacılar, bunun mükemmel bir görsel uygulama oluşturmanın yalnız tek başına kodlama yada görsel anlayışla ilgili olmaması ve bir beceri karışımı gerektirdiğine inanıyorlar.

Araştırmacılar, “Sağlam akıl yürütme, nüanslı eğitim takip ve örtük bir tasarım güzel duyu duygusu” şeklinde. Bunlar, en iyi genel modellerin geliştirmeye başladığı oldukca yönlü, neredeyse insan benzeri kabiliyetler türleridir.

Tencent, esnaftsbench ölçütünün bu nitelikleri güvenilir bir halde değerlendirebileceğini ve böylece AI’nın yalnız işlevsel değil, kullananların gerçekte kullanmak istediklerini yaratma kabiliyetinte gelecekteki ilerlemeyi ölçmesini umuyor.

Ek olarak bakınız: Tencent hunyuan3d-poligen: ‘sanat sınıfı’ 3D varlıklar için bir model

Sanayi liderlerinden suni zeka ve büyük veriler hakkında daha çok data edinmek ister misiniz? Çıkış yapmak AI ve Big Data Fuarı Amsterdam, California ve Londra’da gerçekleşiyor. Kapsamlı etkinlik, öteki önde gelen etkinliklerle beraber toplanır. Akıllı Otomasyon KonferansıBlockx Dijital Dönüşüm HaftasıVe Siber Güvenlik ve Bulut Fuarı.

Techforge tarafınca desteklenen öteki yaklaşan kurumsal teknoloji etkinliklerini ve web seminerlerini keşfedin Burada.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

Share post:

Popular

More like this
Related