Eğitim için AMD GPU’ları kullanan yapay zeka modeli dönüm noktasına ulaştı

Date:

Zyphra, AMD ve IBM, AMD’nin GPU’larının ve platformunun büyük ölçekli suni zeka modeli eğitimini destekleyip desteklemediğini kontrol etmek için bir yıl harcadılar ve netice ZAYA1 oldu.

Üç şirket, ortaklık içinde, tamamen AMD GPU’lar ve ağ iletişimi üstüne kurulu ilk büyük Uzmanlar Karması temel modeli olarak tanımlanan ZAYA1’i eğitti ve bunu, pazarın suni zekayı ölçeklendirmek için NVIDIA’ya bağımlı olmak zorunda olmadığının kanıtı olarak görüyorlar.

Model AMD’nin eğitimiyle eğitildi İçgüdü MI300X çipler, Pensando ağı ve ROCm yazılımının tümü IBM Cloud’un altyapısında çalışıyor. Dikkate kıymet olan, kurulumun ne kadar geleneksel göründüğüdür. Zyphra, deneysel donanım yada belirsiz yapılandırmalar yerine, sistemi herhangi bir kurumsal kümeye benzer şekilde, yalnızca NVIDIA bileşenleri olmadan oluşturdu.

Zyphra, ZAYA1’in muhakeme, matematik ve kod alanlarında köklü açık modellerle aynı seviyede ve bazı alanlarda onlardan daha iyi performans gösterdiğini söylüyor. Tedarik kısıtlamaları yada giderek artan GPU tutarları sebebiyle hayal kırıklığına uğrayan işletmeler için bu ender görülen bir şey anlamına geliyor: kapasiteden taviz vermeyi gerektirmeyen ikinci bir seçenek.

Zyphra, AI eğitim performansını azaltmadan maliyetleri azaltmak için AMD GPU’ları iyi mi kullandı?

Bir çok müessese, eğitim bütçelerini planlarken aynı mantığı izler: Hafıza kapasitesi, yazışma hızı ve öngörülebilir yineleme süreleri, ham kuramsal çıktıdan daha önemlidir.

MI300X’in GPU başına 192 GB yüksek bant genişlikli belleği, mühendislere birazcık nefes alma alanı sağlayarak, yoğun paralelliğe derhal başvurmadan erken eğitim çalışmalarına olanak tanır. Bu, normalde kırılgan olan ve ayarlanması vakit alan projeleri basitleştirme eğilimindedir.

Zyphra, her düğümü InfinityFabric üstünden bağlanan sekiz MI300X GPU ile oluşturdu ve her birini kendi Pollara ağ kartıyla eşleştirdi. Ayrı bir ağ, veri kümesi okumalarını ve denetim noktalarını yönetir. Mütevazi bir tasarım fakat sorun bu şeklinde görünüyor; Kablolama ve ağ düzeni ne kadar rahat olursa, anahtar maliyetleri o denli düşük olur ve yineleme sürelerini durağan(durgun) tutmak o denli kolay olur.

ZAYA1: Ağırlığının ötesinde bir suni zeka modeli

ZAYA1 tabanı, toplam 8,3 milyar parametrenin 760 milyonunu etkinleştiriyor ve üç aşamada 12 trilyon token üstünde eğitiliyor. Mimari, sıkıştırılmış dikkat, belirteçleri doğru uzmanlara yönlendirmek için geliştirilmiş bir yönlendirme sistemi ve daha derin katmanları durağan(durgun) tutmak için daha hafifçe dokunuşlu artık ölçeklendirmeye dayanır.

Model, Muon ve AdamW’nin bir karışımını kullanıyor. Muon’u AMD donanımında verimli hale getirmek için Zyphra, çekirdekleri birleştirdi ve gereksiz hafıza trafiğini kesti, böylece optimizer her yinelemeye hakim olmayacaktı. Parti boyutları zaman içinde arttı, sadece bu büyük seviyede tokenleri yeterince süratli teslim edebilen depolama hatlarına haiz olunmasına bağlı.

Hepsi, Qwen3-4B, Gemma3-12B, Llama-3-8B ve OLMoE şeklinde daha büyük rakiplerle rekabet eden, AMD donanımı üstünde eğitilmiş bir suni zeka modeline yol açıyor. MoE yapısının bir pozitif yanları, modelin yalnızca bir bölümünün aynı anda çalıştırılmasıdır, bu da çıkarım belleğinin yönetilmesine destek sunar ve hizmet maliyetini azaltır.

Mesela bir banka, başlangıçta karmaşık paralelliklere gerek kalmadan, araştırmalar için alana özgü bir modeli eğitebilir. MI300X’in hafıza boşluğu mühendislere yineleme için alan sağlarken, ZAYA1’in sıkıştırılmış dikkati değerlendirme esnasında ön doldurma süresini kısaltır.

ROCm’nin AMD GPU’larla çalışmasını sağlama

Zyphra, olgun bir NVIDIA tabanlı iş akışını ROCm’ye taşımanın emek gerektirdiği gerçeğini gizlemedi. Ekip, bileşenleri körü körüne taşımak yerine, AMD donanımının iyi mi davrandığını ölçmek ve model boyutlarını, GEMM modellerini ve mikro parti boyutlarını MI300X’in tercih edilen data işlem aralıklarına uyacak şekilde tekrardan şekillendirmek için vakit harcadı.

InfinityFabric, bir düğümdeki sekiz GPU’nun tümü kolektiflere katıldığında en iyi şekilde çalışır ve Pollara daha büyük mesajlarla en yüksek verime yetişme eğilimindedir, bu yüzden Zyphra füzyon arabelleklerini buna nazaran boyutlandırır. 4 bin’den 32 bin jetona kadar uzun bağlamlı eğitim, parçalanmış diziler için halka dikkatine ve darboğazları önlemek için kod çözme esnasında ağaç dikkatine dayanıyordu.

Depolama hususları da aynı derecede pratikti. Daha minik modeller IOPS’yi etkisinde bırakır; daha büyük olanlar devamlı bant genişliğine gerekseme duyar. Zyphra, dağınık okumaları azaltmak için veri kümesi parçalarını bir araya getirdi ve geri sarmaların kaçınılmaz olduğu uzun çalıştırmalar esnasında yaşamsal ehemmiyet taşıyan denetim noktası kurtarmayı hızlandırmak için düğüm başına sayfa önbelleklerini artırdı.

Kümeleri ayakları üstünde tutmak

Haftalarca devam eden eğitim işleri nadiren muhteşem netice verir. Zyphra’nın Aegis hizmeti, günlükleri ve sistem ölçümlerini izler, NIC aksaklıkları yada ECC ikazları şeklinde arızaları tespit eder ve rahat düzeltici eylemleri otomatikman gerçekleştirir. Ekip ek olarak kısa ağ kesintilerinin tüm işleri sonlandırmasını önlemek için RCCL vakit aşımlarını da artırdı.

Denetim noktası oluşturma, tek bir geçiş noktasından geçmek yerine tüm GPU’lara dağıtılır. Zyphra, rahat yaklaşımlarla karşılaştırıldığında on kattan fazla daha süratli tutum sağladığını bildiriyor; bu da direkt emek verme süresini artırıyor ve operatörün iş yükünü azaltıyor.

ZAYA1 AMD eğitim dönüm noktasının suni zeka tedariki açısından anlamı nedir?

Rapor, NVIDIA ekosistemi ile AMD’nin eşdeğerleri içinde net bir çizgi çiziyor: NVLINK vs InfinityFabric, NCCL vs RCCL, cuBLASLT vs hipBLASLt vb. Yazarlar, AMD yığınının artık ciddi, büyük ölçekli model geliştirme için yeterince olgunlaştığını öne sürüyor.

Bunların hiçbiri işletmelerin mevcut NVIDIA kümelerini ortadan kaldırması icap ettiğini göstermiyor. Daha gerçekçi bir yol, MI300X GPU’ların hafıza kapasitesinden ve ROCm’nin açıklığından yararlanan aşamalar için AMD kullanırken üretim için NVIDIA’yı tutmaktır. Tedarikçi riskini dağıtır ve büyük bir kesinti olmadan toplam eğitim hacmini artırır.

Tüm bunlar bizi bir takım tavsiyeye götürüyor: Model şeklini durağan(durgun) değil, ayarlanabilir olarak ele alın; eğitiminizin fiilen kullanacağı kolektif operasyonlar çevresinde ağlar tasarlayın; yalnızca hataları günlüğe kaydetmek yerine GPU saatlerini sakınan hata toleransı oluşturun; ve eğitim ritmini artık bozmaması için denetim noktalarını modernleştirin.

Bu bir manifesto değil; yalnızca Zyphra, AMD ve IBM’in AMD GPU’lar üstünde büyük bir MoE suni zeka modelini eğiterek öğrendiklerinden ergonomik çıkarımlarımız. Yalnızca tek bir tedarikçiye bağlı kalmadan suni zeka kapasitesini genişletmek isteyen kuruluşlar için bu, potansiyel olarak yararlı bir plandır.

Ek olarak bakınız: Google önümüzdeki 4-5 yıl içinde 1000 kat daha çok suni zeka altyapısı taahhüt ediyor

TechEx etkinliklerinin Yapay Zeka ve Büyük Veri Fuarı için Banner.

Sektör liderlerinden suni zeka ve büyük veri hakkında daha çok data edinmek ister misiniz? Çıkış yapmak Yapay Zeka ve Büyük Veri Fuarı Amsterdam, Kaliforniya ve Londra’da gerçekleşiyor. Kapsamlı etkinlik, TechEx ve aşağıdakiler de dahil olmak suretiyle öteki önde gelen teknoloji etkinlikleriyle aynı yerde bulunmaktadır: Siber Güvenlik Fuarı. Tıklamak Burada daha çok data için.

AI News tarafınca desteklenmektedir TechForge Medyası. Yaklaşan öteki kurumsal teknoloji etkinliklerini ve web seminerlerini keşfedin Burada.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

Share post:

Popular

More like this
Related

Ön Satışlar Sizi Aceleci Kararlara Nasıl Zorluyor?

Ön satışlar çoğu zaman kendilerini erken giriş için ender...

CME Kripto Vadeli İşlem Hacmi Volatilite Ortasında 795 Bin Sözleşmeyle Rekora Ulaştı

Şirket, CME Group'un 21 Kasım'da 794.903 sözleşme kaydederek kripto...

Çıkarım maliyetleri arttıkça şirketler yapay zeka altyapısını yeniden düşünüyor

Asya Pasifik'te suni zeka harcamaları artmaya devam ediyor sadece...