NVIDIA'nın RTX 3000 Serisi GPU'ları: İşte Yenilikler
Yayınlanan: 2022-01-291 Eylül 2020'de NVIDIA, yeni oyun GPU serisini açıkladı: Amper mimarisine dayanan RTX 3000 serisi. Yenilikleri, onunla birlikte gelen yapay zeka destekli yazılımı ve bu nesli gerçekten harika yapan tüm detayları tartışacağız.
RTX 3000 Serisi GPU'larla Tanışın
NVIDIA'nın ana duyurusu, tümü özel bir 8 nm üretim süreci üzerine inşa edilmiş ve tümü hem rasterleştirme hem de ışın izleme performansında büyük hızlanmalar getiren parlak yeni GPU'larıydı.
Dizinin alt ucunda, 499 dolardan gelen RTX 3070 var. NVIDIA tarafından ilk duyuruda açıklanan en ucuz kart için biraz pahalı, ancak düzenli olarak 1400 doların üzerinde perakende satış yapan mevcut RTX 2080 Ti'yi yendiğini öğrendiğinizde mutlak bir çalma. Bununla birlikte, NVIDIA'nın duyurusundan sonra, üçüncü taraf satış fiyatı düştü ve bunların büyük bir kısmı eBay'de 600 doların altında panikle satıldı.
Duyuru itibariyle sağlam bir kıyaslama yok, bu nedenle kartın gerçekten nesnel olarak 2080 Ti'den “daha iyi” olup olmadığı veya NVIDIA'nın pazarlamayı biraz çarpıtıp bükmediği belli değil. Yürütülen kriterler 4K'daydı ve muhtemelen RTX açıktı; bu, Ampere tabanlı 3000 serisi ışın izlemede Turing'den iki kat daha iyi performans göstereceğinden, boşluğun tamamen rasterleştirilmiş oyunlarda olacağından daha büyük görünmesine neden olabilir. Ancak, ışın izlemenin artık performansa fazla zarar vermeyen bir şey olması ve en yeni nesil konsollarda desteklenmesi nedeniyle, fiyatın neredeyse üçte biri için son neslin amiral gemisi kadar hızlı çalışmasını sağlamak önemli bir satış noktası.
Fiyatın bu şekilde kalıp kalmayacağı da belirsiz. Üçüncü taraf tasarımları, fiyat etiketine düzenli olarak en az 50 $ ekler ve talebin ne kadar yüksek olacağı düşünülürse, Ekim 2020'de 600 $'a satıldığını görmek şaşırtıcı olmayacaktır.
Bunun hemen üzerinde, RTX 2080'den iki kat daha hızlı olması gereken ve 3080'den yaklaşık %25-30 daha hızlı olması gereken 699$'lık RTX 3080 var.
Ardından, en üstte, yeni amiral gemisi, komik derecede büyük olan RTX 3090'dır. NVIDIA bunun farkındadır ve buna şirketin "Büyük Vahşi GPU" anlamına geldiğini söylediği "BFGPU" adını verir.
NVIDIA, herhangi bir doğrudan performans ölçümü göstermedi, ancak şirket, 8K oyunları 60 FPS'de çalıştırdığını gösterdi, bu gerçekten etkileyici. Kabul edelim, NVIDIA bu hedefi tutturmak için neredeyse kesinlikle DLSS kullanıyor, ancak 8K oyun 8K oyundur.
Tabii ki, sonunda bir 3060 ve daha bütçe odaklı kartların diğer varyasyonları olacak, ancak bunlar genellikle daha sonra gelir.
İşleri gerçekten soğutmak için NVIDIA'nın yenilenmiş bir soğutucu tasarıma ihtiyacı vardı. 3080, oldukça yüksek olan 320 watt için derecelendirilmiştir, bu nedenle NVIDIA çift fanlı bir tasarım seçti, ancak altta yerleştirilen her iki fan yerine NVIDIA, arka plakanın genellikle gittiği üst uca bir fan yerleştirdi. Fan, havayı yukarı doğru CPU soğutucusuna ve kasanın üstüne yönlendirir.
Bir kasadaki kötü hava akışından ne kadar performansın etkilenebileceğine bakılırsa, bu çok mantıklı. Bununla birlikte, devre kartı bu nedenle çok sıkışıktır ve bu da muhtemelen üçüncü taraf satış fiyatlarını etkileyecektir.
DLSS: Bir Yazılım Avantajı
Işın izleme, bu yeni kartların tek avantajı değil. Gerçekten, hepsi biraz hileli - RTX 2000 serisi ve 3000 serisi, eski nesil kartlarla karşılaştırıldığında, gerçek ışın izlemede o kadar iyi değil. Blender gibi bir 3D yazılımda tam bir sahneyi ışın izleme, genellikle kare başına birkaç saniye, hatta dakika sürer, bu nedenle onu 10 milisaniyenin altında kaba zorlama söz konusu değildir.
Tabii ki, ışın hesaplamalarını çalıştırmak için RT çekirdekleri adı verilen özel donanım var, ancak büyük ölçüde NVIDIA farklı bir yaklaşım seçti. NVIDIA, GPU'ların korkunç görünen çok ucuz bir tek geçişi oluşturmasına ve bir şekilde - AI büyüsü yoluyla - bunu bir oyuncunun bakmak istediği bir şeye dönüştürmesine izin veren gürültü giderme algoritmalarını geliştirdi. Geleneksel rasterleştirme tabanlı tekniklerle birleştirildiğinde, ışın izleme efektleriyle geliştirilmiş hoş bir deneyim sağlar.
Ancak, bunu hızlı bir şekilde yapmak için NVIDIA, Tensor çekirdekleri adı verilen yapay zekaya özgü işlem çekirdeklerini ekledi. Bunlar, makine öğrenimi modellerini çalıştırmak için gereken tüm matematiği işler ve bunu çok hızlı bir şekilde yapar. Yapay zeka birçok şirket tarafından yoğun olarak kullanıldığından, bulut sunucu alanında yapay zeka için tamamen oyun değiştiricidirler.
Gürültü gidermenin ötesinde, Tensor çekirdeklerinin oyuncular için ana kullanımına DLSS veya derin öğrenme süper örneklemesi denir. Düşük kaliteli bir çerçeve alır ve onu tam yerel kaliteye yükseltir. Bu aslında, 4K bir resme bakarken 1080p düzeyinde kare hızlarıyla oyun oynayabileceğiniz anlamına gelir.
Bu aynı zamanda ışın izleme performansına da oldukça yardımcı oluyor; PCMag'den alınan karşılaştırmalar, tüm ışın izleme ayarları maksimuma çıkarılmış, ultra kalitede bir RTX 2080 Süper çalışan Kontrol gösteriyor. 4K'da sadece 19 FPS ile mücadele ediyor, ancak DLSS açıkken çok daha iyi 54 FPS alıyor. DLSS, Turing ve Ampere üzerindeki Tensor çekirdekleri tarafından mümkün kılınan NVIDIA için ücretsiz performanstır. Onu destekleyen ve GPU sınırlı herhangi bir oyun, yalnızca yazılımdan ciddi hızlanmalar görebilir.
DLSS yeni değil ve iki yıl önce RTX 2000 serisi piyasaya çıktığında bir özellik olarak duyurulmuştu. O zamanlar çok az oyun tarafından destekleniyordu, çünkü NVIDIA'nın her bir oyun için bir makine öğrenimi modelini eğitmesini ve ayarlamasını gerektiriyordu.
Ancak, o sırada NVIDIA, yeni sürümü DLSS 2.0 olarak adlandırarak tamamen yeniden yazdı. Bu genel amaçlı bir API'dir, yani herhangi bir geliştirici bunu uygulayabilir ve zaten çoğu büyük sürüm tarafından alınıyor. Tek bir kare üzerinde çalışmak yerine, TAA'ya benzer şekilde önceki kareden hareket vektör verilerini alır. Sonuç, DLSS 1.0'dan çok daha keskin ve bazı durumlarda, aslında doğal çözünürlükten bile daha iyi ve daha keskin görünüyor, bu yüzden onu açmamak için fazla bir neden yok.
Tek bir nokta var; ara sahnelerde olduğu gibi sahneleri tamamen değiştirirken, DLSS 2.0'ın hareket vektörü verilerini beklerken ilk kareyi %50 kalitede işlemesi gerekir. Bu, birkaç milisaniye için kalitede küçük bir düşüşe neden olabilir. Ancak, baktığınız her şeyin %99'u düzgün bir şekilde oluşturulacaktır ve çoğu insan pratikte bunu fark etmez.
İLGİLİ: NVIDIA DLSS Nedir ve Işın İzlemeyi Nasıl Daha Hızlı Yapacak?
Amper Mimarisi: Yapay Zeka İçin Üretildi
Amper hızlıdır. Özellikle yapay zeka hesaplamalarında çok hızlı. RT çekirdeği Turing'den 1,7 kat daha hızlı ve yeni Tensör çekirdeği Turing'den 2,7 kat daha hızlı. İkisinin birleşimi, ışın izleme performansında gerçek bir nesil sıçramasıdır.
Bu Mayıs ayının başlarında NVIDIA, AI çalıştırmak için tasarlanmış bir veri merkezi GPU'su olan Ampere A100 GPU'yu piyasaya sürdü. Bununla, Ampere'yi bu kadar hızlı yapan şeyin çoğunu ayrıntılı olarak anlattılar. Veri merkezi ve yüksek performanslı bilgi işlem iş yükleri için Ampere genel olarak Turing'den yaklaşık 1,7 kat daha hızlıdır. AI eğitimi için 6 kata kadar daha hızlıdır.
Ampere ile NVIDIA, bazı iş yüklerinde endüstri standardı "Floating-Point 32" veya FP32'nin yerini almak üzere tasarlanmış yeni bir sayı formatı kullanıyor. Başlık altında, bilgisayarınızın işlediği her sayı, 8 bit, 16 bit, 32, 64 veya daha büyük olsun, bellekte önceden tanımlanmış sayıda bit alır. Daha büyük sayıların işlenmesi daha zordur, bu nedenle daha küçük bir boyut kullanabiliyorsanız, daha az ezmeniz gerekir.
FP32, 32 bitlik bir ondalık sayı depolar ve sayı aralığı (ne kadar büyük veya küçük olabilir) için 8 bit ve kesinlik için 23 bit kullanır. NVIDIA'nın iddiası, bu 23 hassas bitin pek çok AI iş yükü için tamamen gerekli olmadığı ve sadece 10 tanesinden benzer sonuçlar ve çok daha iyi performans elde edebileceğinizdir. Boyutu 32 yerine sadece 19 bite düşürmek, birçok hesaplamada büyük bir fark yaratır.
Bu yeni format, Tensor Float 32 olarak adlandırılıyor ve A100'deki Tensör Çekirdekleri, garip boyutlu formatı işlemek için optimize edildi. Bu, kalıp küçülmeleri ve çekirdek sayısı artışlarına ek olarak, AI eğitiminde nasıl büyük 6x hızlanma elde ettikleridir.
Ampere, yeni sayı biçimine ek olarak, FP32 ve FP64 gibi belirli hesaplamalarda önemli performans hızlanmaları görüyor. Bunlar, meslekten olmayanlar için doğrudan daha fazla FPS anlamına gelmez, ancak Tensor işlemlerinde genel olarak neredeyse üç kat daha hızlı yapan şeyin bir parçasıdır.
Ardından, hesaplamaları daha da hızlandırmak için, oldukça basit bir kavram için çok süslü bir kelime olan ince taneli yapılandırılmış seyreklik kavramını tanıttılar. Sinir ağları, nihai çıktıyı etkileyen, ağırlıklar adı verilen büyük sayı listeleriyle çalışır. Çarpılacak daha fazla sayı, daha yavaş olacaktır.
Ancak, bu sayıların tümü aslında yararlı değildir. Bazıları kelimenin tam anlamıyla sıfırdır ve temelde atılabilir, bu da aynı anda daha fazla sayıyı kırabildiğinizde büyük hızlanmalara yol açar. Seyreklik esas olarak sayıları sıkıştırır, bu da hesaplama yapmak için daha az çaba gerektirir. Yeni “Sparse Tensor Core”, sıkıştırılmış veriler üzerinde çalışmak üzere tasarlanmıştır.
Değişikliklere rağmen NVIDIA, bunun eğitimli modellerin doğruluğunu belirgin şekilde etkilememesi gerektiğini söylüyor.
En küçük sayı biçimlerinden biri olan Seyrek INT8 hesaplamaları için, tek bir A100 GPU'nun en yüksek performansı, şaşırtıcı derecede yüksek bir sayı olan 1,25 PetaFLOP'un üzerindedir. Tabii ki, bu yalnızca belirli bir tür sayıyı çarparken olur, ancak yine de etkileyici.