NVIDIA GH200 Superchip, Apache Spark için Çığır Açan Enerji Verimliliği ve Düğüm Konsolidasyonu Sunuyor

4


Üretken AI’nın hızla büyümesiyle birlikte, CIO’lar ve BT liderleri, mevcut operasyonları etkilemeden daha fazla yatırım getirisi vaat eden yeni AI kullanım durumlarını karşılamak için veri merkezi kaynaklarını geri kazanmanın yollarını arıyor. Bu, BT karar vericilerini geçmiş altyapı kararlarını yeniden değerlendirmeye ve geleneksel iş yüklerini daha az sayıda, daha fazla güç verimli düğüme konsolide ederek veri merkezi gücünü ve alanını boşaltmak için stratejiler keşfetmeye yönlendiriyor.

NVIDIA GH200 Grace Hopper Süperçip AI, yüksek performanslı bilgi işlem ve veri işleme zorluklarını karşılamak için sıfırdan tasarlanmış ilk bellek birleşik CPU-GPU süper çipidir. Apache Spark iş yüklerini CPU düğümlerinden NVIDIA GH200’e taşıyarak, veri merkezleri ve işletmeler sorgu yanıt süresini 35 kata kadar hızlandırabilir. Büyük Apache Kıvılcımı 1.500’den fazla düğümden oluşan kümelerde bu hızlanma, 22 kata kadar daha az düğüm ve yıllık enerji verimliliğinde 14 GWh’ye kadar tasarruf anlamına geliyor.

Bu yazıda NVIDIA GH200’ün veri işleme alanındaki mimari yenilikleri inceleniyor, GH200 için SQL kıyaslama sonuçları paylaşılıyor ve Apache Spark iş yüklerinin bu yeni platforma sorunsuz bir şekilde taşınmasına ilişkin bilgiler sağlanıyor.

CPU tabanlı Apache Spark sistemlerindeki eski darboğazların ele alınması

Son on yılda, işletmeler endüstrilerde rekabet avantajını sürdürmek için giderek daha önemli hale gelen ezici hacimli iş, tüketici ve IoT verileriyle boğuştu. Bu zorluğun üstesinden gelmek için birçok işletme, büyük veri dağıtılmış işleme için kullanılan çok dilli, açık kaynaklı bir sistem olan Apache Spark’a yöneldi.

Apache Spark, Kaliforniya Üniversitesi, Berkeley’de önceki büyük veri çerçevelerinin sınırlamalarını ele alma hedefiyle bir araştırma projesi olarak başladı. Bunu, verileri CPU belleğinde önbelleğe alarak başardı ve bu da SQL sorgularını önemli ölçüde hızlandırdı. Günümüzde on binlerce kuruluş, finansal hizmetler, sağlık, üretim ve perakende gibi çok çeşitli sektörlere yayılan çeşitli veri işleme görevleri için Apache Spark’a güveniyor.

Yavaş sabit disklerden ve bulut tabanlı nesne depolama alanlarından veri erişimindeki darboğazı bellek önbelleğe alma yoluyla hafifletme yeteneğine rağmen, birçok Apache Spark veri işleme iş akışı hala CPU mimarilerinde bulunan donanım sınırlamaları nedeniyle kısıtlamalarla karşılaşmaktadır.

Birleşik CPU-GPU süper yongalarının yeni bir dönemine öncülük ediyoruz

Depolama ve ağ bant genişliğindeki son gelişmeler, Moore yasasının sona ermesiyle birlikte, analitik ve sorgu darboğazlarının odağını CPU’lara kaydırdı. Bu arada, GPU’lar, çok sayıda işlem çekirdeği ve yüksek bant genişliğine sahip bellekleri nedeniyle Derin Öğrenme iş yükleri için tercih edilen platform olarak ortaya çıktı ve bunlar yüksek paralel işlemede mükemmellik gösteriyor. Apache Spark iş yüklerini paralel hale getirmek ve bunları GPU’larda çalıştırmak, CPU’lara kıyasla büyüklük sırasına göre hızlanmalar sağlar.

GPU’larda Apache Spark iş yüklerini çalıştırmak, eskiden ana bilgisayar CPU’su ile GPU arasında veri aktarımını gerektiriyordu; geleneksel olarak 128 GB/sn düşük hızlı PCIe arayüzleriyle sınırlıydı. Bu zorluğun üstesinden gelmek için NVIDIA, NVIDIA Grace HopperArm tabanlı işlemcileri bir araya getiren yeni bir süper çip sınıfı NVIDIA Grace İşlemci Ve NVIDIA Hopper GPU mimariler kullanarak NVLink-C2C Bağlantı teknolojisi. NVLink-C2C 900 GB/sn’ye kadar toplam bant genişliği sunar. Bu, geleneksel x86 tabanlı GPU hızlandırmalı sistemlerde bulunan standart PCIe Gen5 şeritlerinden 7 kat daha yüksek bant genişliğidir.

Ayrı CPU ve GPU belleğine ve düşük bant genişliğine sahip PCIe bağlantısına sahip eski PCIe mimarisinin, hızlı NVLINK-C2C bağlantısına sahip tek bir birleşik sanal bellek havuzuna sahip Grace Hopper mimarisiyle karşılaştırılması.
Şekil 1. NVIDIA Grace Hopper mimarisi PCIe darboğazlarını aşar

GH200 ile CPU ve GPU tek bir işlem başına sayfa tablosunu paylaşır ve bu da tüm CPU ve GPU iş parçacıklarının fiziksel CPU veya GPU belleğinde bulunabilen tüm sistem tarafından ayrılmış belleğe erişmesini sağlar. Bu mimari benimsendiğinde, CPU ve GPU arasında belleği ileri geri kopyalama gereksinimini ortadan kaldırır.

NVIDIA GH200, NDS performans kıyaslamalarında yeni zirvelere ulaşıyor

GH200’de Apache Spark çalıştırmanın performansını ve maliyet tasarruflarını ölçmek için, NVIDIA Karar Desteği (NDS) kıyaslaması. NDS, yaygın olarak kullanılan ve benimsenen CPU-yalnızca veri işleme teknolojisinden türetilmiştir TPC-DS benchmark. NDS, TPC-DS’de bulunan aynı SQL sorgularından oluşur, yalnızca veri oluşturma ve benchmark yürütme betiklerinde değişiklikler yapılır. NDS, TPC-DS değildir ve NDS sonuçları resmi, denetlenmiş TPC-DS sonuçlarıyla karşılaştırılamaz; yalnızca diğer NDS sonuçlarıyla karşılaştırılabilir.

10 TB veri kümesinde 100’den fazla TPC-DS SQL sorgusunu NDS yürütme betikleriyle çalıştırmak, aynı sayıda premium x86 CPU’da 42 dakika sürerken, 16 GH200 süper çip kullanılarak 6 dakika sürdü: uçtan uca 7 kat hızlanma.

SF10 veri setini kullanarak NDS-DS Benchmark'ı çalıştırmanın kıyaslama karşılaştırmaları, 16x GH200 kümesinin eşdeğer sayıda düğüme sahip Premium CPU kümesine kıyasla 7x sorgu hızlandırma sağladığını göstermektedir.
Şekil 2. SF10 ile 16 düğümlü premium CPU kümesini karşılaştıran NVIDIA Grace Hopper16 düğümlü kümede RAPIDS Accelerator ile Apache Spark çalıştıran NDS-DS kıyaslama sonuçları

Özellikle, çok sayıda toplama ve birleştirme işlemine sahip sorgular, 36 kata kadar önemli ölçüde daha yüksek bir hızlanma sergiledi.

  • 36x hızlandırılmış Query67, belirli bir yıldaki mağaza satışlarına göre farklı ürün kategorileri için en iyi mağazaları bulur. Çok sayıda toplama ve karıştırma işlemi içerir.
  • 10x hızlandırılmış Query14, her bir ürün ve belirli bir yıl ve ay için mağaza işlemlerinin genişletilmiş satış fiyatının toplamını hesaplar. Çok sayıda karıştırma ve birleştirme işlemi içerir.
  • 9x hızlandırılmış Query87, aynı gün içinde web’den, katalogdan ve mağazadan kaç müşterinin ürün sipariş ettiğini sayar. Çok sayıda tarama ve toplama işlemi içerir.
  • 9x hızlandırılmış Query59, her mağaza ve haftanın günü için bir yıldan diğerine haftalık mağaza satışlarının artışını bildirir. Çok sayıda toplama ve birleştirme işlemi içerir.
  • 8x hızlandırılmış Query38, belirli bir yılda üç kanaldan da satın alma yapan müşterilerin sayısını görüntüler. Çok sayıda farklı toplama ve birleştirme işlemi içerir.

Güç tüketimini azaltmak ve enerji maliyetlerini düşürmek

Veri kümeleri büyüdükçe, GH200 daha fazla sorgu hızlandırma ve düğüm birleştirme avantajı sunar. Aynı 100+ sorguyu 10 kat daha büyük SF100 veri kümesinde (100 TB) çalıştırmak, 16 düğümlü GH200 kümesinde toplam 40 dakika gerektirdi.

Farklı veri seti boyutları (3 GB, 10 GB, 30 GB ve 100 GB) kullanılarak NDS Benchmark çalıştırılmasına ilişkin kıyaslama karşılaştırmaları, GH200'ün veri seti boyutu arttıkça sorgu hızlandırmasını nasıl daha da artırdığını göstermektedir.
Şekil 3. NVIDIA Grace Hopper 16 düğümlü kümede RAPIDS Accelerator 24.06 ile Apache Spark 3.4.1 çalıştırıldığında elde edilen NDS kıyaslama sonuçları

100 TB veri kümesinde premium CPU’lar kullanılarak eşdeğer 40 dakikalık yanıt süresine ulaşmak için toplam 344 CPU gerekirdi. Bu, düğüm sayısında 22 kat azalma ve 12 kat enerji tasarrufu anlamına gelir. Bazen 1.500 düğümü aşabilen büyük bir Apache Spark CPU kümesi çalıştıran kuruluşlar için enerji tasarrufları önemlidir ve yıllık 14 GWh’ye kadar ulaşır.

Veri merkezi raflarının yan yana iki görüntüsü. Soldaki görüntü, birden fazla raf sırası boyunca 1.500 x86 CPU düğümünü gösteriyor. Sağdaki görüntü, sadece iki rafta 1500 x86 CPU düğümüne eşdeğer performans sunan 72 GH200 düğümünü gösteriyor. Sağdaki görüntüde GH200 düğümlerini kullanarak 6 kat daha düşük TCO, 22 kat daha az sunucu düğümü ve 12 kat daha fazla enerji verimliliği belirten metin görünüyor.
Şekil 4. 1.500 x86 Apache Spark kümesinin GH200’e taşınmasıyla TCO, düğüm sayısı ve enerji tasarrufu açısından karşılaştırma

Olağanüstü SQL hızlandırma ve fiyat performansı

AĞIR.AIGPU hızlandırmalı analitik platformu ve veritabanı sağlayıcısı olan önde gelen bir şirket, tek bir GH200 GPU bulut örneğini, 8x NVIDIA A100 PCIe tabanlı bulut örneğiyle karşılaştırdı AğırDB ve NDS-H kalite testi.

HEAVY.AI tarafından Vultr bulutunda kıyaslama için kullanılan GPU donanım örneklerini karşılaştıran iki yan yana görüntü. Soldaki görüntüde 8 NVIDIA A100 GPU'su, şu özelliklere sahip: 640 GB VRAM, 2 TB CPU RAM, 112 Intel 8480+ Platinum CPU çekirdeği ve saatte 13,89 ABD doları maliyet. Sağdaki görüntüde, şu özelliklere sahip tek bir GH200 GPU düğümü gösteriliyor: 96 GB VRAM, 480 GB CPU RAM, 72 ARM CPU çekirdeği ve saatte 4,32 ABD doları maliyet. Görüntünün altında, teklif edilen fiyatların değişebileceğini ve 1+ aylık rezervasyonlar için olduğunu belirten bir not görünüyor.
Şekil 5. HEAVY.AI tarafından kıyaslama sırasında kullanılan donanım

HEAVY.AI, GH200 örneğini kullanarak ortalama 5 kat hızlanma bildirdi ve bu da SF100 veri kümesinde 16 kat maliyet tasarrufu anlamına geliyor. Tek bir GH200 GPU belleğine sığmayan ve düşük gecikmeli yüksek bant genişliğine sahip NVLink-C2C üzerinden Grace CPU belleğine aktarılması gereken daha büyük SF200 veri kümesinde HEAVY.AI, 8 NVIDIA A100 x86 ve PCIe tabanlı örneğe kıyasla 2 kat hızlanma ve 6 kat maliyet tasarrufu bildirdi.

“Müşterilerimiz, işleri üzerinde büyük etkisi olan veri odaklı, zamana duyarlı kararlar alıyor,” diyor HEAVY.AI’nin CTO’su ve kurucu ortağı Todd Mostak. “GH200’ün müşterilerimiz için ortaya çıkaracağı yeni iş içgörüleri ve maliyet tasarrufları konusunda heyecanlıyız.”

NVIDIA GH200 Superchip'i x86-PCIe tabanlı 8xA100 GPU'larla NDS-H kıyaslamasını kullanarak karşılaştıran çubuk grafik. GH200, SF100 veri setinde 5 kat, SF200 veri setlerinde ise 2 kat hızlanma gösteriyor.
Şekil 6. HEAVY.AI için HeavyDB ve NDS-H kıyaslama sonuçları

GH200 Apache Spark geçişinize başlayın

İşletmeler bundan yararlanabilir Apache Spark için RAPIDS Hızlandırıcı Apache Spark iş yüklerini NVIDIA GH200’e sorunsuz bir şekilde taşımak için. RAPIDS Accelerator for Apache Spark, RAPIDS cuDF kütüphanesinin gücünü ve Spark dağıtılmış bilgi işlem çerçevesinin ölçeğini birleştirerek işlemeyi hızlandırmak için GPU’lardan yararlanır. İşletmeler, Spark’ı RAPIDS Accelerator for Apache Spark eklenti jar’ıyla başlatarak kod değişikliği yapmadan mevcut Apache Spark uygulamalarını GPU’larda çalıştırabilir.

Bugün, GH200 dokuz süper bilgisayara güç veriyor dünya çapında, tarafından sunulmaktadır geniş yelpazede sistem üreticilerive Vultr, Lambda ve CoreWeave gibi bulut sağlayıcılarından talep üzerine erişilebilir. Ayrıca GH200’ü şu şekilde test edebilirsiniz: NVIDIA Başlatma PaneliGH200’deki Apache Spark hızlandırması hakkında daha fazla bilgi edinmek için GTC 2024 oturumuna göz atın Apache Spark’ta ETL ve Makine Öğrenimini Hızlandırın Talep üzerine.

Kaynak: Nvidia

Doğrudan cihazınızda gerçek zamanlı güncellemeleri alın, şimdi abone olun.

Yorumlar