Google Cloud Run, Ölçekte NVIDIA L4 GPU’ları, NVIDIA NIM ve Sunucusuz AI Çıkarım Dağıtımları için Destek Ekliyor

4


Yapay zeka destekli uygulama ve hizmetlerin dağıtımı, kuruluşlara önemli zorluklar getiriyor:

  • Performans, kullanıcı deneyimini ve rekabet avantajını doğrudan şekillendirdiği ve dağıtım maliyetlerini etkileyerek genel yatırım getirinizi etkilediği için kritik öneme sahiptir.
  • Ölçeklenebilirliğe ulaşmak, dağıtılan AI uygulamasının dalgalanan taleplerini aşırı hesaplama kaynakları sağlamadan etkili bir şekilde karşılamak için esastır. Bu, sorunsuz çalışmayı sağlamak için yoğun dönemlerde kaynakları dinamik olarak ölçeklendirmeyi ve maliyetleri optimize etmek için daha sessiz zamanlarda ölçeklendirmeyi gerektirir.
  • Karmaşıklık, birden fazla AI modelinin performansını optimize etme, bunları mevcut iş akışlarına sorunsuz bir şekilde entegre etme ve altta yatan altyapıyı yönetme gibi görevleri de kapsayarak işleri daha da karmaşık hale getirir

Bu zorlukların ele alınması, performansı optimize edebilen, ölçeklenebilirliği etkin bir şekilde yönetebilen ve dağıtımın karmaşıklıklarını aşabilen, kuruluşların operasyonel verimliliği ve maliyet etkinliğini korurken yapay zekanın tüm potansiyelinden en iyi şekilde yararlanmasını sağlayan tam kapsamlı bir yaklaşım gerektirir.

Google Cloud ve NVIDIA, NVIDIA AI platformunun performansını ve buluttaki sunucusuz bilgi işlemin kolaylığını birleştirerek bu zorlukları ele almak ve AI çıkarım dağıtımlarını basitleştirmek için iş birliği yaptı.

Google Cloud’un tam olarak yönetilen sunucusuz konteyner çalışma zamanı olan Cloud Run, NVIDIA L4 Tensor Core GPU’ları için destek eklendiönizlemede mevcuttur. Artık altyapı yönetimi konusunda endişelenmeden ölçekte hızlandırılmış, isteğe bağlı gerçek zamanlı AI uygulamalarını çalıştırabilirsiniz. Gücüyle birleştiğinde NVIDIA NIM mikro hizmetleriCloud Run, uygulama performansını en üst düzeye çıkarırken üretim için yapay zeka modellerini optimize etme ve sunmanın karmaşıklıklarını önemli ölçüde basitleştirebilir.

Gerçek zamanlı AI destekli uygulamaları dağıtın

Cloud Run, altyapı yönetimini soyutlayarak ve kaynakları talep üzerine dinamik olarak tahsis ederek konteynerleştirilmiş uygulamaları dağıtmanızı ve çalıştırmanızı sağlar. Uygulamaları gelen trafiğe göre otomatik olarak ölçeklendirir, böylece yoğun yükleri idare etmek için aşırı bilgi işlem kaynakları sağlamanıza gerek kalmaz. Hızlı örnek başlatma ve sıfıra ölçekleme özelliğiyle, düşük talep dönemlerinde boşta kalan kaynakları da korumanız gerekmez.

Cloud Run desteği NVIDIA L4 Tensor Çekirdek GPU’ları daha önce yalnızca CPU’ya odaklanan ürünlerinden önemli bir sıçramayı temsil ediyor.

NVIDIA L4 GPU, öneriler, ses tabanlı AI asistanları, üretken AI, görsel arama ve iletişim merkezi otomasyonu dahil olmak üzere çok çeşitli AI uygulamaları için ölçekte çıkarım yapmak üzere optimize edilmiştir ve en iyi kişiselleştirilmiş deneyimleri sunar. L4 GPU’lar şunları sunar: 120 kata kadar daha yüksek AI video performansı CPU çözümleri ve önceki nesle göre 2,7 kat daha fazla üretken AI çıkarım performansı.

Google Cloud, NVIDIA L4 GPU’larını sunan ilk buluttu G2 VM’leri ve Google Compute Engine (GCE), Google Kubernetes Engine (GKE) ve Vertex AI dahil olmak üzere Google Cloud hizmetlerinde desteklenmektedirler.

Let’s Enhance, Wombo, Writer, Descript ve AppLovin gibi şirketler, üretken yapay zeka destekli uygulamaları hayata geçirmek ve müşterilerine keyifli deneyimler sunmak için NVIDIA L4 GPU’larının gücünden yararlanıyor.

Cloud Run’da NVIDIA L4 desteğinin eklenmesi, Gemma-2B/7B, Llama3-8B ve Mistral-8x7B gibi hafif üretken AI modelleriyle gerçek zamanlı çıkarım uygulamalarını dağıtmanıza olanak tanır. Bu, Cloud Run’ın sunucusuz platformunun ölçeklenebilirliği, saniye başına faturalandırması, düşük gecikme süresi ve hızlı soğuk başlatma süreleriyle birleştirilmiştir.

Performansa göre optimize edilmiş sunucusuz AI çıkarımı

Dağıtılan yapay zeka modelinin performansının optimize edilmesi, doğrudan ihtiyaç duyulan kaynakları etkilediği ve yapay zeka destekli uygulamanın dağıtımının genel maliyetlerini etkilediği için kritik öneme sahiptir.

Bu zorluğun üstesinden gelmek için NVIDIA, NVIDIA NIMAI modellerinin dağıtımını basitleştirmek ve hızlandırmak için tasarlanmış bir dizi optimize edilmiş bulut tabanlı mikro hizmettir. NIM, uygulamalara kolayca entegre edilebilen, önceden optimize edilmiş, konteynerleştirilmiş modeller sağlar, geliştirme süresini azaltır ve kaynak verimliliğini en üst düzeye çıkarır.

Cloud Run’da NVIDIA NIM’i kullanarak, NVIDIA L4 GPU’larının tüm potansiyelini ortaya çıkaran ve çıkarım performansı optimizasyonu konusunda uzmanlığa ihtiyaç duymadan en iyi verimi ve gecikmeyi sağlayan optimize edilmiş çıkarım motorlarını kullanarak yüksek performanslı yapay zeka uygulamaları dağıtabilirsiniz.

Bir parçası NVIDIA AI Kurumsal Açık Google Bulut Pazar YeriNIM, güvenli tensörler kullanarak, CVE’leri sürekli olarak izleyerek ve yamalayarak ve düzenli dahili penetrasyon testleri gerçekleştirerek kurumsal düzeyde güvenliğe öncelik verirken, OpenAI API uyumlu bir programlama modeli ve özel uzantılarla esnek entegrasyon sunar. Bu, AI uygulamalarının sağlam, güvenli ve iyi desteklendiğinden emin olur ve geliştirmeden üretime sorunsuz bir geçişi kolaylaştırır.

NVIDIA NIM, Cloud Run’a ek olarak Google Kubernetes Engine (GKE) veya Google Compute Engine (GCE) gibi farklı Google Cloud hizmetlerine dağıtılabilir ve böylece yapay zeka destekli uygulamalar oluşturmak ve dağıtmak için ihtiyaç duyduğunuz soyutlama düzeyini seçme olanağı sunar.

NVIDIA L4 ile Google Cloud Run’da Llama3-8B-Instruct NIM mikro hizmetinin dağıtımı

İşte NIM kullanarak bir NVIDIA L4 GPU’da Cloud Run ile bir Llama3-8B-Instruct modelini nasıl dağıtabileceğiniz. Cloud Run şu anda Cloud Run örneği başına bir NVIDIA L4 GPU’nun eklenmesini destekliyor. Ön koşul olarak, şunu yükleyin: Google Bulut SDK’sı iş istasyonunuzda.

Depoyu klonlayın:

$ git clone https://github.com/NVIDIA/nim-deploy
$ cd nim-deploy/cloud-service-providers/google-cloud/cloudrun

Başlatma için gereken ortam değişkenlerini ayarlayın:

$ cat env
export SERVICE_ACCOUNT_ID=<Put your service account>
export PROJECTID=<Put your project ID>
export PROJECTUSER=<Put your user name>
export PROJECTNUM=<Put your project number>
export REGION=<Put your region>
export GCSBUCKET=<Put your GCS bucket>
export SERVICE_NAME=llama-3-8b-instruct
# ---- entries below created by build_nim.sh

Dağıtım için gereken uygun NIM mikro servis adıyla Dockerfile’ı düzenleyin. NGC’den istenen model URL’sini şuraya yerleştirin: FROM ifade:

FROM nvcr.io/nim/meta/llama3-8b-instruct:1.0.0

Başlatma için konteyneri oluşturun:

$ source ./env && ./build_nim.sh

run.sh betiğini çalıştırarak konteyneri dağıtın:

$ source ./env && ./run.sh

Başlamaya hazır mısınız?

NVIDIA NIM ve NVIDIA L4 GPU’ları da dahil olmak üzere NVIDIA AI platformunun Google Cloud Run ile birlikte güçlü birleşimi, AI uygulamalarının dağıtımında bulunan kritik performans, ölçeklenebilirlik ve karmaşıklık zorluklarını ele alır. Bu sinerji yalnızca dağıtımı hızlandırmakla kalmaz, aynı zamanda uygulama performansını da artırarak kuruluşların operasyonları verimli ve maliyetleri düşük tutarken AI’dan en iyi şekilde yararlanmalarına yardımcı olur.

NVIDIA NIM mikro servislerini deneyimleyebilir ve prototip oluşturabilirsiniz. NVIDIA API kataloğuuygulamalarınızı test etmenizi ve iyileştirmenizi sağlar. Daha sonra, ücretsiz NVIDIA Geliştirici Programı’nın bir parçası olarak Google Cloud Run’da geliştirmeye, araştırmaya ve test etmeye devam etmek için NIM kapsayıcılarını indirebilirsiniz.

Kurumsal düzeyde güvenlik, destek ve API kararlılığı arıyorsanız, NIM’e ücretsiz olarak erişebilirsiniz. 90 günlük NVIDIA AI Enterprise lisansıAyrıca NIM ile uygulamalı bir laboratuvarı da deneyebilirsiniz NVIDIA Başlatma Paneli.

NVIDIA L4 GPU ile Cloud Run destek şu anda önizleme aşamasındadır ve us-central1 Google Cloud bölgesinde kullanılabilir. Bu özellik hakkında daha fazla bilgi edinmek ve demoları eylem halinde görmek için bkz. lansman etkinliği canlı yayını Ve üye olmak Bugün erişim için!

Kaynak: Nvidia

Doğrudan cihazınızda gerçek zamanlı güncellemeleri alın, şimdi abone olun.

Yorumlar