Geneformer yakın zamanda tanıtılan bir ve geniş tek hücreli transkriptom verilerinden transfer öğrenimini kullanarak gen ağı dinamiklerini ve etkileşimlerini öğrenen güçlü bir AI modeli. Bu araç, araştırmacıların sınırlı verilerle bile gen davranışı ve hastalık mekanizmaları hakkında doğru tahminlerde bulunmalarını sağlayarak ilaç hedefi keşfini hızlandırır ve çeşitli biyolojik bağlamlarda karmaşık genetik ağların anlaşılmasını ilerletir.
MIT ve Harvard’daki Broad Enstitüsü araştırmacıları ve işbirlikçileri tarafından geliştirilen AI modeli Geneformer, sc-RNA ifade verilerindeki en yüksek ifadeli genleri kullanarak her hücrenin yoğun bir temsilini oluşturur ve bu, çeşitli alt akış tahmin görevleri için özellikler olarak kullanılabilir. Ancak Geneformer’ı benzersiz kılan şey, çok az veri üzerinde eğitildiğinde bile mimarisinin sağladığı yeteneklerdir.
Tek hücreli veriler için BERT benzeri bir referans modeli
Geneformer, BERT benzeri bir dönüştürücü mimariye sahiptir ve çeşitli insan dokularındaki yaklaşık 30 milyon tek hücreli transkriptomdan alınan veriler üzerinde önceden eğitilmiştir. Dikkat mekanizması, giriş verilerinin en alakalı kısımlarına odaklanmasını sağlar. Bu bağlam farkında yaklaşımla, model genler arasındaki ilişkileri ve bağımlılıkları dikkate alarak tahminlerde bulunabilir.
Ön eğitim aşamasında, model maskeli dil modelleme tekniğini kullanır. Bu teknikte, gen ifadesi verilerinin bir kısmı maskelenir ve model maskeli genleri çevreleyen bağlama göre tahmin etmeyi öğrenir. Bu yaklaşım etiketli veri gerektirmez ve modelin karmaşık gen etkileşimlerini ve düzenleyici mekanizmaları anlamasını sağlar.
Bu mimari ve eğitim Sınırlı veriyle bile, kromatin ve gen ağı dinamikleriyle ilgili çeşitli görevlerde modelin öngörü doğruluğunu tutarlı bir şekilde artırmasını sağlamak. ÖrneğinGeneformer, 30.000’den fazla veri hücresi üzerinde eğitildiğinde, önceki son teknoloji yöntemleriyle aynı doğrulukta, yalnızca 5.000 veri hücresi kullanarak kalp endotel hücrelerinde önemli bir gen ağını yeniden yapılandırabilir.
Ayrıca, gen ifadesi temel modelleri için en yaygın kullanım durumlarından biri olan belirli hücre tipi sınıflandırma görevleri için %90’dan fazla doğruluk elde edebilir. Crohn Hastalığı ince bağırsak veri seti Bu görevde NVIDIA BioNeMo modeli değerlendirmesi için temel modellere göre doğruluk (Şekil 1) ve F1 puanı (Şekil 2) açısından performans iyileştirmeleri bulundu.
Şekil 1 ve Şekil 2’deki karşılaştırmalar, 10 bileşenli PCA ve normalize edilmiş ve logaritmik dönüştürülmüş ifade sayımları üzerinde eğitilmiş bir rastgele orman modeli kullanan bir temel Logp1 PCA+RF kullandı. Temel rastgele ağırlıklar modeli yaklaşık 100 adım boyunca yaklaşık rastgele ağırlıklarla eğitildi. 10M parametreli model 6 katmanlı modeldir ve 106M parametreli model 12 katmanlıdır, her ikisi de BioNeMo belgelerinde açıklanmıştır
Deneylerimiz ve orijinaldeki veriler Geneformer yayını Geneformer’ın şu ana kadar üretilen 106M parametreli 12 katmanlı modellerin ötesine ölçeklenmesinin değerli olduğunu öne sürüyorlar.
Geneformer tabanlı modellerin yeni neslini etkinleştirmek için BioNeMo Çerçevesi içinde iki yeni özellik kullanıma sunduk. Birincisi, BioNeMo model sürümü, orijinal yayında kullanılan veri türleriyle uyumluluğu korurken, yayımlanan yöntemden 4 kat daha hızlı veri yüklemeyi hızlandıran bir veri yükleyicisine sahiptir. İkincisi, Geneformer artık eğitim yapılandırmasında basit bir değişiklikle hem tensör hem de boru hattı paralelliğine izin veriyor. Bu, bellek kısıtlamalarını yönetmeye ve eğitim süresini azaltmaya yardımcı olarak, birden fazla GPU’nun toplam hesaplama gücünden yararlanarak milyarlarca parametreli modelleri eğitmeyi mümkün kılıyor.
Geneformer, NVIDIA Clara paketindeki hızlandırılmış tek hücreli ve mekansal omik analiz araçlarının büyüyen bir derlemesinin parçasıdır ve BioNeMo Çerçevesi içinde erişilebilir (Şekil 3). Bu araçlar, ilaç keşfi için tamamlayıcı araştırma iş akışlarında uygulanabilir, örnek olarak araştırma Translasyonel Genomik Araştırma Enstitüsü’nde (TGen).
RAPIDS-SINGLECELL araç takımı ve ScanPy kütüphanesi de dahil olmak üzere RAPIDS programlama kütüphaneleri paketi, Python tabanlı ön işleme, görselleştirme, kümeleme, yörünge çıkarımı ve omik verilerinin farklı ifade testleri için oluşturulmuştur. Tek hücre ifade verilerini analiz etmek için kullanıldığında, çıktısı ifade verilerini analiz etmek için geleneksel biyoenformatik yaklaşımları kullanarak hücre tipi açıklaması ve bozulma tahminlerine yönelik görüntüleme ve temel model yaklaşımlarını tamamlayabilir. NVIDIA RAPIDS veri analitiği kütüphaneleriyle RAPIDS SINGLE-CELL, hesaplama açısından en pahalı Scanpy iş yüklerini hızlandırır.
Mekansal olarak çözümlenmiş yaklaşımlar için, MONAI’deki VISTA-2D modeli hücre görüntülerini işlemek ve analiz etmek için tasarlanmıştır. Dokular içindeki hücre morfolojilerini ve mekansal organizasyonu tanımlamak ve ölçmek için yüksek kaliteli segmentasyon maskeleri sağlar. VISTA-2D tarafından oluşturulan segmentasyon maskeleri, Geneformer gibi temel modellere beslenebilen ifade verileri üretebilir.
Hastalık modellemesi için temel bir AI modeli
Çeşitli uygulamalarının gösterdiği gibi (Şekil 4), Geneformer biyolojik bir temel model olarak hizmet edebilir. Bu kullanım durumları molekülerden organizma ölçeğindeki sorunlara kadar uzanır ve bu da onu biyolojik araştırmalar için yaygın olarak pratik bir araç haline getirir.
Bu kullanım örneklerinin çoğu açıklanmıştır model kağıtta. Model artık açık kaynaklı ve araştırma için kullanılabilir. Şekil 4, Geneformer’ın sıfır atışlı öğrenme ile işleyebileceği kullanım durumlarını gösterir. Sıfır atışlı öğrenme, Geneformer’ın daha önce görmediği veya açıkça eğitilmediği bir veri sınıfını tahmin edebileceği anlamına gelir.
Örneğin, gen düzenleme araştırmasında, Geneformer, çeşitli transkripsiyon faktörü seviyelerine yanıt olarak gen ifadesi değişikliklerini ölçen veri kümelerinde ince ayarlanabilir. Bu, farklı transkripsiyon faktörü dozajlarının gen ifadesini ve hücresel fenotipleri nasıl etkilediğine dair doğru tahminler yapılmasını sağlayarak gen düzenlemesini ve olası terapötik müdahaleleri anlamaya yardımcı olur.
Farklılaşma sırasında hücre durum geçişlerini yakalayan veri kümelerinde Geneformer’ı ince ayarlamak, hücre durumlarının hassas bir şekilde sınıflandırılmasını sağlayarak farklılaşma süreçlerinin ve gelişimin anlaşılmasına yardımcı olabilir. Model, transkripsiyon faktörleri arasındaki işbirlikçi etkileşimlerin tek seferde tanımlanması için bile kullanılabilir. Bu, karmaşık düzenleyici mekanizmaların ve transkripsiyon faktörlerinin gen ifadesini düzenlemek için nasıl birlikte çalıştığının anlaşılmasını geliştirebilir.
Başlamak
6 katmanlı (30M parametre) ve 12 katmanlı (106M parametre) modeller, eğitim ve dağıtım için tam hızlandırılmış örnek kodla birlikte NVIDIA BioNeMo Çerçevesi aracılığıyla kullanılabilir. NVIDIA NGC.