Etkileşimli Yapay Zeka Aracı Görme Engelli ve Görme Engelli İzleyicilere Sürükleyici Video İçeriği Sunuyor
Yeni araştırma, kullanıcılara içerikleri etkileşimli olarak keşfetme yeteneği veren AI destekli bir sistemle kör veya az gören (BLV) izleyiciler için video erişilebilirliğini devrim niteliğinde değiştirmeyi amaçlıyor. Son zamanlarda ayrıntılı olarak açıklanan yenilikçi sistem kağıtgeleneksel sesli betimlemelerdeki (AD) önemli boşlukları gidererek zenginleştirilmiş ve sürükleyici bir video izleme deneyimi sunuyor.
“Videolar bilgiye erişmek ve eğlendirmek için önemli bir ortam haline gelmiş olsa da, BLV insanları bunları genellikle daha az erişilebilir buluyor,” diyor Notre Dame Üniversitesi’nde Bilgisayar Bilimi ve Mühendisliği alanında doktora yapan baş yazar Zheng Ning. “Yapay zeka ile videolardan katmanlı bilgi çıkarmak ve kullanıcıların sınırlı görme, işitsel algı ve dokunsal yetenekleriyle video içeriğini tüketmede aktif rol almalarını sağlamak için etkileşimli bir sistem oluşturabiliriz.”
Reklamlar, videolardaki görsel öğelerin sözlü anlatımını sağlar ve erişilebilirlik için çok önemlidir. Ancak, geleneksel statik açıklamalar genellikle ayrıntıları dışarıda bırakır ve kullanıcıların içeriği deneyimlemek yerine anlamalarına yardımcı olan bilgileri sağlamaya odaklanır. Ayrıca, orijinal sesi ve reklamlardan gelen sesi aynı anda tüketmek ve işlemek zihinsel olarak yorucu olabilir ve kullanıcı etkileşimini azaltabilir.
Notre Dame Üniversitesi, California San Diego Üniversitesi, Dallas Teksas Üniversitesi ve Wisconsin-Madison Üniversitesi’nden araştırmacılar, bu zorlukları ele alan yeni bir yapay zeka destekli sistem geliştirdiler.
Erişilebilirlik için Etkileşimli İçerik Sağlama Sistemi (SPICA) adı verilen araç, kullanıcıların katmanlı AD’ler ve mekansal ses efektleri aracılığıyla video içeriklerini etkileşimli olarak keşfetmelerini sağlıyor.
Makine öğrenimi işlem hattı, anahtar kareleri belirlemek için sahne analiziyle başlar, ardından her karedeki önemli nesneleri belirlemek için nesne algılama ve segmentasyon gelir. Daha sonra bu nesneler, tutarlılık ve kapsamlılık için rafine edilmiş bir görüntü altyazı modeli ve GPT-4 kullanılarak ayrıntılı olarak tanımlanır.
Boru hattı ayrıca, 3B konumlarını kullanarak her nesne için uzamsal ses efektlerini alır ve uzamsal farkındalığı artırır. Derinlik tahmini, nesnelerin 3B konumlandırmasını daha da iyileştirir ve ön uç arayüzü, kullanıcıların bu çerçeveleri ve nesneleri dokunmatik veya klavye girişlerini kullanarak etkileşimli bir şekilde keşfetmesini sağlar ve yüksek kontrastlı kaplamalar, kalan görüşe sahip olanlara yardımcı olur.
SPICA, bir NVIDIA RTX A6000 GPUNVIDIA Akademik Donanım Hibe Programı’ndan yararlanarak takıma ödül verildi.
Ning, “NVIDIA teknolojisi, sistemin arkasındaki önemli bir bileşen olup, bu hesaplama modellerini çalıştırmak için istikrarlı ve verimli bir platform sunarak, sistemin uygulanması için gereken zaman ve çabayı önemli ölçüde azaltıyor” dedi.
Bilgisayarlı görüş ve doğal dil işleme tekniklerinin bu gelişmiş entegrasyonu, BLV kullanıcılarının video içeriğiyle daha ayrıntılı, esnek ve sürükleyici bir şekilde etkileşim kurmasını sağlar. Çerçeve başına önceden tanımlanmış AD’ler verilmesi yerine, kullanıcılar bir dokunmatik arayüz veya ekran okuyucu aracılığıyla çerçeve içindeki tek tek nesneleri aktif olarak keşfederler.
SPICA ayrıca mevcut AD’leri, görsel-işitsel makine öğrenmesi kanalıyla üretilen etkileşimli öğeler, mekansal ses efektleri ve ayrıntılı nesne açıklamalarıyla zenginleştirir.
SPICA’nın geliştirilmesi sırasında araştırmacılar, sistemi kullanıcı ihtiyaçları ve tercihleriyle uyumlu hale getirmek için BLV video tüketim çalışmalarını kullandılar. Ekip, kullanılabilirliği ve yararlılığı değerlendirmek için 14 BLV katılımcısıyla bir kullanıcı çalışması yürüttü. Katılımcılar, sistemin kullanımının kolay olduğunu ve video içeriğine ilişkin anlayışlarını ve daldırmalarını iyileştiren ek bilgiler sağlamada etkili olduğunu buldular.
Araştırmacılara göre, kullanıcı çalışmasından elde edilen içgörüler, doğru ve bağlamsal olarak zengin oluşturulmuş açıklamalar için AI modellerini iyileştirmek de dahil olmak üzere daha fazla araştırma yapma potansiyelini vurgulamaktadır. Ek olarak, BLV kullanıcıları için video tüketimini artırmak için dokunsal geri bildirim ve diğer duyusal kanalları kullanma potansiyeli bulunmaktadır.
Ekip, büyük üretken modellerdeki son gelişmelerle birlikte potansiyel görerek, BLV bireylerinin günlük yaşamlarındaki fiziksel görevlerinde yardımcı olmak için yapay zekayı kullanarak gelecekte araştırmalar yapmayı planlıyor.
Daha fazla bilgi edinin BAŞAK.
Oku araştırma kağıt.
The İyilik İçin Yapay Zeka blog dizisi, AI’nın acil küresel zorlukları çözmedeki dönüştürücü gücünü sergiliyor. Araştırmacıların ve geliştiricilerin çığır açan teknolojiden nasıl yararlandıklarını ve AI kullanarak insanlar ve gezegen için olumlu bir değişim yaratmak amacıyla yenilikçi projeler nasıl başlattıklarını öğrenin.
Bu içerik kısmen üretken yapay zeka ve LLM’lerin yardımıyla hazırlanmıştır. Araştırmacılar tarafından dikkatli bir incelemeden geçirilmiş ve hassasiyet, doğruluk ve kaliteyi garantilemek için NVIDIA Teknik Blog ekibi tarafından düzenlenmiştir. Alıntılar orijinaldir.