Videolar için yeni AI tabanlı ses oluşturma aracı

Google'ın DeepMind yapay zeka laboratuvarı, videolarla eşleştirilebilecek ses efektleri ve diyaloglar üretebilen yeni bir teknoloji üzerinde çalışıyor. DeepMind ekibi, video ile ses (V2A) teknolojisi projesi hakkında kaydettiği ilerlemeyi paylaştı. Bu teknoloji, Google Veo ve OpenAI'nin Sora gibi diğer video oluşturma araçlarıyla uyumlu çalışabiliyor. Blog yazısında, sistemin ham pikselleri anlayabildiği ve bu bilgileri metin girdileriyle birleştirerek ekrandaki olaylara uygun ses efektleri oluşturabildiği belirtiliyor. Bu araç, sessiz filmler ve diğer sesi olmayan videolar için de ses efektleri ve müzik oluşturmak için kullanılabiliyor. DeepMind araştırmacıları, teknolojiyi videolar, sesler ve AI tarafından oluşturulmuş detaylı ses tanımlamaları ve diyalog transkriptleri ile eğitti. Böylece teknoloji, belirli sesleri görsel sahnelerle ilişkilendirmeyi öğrendi. TechCrunch'a göre, DeepMind ekibi, ses efektleri üretebilen bir AI aracını piyasaya süren ilk ekip değil; yakın zamanda ElevenLabs de benzer bir araç çıkarmıştı. Ancak DeepMind ekibi, mevcut video-ses çözümlerinden farklı olarak, sistemlerinin ham pikselleri anlayabildiğini ve metin girdisinin isteğe bağlı olduğunu vurguluyor. Metin girişi isteğe bağlı olmasına rağmen, nihai ürünü şekillendirmek ve gerçekçi hale getirmek için kullanılabiliyor. Olumlu girdiler girerek istediğiniz seslerin oluşturulmasını sağlayabilir veya olumsuz girdiler kullanarak istemediğiniz seslerden kaçınabilirsiniz. Örnek olarak, ekip "Sinema, gerilim, korku filmi, müzik, gerginlik, beton üzerinde adımlar" gibi bir metin girdisi kullandı. Araştırmacılar, V2A teknolojisinin mevcut sınırlamalarını gidermeye çalıştıklarını kabul ediyorlar. Kaynak videodaki bozulmalar nedeniyle çıkış ses kalitesinde düşüş yaşanabileceğini belirtiyorlar. Ayrıca, üretilen diyalogların dudak senkronizasyonunu geliştirmek için çalışıyorlar. Teknolojiyi piyasaya sürmeden önce "yoğun güvenlik değerlendirmeleri ve testler" yapacaklarını da belirtiyorlar. Bu yeni teknoloji, video içerik üreticileri için büyük bir adım olabilir. Görsel-işitsel deneyimleri zenginleştirmek ve ses tasarımını daha erişilebilir hale getirmek için önemli bir potansiyele sahip. DeepMind'in bu çalışması, yapay zekanın yaratıcı endüstrilerdeki rolünü genişletme yolunda bir başka önemli gelişmeyi temsil ediyor.

Videolar için yeni AI tabanlı ses oluşturma aracı

OpenAI iki yeni yapay zeka modelini tanıttı

Samsung Galaxy S25 hangi işlemciyle gelecek?

AirPods 4 Türkiye fiyatı belli oldu

iPhone 14 ve iPhone 15 fiyatları serbest düşüşte, fiyatlar dibi gördü

Türkiye'de satış rekorları kıran iPhone 13 satıştan kaldırıldı

Sahte iPhone 16 teklifleri büyük tehdit yaratıyor, sakın bunlara kanmayın

WhatsApp Tarafında Beklenenler Gerçekleşiyor

iPhone 16 serisinin Türkiye fiyatları açıklandı, hani zam yoktu?

Apple Intelligence yapay zeka özellikleri neler vaat ediyor, hangi modellere geliyor?

Apple Watch Ultra 2 yenilenen özellikleri ve yeni renk seçenği ile tanıtıldı