Voicebox, sesle ilgili akla gelebilecek her şeyi yapabiliyor
Facebook ve Instagram'ın çatı şirketi Meta, yeni üretken yapay zeka modelini duyurdu. Voicebox, özel olarak eğitilmediği halde ses düzenleme, örnekleme ve stil oluşturma gibi konuşma oluşturma görevlerini yerine getirme becerisiyle içerik oluşturuculara yardımcı olmak için tasarlandı.
Meta, bu yeni yapay zeka modelinin dünya genelinde birçok kişiye fayda sağlayacağını söylüyor. Örneğin, görme engelli insanların arkadaşlarından yazılı mesajları kendi seslerinde duymalarına yardımcı olmak gibi birçok örnekleme yapıyor. Ayrıca, insanların kendi sesleriyle yabancı diller konuşabilmesini de sağlayabiliyor.
Yapay zeka modeli, yüksek kaliteli ses klipleri üretebiliyor ve önceden kaydedilmiş sesleri düzenleyerek araba kornaları gibi istenmeyen gürültüleri ortadan kaldırabilecek özellikte. Bunun yanı sıra, içeriği ve stili korurken altı dilde ses üretebiliyor. Modelin gelecekte görsel asistanlara veya metaverse'deki oyunlarda, gerçek oyuncu olmayan karakterlere doğal sesler vermesi de bekleniyor.
Meta, Voicebox'ı piyasadaki diğer ses yapay zeka modelleriyle karşılaştırdı ve özellikle Vall-E ve YourTTS'yi rakip olarak gösterdi. Kelime hata oranları ve stil benzerliği karşılaştırıldığında Voicebox'ın daha gelişmiş olduğu ve her iki modelden de daha iyi performans sergilediği görülüyor.
Voicebox, Meta'nın en yeni otoregresif olmayan üretken modeli olan ve metin ile konuşma arasında son derece deterministik olmayan bir eşleme yapabilen bir Flow Matching modeli üzerine inşa edildi. Voicebox şimdiye kadar 50.000 saatten fazla kaydedilmiş konuşma ve İngilizce, Fransızca, İspanyolca, Almanca, Lehçe ve Portekizce dillerinde kamuya açık sesli kitaplardan alınan konuşma metinleri kullanılarak eğitildi.
Meta, yapay zeka programını herkesin kullanımına sunmayacağı gibi, kaynak kodunu da paylaşmayacak.