Nvidia ingin memberi tahu Anda bahwa keinginan audio teraneh Anda sekarang menjadi mungkin. Proyek AI terbaru perusahaan, bersama dengan AI NPC dan chatbot dalam game, adalah AI teks-ke-audio yang disebut Fugatto. Seperti model lainnya, audio Nvidia AI dapat membuat trek dari deskripsi sederhana, namun program ini juga dapat menghasilkan “suara yang belum pernah terdengar sebelumnya,” seperti “lolongan saksofon”, apa pun artinya.
Dalam sebuah postingan blog, Nvidia mengklaim model AI “Pisau tentara Swiss untuk suara” dapat memodifikasi suara yang ada atau membuat keseluruhan soundscapes begitu saja. Fugatto sebenarnya adalah akronim dari “Foundation Generative Audio Transformer Opus 1” yang panjangnya menjengkelkan. Ia mampu memproses suara, musik, dan kebisingan latar belakang dan menghasilkan semuanya menjadi satu trek audio. Itu juga dapat memodifikasi sumber suara yang ada.
Konyol jika menyebut sesuatu sebagai “suara yang belum pernah terdengar sebelumnya”, terutama jika suara tersebut berasal dari AI. Apa pun keluarannya, audio AI hanyalah algoritme AI yang menggunakan sumber yang ada dalam data pelatihannya untuk memberikan hasil yang mendekati perintah. Nvidia mengatakan modelnya unik karena dapat menggabungkan instruksi yang terpisah selama pelatihan dan “menciptakan soundscapes yang belum pernah terlihat sebelumnya.” Artinya, ini dapat melapisi dua efek audio berbeda untuk menciptakan sesuatu yang baru. Dalam sebuah video, Nvidia menunjukkan bagaimana ia bisa menghasilkan suara kereta api yang berubah menjadi musik orkestra. Hal ini juga dapat menimbulkan suara badai hujan yang memudar di kejauhan.
Ini adalah kemampuan yang belum pernah kita lihat sebelumnya. Selain perintah untuk mendemonstrasikan “musik elektronik dengan anjing menggonggong sesuai iramanya,” Nvidia mengatakan alatnya menawarkan “kontrol yang sangat baik” atas lanskap suara yang dibuat. Nvidia mengklaim narator untuk video tersebut adalah versi AI dari CEO Nvidia Jensen Huang, meskipun jika Fugatto menghasilkan suara yang jelas-jelas palsu, model AI tersebut memerlukan lebih banyak perbaikan sebelum ada yang menggunakannya untuk proyek deepfake berikutnya.
Banyak alat audio AI telah mengambil perintah teks dan mengubahnya menjadi trek audio. Adobe telah memberikan alat Kontrol Project MusicGenAI miliknya kepada musisi yang tidak bermoral. Perusahaan teknologi besar seperti Meta telah mempromosikan model audio mereka ke industri film. Bulan lalu, Meta meluncurkan Movie Gen, yang dapat menghasilkan soundscapes untuk film yang dihasilkan AI.
Nvidia mengutip peneliti AI Rohana Badlani, yang mengatakan bahwa model tersebut “membuat saya merasa seperti seorang seniman,” meskipun, tentu saja, AI tersebut mengambil data musik dan audio yang ada senilai ribuan gigabyte. Nvidia tidak membagikan rincian pasti tentang kumpulan datanya dan hanya mengatakan bahwa kumpulan data tersebut berisi “jutaan sampel audio yang digunakan untuk pelatihan”. Versi lengkap Fugatto adalah model dengan 2,5 miliar parameter yang dilatih menggunakan GPU AI H100 yang terkenal milik Nvidia.
Ini adalah berita buruk bagi seniman foley, yang telah menjadikan pemalsuan audio semacam itu menjadi bentuk seni yang terkenal. Perusahaan tersebut mengatakan Fugatto dapat menjadi alat yang berguna bagi biro iklan, pengembang video game, atau musisi yang ingin mengambil sampel perubahan pada karya mereka tanpa melakukan banyak pekerjaan ekstra. Namun, sisi lain dari koin ini adalah semua orang yang akan menggunakannya untuk membuat “aset baru,” AKA berpotensi menambahkan lebih banyak limbah AI ke dalam tumpukan yang terus bertambah.
Fugatto berpotensi memiliki kegunaan lebih dari sekedar memberikan alasan bagi perusahaan produksi film untuk menggantikan insinyur audio manusia. Nvidia mengklaim bisa menghapus atau menambahkan instrumen pada musik yang ada. Itu juga dapat mengisolasi dan memodifikasi kebisingan tertentu dari sumber yang ada. Mungkin Anda bisa menghasilkan ritme drum kosong untuk skor synthesizer Anda yang membosankan, tetapi keseluruhan soundtrack yang dihasilkan hanya dengan AI bukanlah hal yang dibayar kebanyakan orang saat membeli tiket film.