Komolyan beleállt a Google az MI-fejlesztésekbe, ezeket pedig igyekeznek minél jobban alkalmazásukba állítani szolgáltatásaiknál. Az Engadget cikke szerint Google DeepMind mesterséges intelligencia laboratóriuma olyan új technológián dolgozik, ami képes videókhoz hangsávokat, sőt párbeszédeket is generálni.
Nemrégiben egy videót osztott meg a szóban forgó projektjéről a Google, mely a video-to-audio (V2A) névre hallgat. A cég igyekezett rávilágítani, hogy a rendszer képes megérteni a nyers pixeleket, és ezt az információt szöveges felszólításokkal kombinálva hanghatásokat hoz létre mindahhoz, ami a felvételeken történik.
Fontos, hogy ez a technológia arra is használható, hogy hagyományos felvételekhez, például némafilmekhez és bármilyen más hang nélküli videóhoz hangsávot készítsen. A DeepMind kutatói videókon, hangfelvételeken és mesterséges intelligencia által generált megjegyzéseken tesztelte eddig fejlesztését, ezek pedig a hangok részletes leírását és a párbeszédek átiratát tartalmazták.
Elmondásuk szerint ezáltal a technológia megtanult konkrét hangokat vizuális jelenetekhez társítani. A Google egyébként nem úttörő ezen a téren, mivel az ElevenLabs is kiadott egy ehhez hasonló fejlesztést nemrégiben. A V2A a cikk tartalma szerint főleg a végtermék formálására és finomítására használható, hogy az minél pontosabb és valósághűbb legyen.
Az alábbi mintában a csapat például a következő instrukciókat adta meg: Mozi, thriller, horrorfilm, zene, feszültség, hangulat, lépések a betonon.