2024.06.18.TomiSpark

Videókhoz generál hangsávokat a Google mesterséges intelligenciája

Komolyan beleállt a Google az MI-fejlesztésekbe, ezeket pedig igyekeznek minél jobban alkalmazásukba állítani szolgáltatásaiknál. Az Engadget cikke szerint Google DeepMind mesterséges intelligencia laboratóriuma olyan új technológián dolgozik, ami képes videókhoz hangsávokat, sőt párbeszédeket is generálni.

Nemrégiben egy videót osztott meg a szóban forgó projektjéről a Google, mely a video-to-audio (V2A) névre hallgat. A cég igyekezett rávilágítani, hogy a rendszer képes megérteni a nyers pixeleket, és ezt az információt szöveges felszólításokkal kombinálva hanghatásokat hoz létre mindahhoz, ami a felvételeken történik.

Fotó: Google DeepMind

Fontos, hogy ez a technológia arra is használható, hogy hagyományos felvételekhez, például némafilmekhez és bármilyen más hang nélküli videóhoz hangsávot készítsen. A DeepMind kutatói videókon, hangfelvételeken és mesterséges intelligencia által generált megjegyzéseken tesztelte eddig fejlesztését, ezek pedig a hangok részletes leírását és a párbeszédek átiratát tartalmazták.

Elmondásuk szerint ezáltal a technológia megtanult konkrét hangokat vizuális jelenetekhez társítani. A Google egyébként nem úttörő ezen a téren, mivel az ElevenLabs is kiadott egy ehhez hasonló fejlesztést nemrégiben. A V2A a cikk tartalma szerint főleg a végtermék formálására és finomítására használható, hogy az minél pontosabb és valósághűbb legyen.

Az alábbi mintában a csapat például a következő instrukciókat adta meg: Mozi, thriller, horrorfilm, zene, feszültség, hangulat, lépések a betonon.

Megosztás
Beszéjünk róla!
Ahhoz, hogy kommentelni tudj be kell jelentkezned Facebookon!

Bejegyzések, amelyek érdeklehetnek.

crosschevron-down linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram