Az MI-alapú szoftverekből egyre több van, főként a képek és videók generálására vagy szerkesztésére. Az almás vállalat MLLM-Guided Image Editing, rövidítve MGIE nevű szolgáltatása viszont ténylegesen a szerkesztésre való, nem fog a semmiből szöveges parancsokra képeket készíteni nekünk. Ezt bárki tesztelheti, mivel fent van a GitHubon és hozzáférhető a Hugging Face Spaces keretein belül.
Ha röviden akarjuk elmondani a lényeget, akkor az MGIE arra jó, hogy a felhasználók egyszerű nyelven leírják, mit szeretnének megváltoztatni egy fényképen anélkül, hogy valaha is hozzáérnének egy képszerkesztő szoftverhez.
A The Verge írása szerint erre jó az Apple és a Santa Barbara-i Kaliforniai Egyetemmel közösen kidolgozott program, amivel gyorsan és egyszerűen szerkeszthetünk képet, miközben akár összetettebb képszerkesztési feladatokra is alkalmazhatjuk. Akár a fényképen lévő konkrét objektumok módosítására is megkérhetjük a szoftvert, hogy azok más formát kapjanak vagy világosabbak legyenek. Az MGIE a multimodális nyelvi modellek két különböző felhasználási módját ötvözi. Először is megtanulja, hogyan kell értelmezni a felhasználói utasításokat, majd kapunk tőle egy elképzelést, amiben azt is leírja, mit dolgozott át a felvételen.
Ez azért jó, mert mi is pontosabb parancsokat adhatunk ki a folytatásban, ami jobb munkához és persze jobb eredményekhez vezethet. „A rövid, de kétértelmű útmutatás helyett az MGIE egyértelmű vizuálisan is tudatos szándékot vezet le, ezzel pedig értelmes képszerkesztéshez vezet. Kiterjedt vizsgálatokat végzünk különböző szerkesztési szempontokból és bizonyítjuk, hogy a hozzánk tartozó MGIE javítja a teljesítményt, miközben fenntartja a versenyképes hatékonyságot. Úgy véljük továbbá, hogy az MLLM-vezérelt keretrendszer hozzájárulhat a jövőbeli látás- és nyelvi kutatásokhoz is” – írták a tanulmányukban.
Ezt a rendszert pedig a GitHubon és a Hugging Face Spaces segítségével is elérhetjük, így gyakorlatilag mindenki kipróbálhatja kedve szerint.