Vedci z Massachussettského technologického inštitútu (MIT) prišli na to, ako až 30-násobne zrýchliť generatívne nástroje využívajúce umelú inteligenciu (AI).
Vedci vytvorili techniku označovanú ako destilácia distribučného spájania (distribution matching distillation – DMD), ktorý nástrojmi ako DALL·E 3, Midjourney a Stable Diffusion umožňuje kondenzovať celý proces so 100 krokmi do jediného kroku. Proces sa tak výrazne urýchli bez toho, aby došlo k zníženiu kvality výsledných obrázkov. Vedci podrobný popis svojho postupu uverejnili v decembri v elektronickom archíve preprintov vedeckých prác arXiv.
"Toto zlepšenie nielen výrazne znižuje výpočtový čas, no zároveň zachováva a možno dokonca zvyšuje kvalitu generovaného vizuálneho obsahu," uvádza vo vyhlásení jeden z hlavných autorov štúdie Tianwei Yin, ktorý na MIT pôsobí ako doktorand v odbore elektroinžinierstva a informačnej vedy.
Difúzne modely tvoria obrázky postupne viacerými krokmi. AI na tréning využije obrázky s deskriptívnymi popismi a inými metaúdajmi, ktoré jej pomáhajú lepšie pochopiť kontext a význam ukrytý za obrázkami, aby dokázala presne reagovať na zadávané príkazy.
Praktická stránka fungovania týchto modelov vyzerá tak, že vezmú náhodný obrázok a zakódujú ho poľom s náhodným šumom, čím ho zničia, vysvetľuje v príspevku na blogu odborník na fungovanie AI Jay Alammar. Tento proces sa nazýva "progresívna difúzia" a je kľúčovým krokom v procese, ktorým sa AI učí. Následne prebieha až 100 krokov čistenia šumu – tento proces sa označuje ako "spätná difúzia" a vzniká ním obrázok vytvorený na základe textového príkazu.
Vedci využili DMD pri spätnej difúzii a všetky kroky, ktoré v rámci nej prebiehali, spojili do jedného, čím sa im podarilo urýchliť vytvorenie obrázku. Pri jednom z pokusov použili nástroj Stable Diffusion vo verzii 1.5 a dosiahli skrátenie zobrazenia z 2590 milisekúnd (2,59 sekundy) na 90 milisekúnd, teda takmer 30-násobne menej.
DMD tvoria dve zložky, ktoré spoločne znižujú počet iterácií potrebných na vytvorenie použiteľného obrázku. Prvá zložka zvaná "regresná strata" (regression loss) organizuje počas tréningu obrázky na základe podobnosti, čo AI umožňuje rýchlejšie učenie. Druhá zložka sa nazýva strata distribučného priraďovania (distribution matching loss), ktorá zaznamenáva pravdepodobnosť zobrazenia, napríklad nahryznutého jablka, a porovnáva ju s pravdepodobnosťou toho, ako často na takéto jablko možno naraziť v skutočnom svete. Obe zložky spoločne minimalizujú bizarnosť výsledkov, ktoré AI vygeneruje.
"Zníženie počtu iterácií bolo svätým grálom difúznych modelov od ich úplného počiatku. Sme nadšení tým, že sa nám konečne podarila generácia obrázku v jednom kroku, pretože to dramaticky zníži nároky na výpočtový výkon a celý proces sa výrazne urýchli," uvádza Fredo Durand, ďalší hlavný autor autor štúdie, ktorý na MIT pôsobí ako profesor v odbore elektroinžinierstva a informačnej vedy.
Nový prístup dramaticky znižuje výpočtový výkon potrebný na generáciu obrázkov, pretože obrázok vznikne už po jednom kroku, nie po stovke krokov postupného vylepšovania ako pri pôvodných modeloch, dodáva Yin. Tento model fungovania dokáže podľa vedcov priniesť výhody v odvetviach ťažiacich z bleskurýchleho a efektívneho vykresľovania, ktoré dokáže výrazne urýchliť tvorbu obsahu.