Foto: Bug.hr
Thinking Machines Lab, AI kompanija koju je osnovala bivša tehnička direktorica OpenAI-ja Mira Murati, objavila je istraživački pregled svojih novih interakcijskih modela umjetne inteligencije. Time je prvi put javnosti omogućeno da vidi dio rada startupa koji je do sada bio poznat tek po tome da razvija naprednu umjetnu inteligenciju.
Prema opisu tvrtke, novi modeli nisu zamišljeni po uobičajenom principu izmjene redova, u kojem korisnik postavi upit pa čeka odgovor, nego za rad u stvarnom vremenu. Sustavi su obučeni da istodobno percipiraju audio i vizualne signale te da reagiraju bez uobičajenih pauza koje danas često obilježavaju razgovor s umjetnom inteligencijom.
Srž pristupa je tzv. full-duplex arhitektura, što znači da model može slušati i gledati dok istodobno govori. Umjesto da najprije obradi cijeli korisnički unos pa tek onda generira odgovor, sustav radi u mikro-ciklusima od 200 milisekundi. Kako navodi Thinking Machines, taj pristup modelu pomaže prepoznati upadice, ispravke usred rečenice ili promjene u vizualnom okruženju te na njih reagirati odmah.
Model TML-Interaction-Small, koji služi kao predvodnik ove tehnologije, koristi sustav mješavine stručnjaka (Mixture-of-Experts) s 276 milijardi parametara. Tvrtka ističe i tehničku prednost koju naziva ranom fuzijom bez enkodera, a prema tom opisu model sirove audio i video signale prima izravno u transformer model. U praksi to znači da, prema objavljenom pregledu, sustavu nisu potrebni vanjski alati za prevođenje zvuka ili slike u oblik koji model razumije, čime se smanjuje latencija.
U testiranju je, prema objavljenim rezultatima, taj model postigao latenciju od 0,4 sekunde. To je brže od usporednih sustava koje je Thinking Machines naveo, uključujući Googleov Gemini 3.1 Flash Live s 0,57 sekundi i GPT-realtime-2.0 s 1,18 sekundi. Osim brzine, model prema opisu ima i izravan osjećaj za protok vremena, pa može pratiti trajanje određenih procesa ili podsjetiti korisnika na zadatke bez vanjskih mjerača vremena.
Tvrtka navodi i dvostruku arhitekturu kojom pokušava spojiti brzu interakciju i složenije zaključivanje. Dok interakcijski model održava fluidan razgovor i reagira na trenutne promjene, složenije zadatke poput pretraživanja weba ili naprednog rezoniranja u pozadini preuzima asinkroni pozadinski model. Prema opisu tvrtke, rezultati se zatim integriraju u dijalog čim postanu dostupni, bez prekidanja razgovora.
Thinking Machines navodi i moguće primjene u medicini, proizvodnji i laboratorijskim istraživanjima, gdje bi AI mogao proaktivno reagirati na vizualne podražaje. Kao primjer tvrtka spominje upozoravanje na sigurnosni propust u trenutku kad se on dogodi. Trenutačno su interakcijski modeli dostupni samo ograničenom broju istraživačkih partnera, dok se šira javna objava očekuje krajem ove godine.