Foto: NVIDIA Blog
NVIDIA je na konferenciji CVPR predstavila nove agentne vještine za fizičku umjetnu inteligenciju koje bi istraživačima i developerima trebale pomoći ubrzati razvoj autonomnih vozila, robota i sustava za vizijsku umjetnu inteligenciju. Riječ je o skupu alata osmišljenom za radne tokove koji obuhvaćaju rekonstrukciju stvarnih scena, generiranje rubnih scenarija, treniranje politika, evaluaciju ponašanja i brzo ponavljanje cijelog procesa.
Tvrtka navodi da je jedan od ključnih problema u istraživanju fizičke umjetne inteligencije to što su ti koraci često raspršeni među zasebnim alatima. U istom je kontekstu ranije ovaj tjedan najavljen i NVIDIA Cosmos 3, otvoreni model za fizičku umjetnu inteligenciju i prvi puni omnimodel koji objedinjuje vizijsko rezoniranje, generiranje svijeta i generiranje akcija. NVIDIA kaže da se fizičke AI vještine nadovezuju na Cosmos, NVIDIA biblioteke i simulacijske okvire kako bi se ubrzali end-to-end radni tokovi.
Za istraživanje autonomnih vozila NVIDIA izdvaja problem takozvanog “long taila” vožnje, odnosno rijetkih interakcija, neuobičajene geometrije ceste, promjena osvjetljenja i rubnih ponašanja koje je teško višekratno prikupljati, a važne su za treniranje i validaciju. U tom dijelu nove vještine omogućuju AI agentima automatizaciju rekonstrukcije scena iz podataka flote vozila i generiranje sintetičkih scenarija. Neural Reconstruction vještine mogu pretvarati podatke snimljene iz vozila u uredive 3D scene za simulaciju i generiranje sintetičkih podataka, dok Omniverse NuRec, InstantNuRec, Harmonizer i HiGS accelerated renderer služe za ubrzanje rekonstrukcije, bolji realizam scena i stvaranje novih pogleda.
NVIDIA je predstavila i AlpaGym, okvir otvorenog koda za zatvorenu petlju učenja potkrepljenjem, koji povezuje policy rolloutove i simulaciju visoke vjernosti s agentnim vještinama te se može skalirati preko tisuća GPU-ova. Uz to, OmniDreams, generativni svjetski model uvjetovan akcijama, dodaje fotorealistično renderiranje u simulacijsku petlju i generira kadar kamere koji u stvarnom vremenu reagira na akcije politike. Tvrtka navodi i Alpamayo 2 Super, otvoreni model od 32 milijarde parametara za rezoniranje, viziju, jezik i akciju, koji razmišlja, planira i djeluje kroz cijeli driving stack za razvoj i implementaciju razine 4.
Za vizijsku umjetnu inteligenciju NVIDIA kaže da je usko grlo stvaranje dovoljno kontroliranih primjera za proučavanje ponašanja modela kada se mijenjaju vizualni uvjeti, stanja objekata ili vremenski događaji. Nove Metropolis vještine pomažu generirati sintetičke vizualne scenarije, uključujući anomalije, proširiti podatke i podržati pseudo-označavanje. Defect Image Generation vještina može stvarati primjere različitih defekata na različitim površinama koristeći stvarne slike, a tijek rada obuhvaća Isaac Sim za simulaciju, Cosmos 3 i NVIDIA OSMO za orkestraciju te rezoniranje vizualnog jezika. NVIDIA je izdvojila i VSS Blueprint za video pretraživanje i sažimanje, zajedno s TAO i Video Augmentation alatima, koji služe za izdvajanje uvida iz velikih količina videozapisa, fino podešavanje modela i automatizaciju ciklusa izgradnje i evaluacije. To, prema opisu tvrtke, pomaže u razvoju rezonirajućih vizijskih AI agenata koji mogu prepoznavati događaje, zaključivati o složenim scenama, sažimati aktivnost i slati upozorenja.