Foto: NVIDIA Blog
NVIDIA Research na ovogodišnjoj konferenciji Computer Vision and Pattern Recognition (CVPR) predstavlja tri rada koji se bave različitim izazovima u području fizičke umjetne inteligencije. Riječ je o istraživanjima koja se, prema opisu tvrtke, oslanjaju na treniranje u velikom opsegu kako bi sustavi bolje generalizirali na različite primjene. Uz radove, NVIDIA je na CVPR-u predstavila i nove sposobnosti fizičkog AI agenta namijenjene ubrzanju razvoja autonomnih vozila, robota i sustava računalnog vida.
Prvi rad, GraspGen-X, NVIDIA opisuje kao prvi temeljni model za hvatanje koji bi trebao ukloniti usko grlo u robotici. Model je zamišljen tako da, na temelju geometrije novog hvatača i nepoznatog objekta koji prije nije vidio, generira pouzdane prijedloge položaja hvata. Kako bi do toga došli, istraživači su izradili skup podataka koji je, kako navodi NVIDIA, nemoguće prikupiti u stvarnom svijetu u velikom opsegu: stvorili su 2 milijarde simuliranih hvatanja kroz tisuće oblika objekata i sintetičkih konfiguracija hvatača. Tvrtka navodi i da se GraspGen-X može koristiti s curoboV2, novom CUDA-ubrzanom bibliotekom za planiranje kretanja, kako bi se ti položaji hvata ostvarili u nepoznatim okruženjima.
Na toj osnovi NVIDIA spominje i Grasp-MPC, rad predstavljen na ICRA 2026, koji ide korak dalje u lancu: od generiranja hvata prema izvršavanju hvata u zatvorenoj petlji. U drugom dijelu objave fokus je na autonomnoj vožnji i sustavu LCDrive. NVIDIA kaže da taj pristup zamjenjuje riječi komprimiranim latentnim prikazima, pa sustav umjesto tekstualnih koraka zaključivanja radi u kompaktnom latentnom prostoru koji zadržava prostorne informacije. Arhitektura izmjenjuje dva tipa razmišljanja: predlaganje mogućih akcija i predviđanje kako će svijet izgledati ako se te akcije poduzmu. Prema NVIDIA-i, rezultat je usporediva kvaliteta izlazne putanje s tekstualnim zaključivanjem, uz otprilike upola manje tokena.
Model LCDrive izgrađen je na NVIDIA Alpamayo i treniran je uz nadzor izveden iz postojećih podataka o vozilu. Treći dio istraživačkog paketa odnosi se na virtualne agente. Isaac GR00T, NVIDIA-in otvoreni temeljni model za humanoidne robote, polazi od ideje da model izložen dovoljno raznolikim situacijama bolje generalizira na one koje nije vidio. NitroGen tu ideju proširuje na virtualna okruženja i koristi GR00T arhitekturu za treniranje temeljnog modela za utjelovljene agente kroz niz virtualnih svjetova. NVIDIA pritom ističe da videoigre nude strukturirana i raznolika okruženja s definiranim ciljevima i jasno određenim uvjetima uspjeha, pa ih NitroGen tretira kao mjesto za treniranje agenata koji će se kasnije razvijati za nove stvarne ili simulirane situacije.