NVIDIA Research predstavio nova istraživanja o hvatanju objekata, autonomnoj vožnji i treniranju agenata u velikom opsegu

Foto: NVIDIA Blog

NVIDIA Research na ovogodišnjoj konferenciji Computer Vision and Pattern Recognition (CVPR) predstavlja tri rada koji se bave različitim izazovima u području fizičke umjetne inteligencije. Riječ je o istraživanjima koja se, prema opisu tvrtke, oslanjaju na treniranje u velikom opsegu kako bi sustavi bolje generalizirali na različite primjene. Uz radove, NVIDIA je na CVPR-u predstavila i nove sposobnosti fizičkog AI agenta namijenjene ubrzanju razvoja autonomnih vozila, robota i sustava računalnog vida.

Prvi rad, GraspGen-X, NVIDIA opisuje kao prvi temeljni model za hvatanje koji bi trebao ukloniti usko grlo u robotici. Model je zamišljen tako da, na temelju geometrije novog hvatača i nepoznatog objekta koji prije nije vidio, generira pouzdane prijedloge položaja hvata. Kako bi do toga došli, istraživači su izradili skup podataka koji je, kako navodi NVIDIA, nemoguće prikupiti u stvarnom svijetu u velikom opsegu: stvorili su 2 milijarde simuliranih hvatanja kroz tisuće oblika objekata i sintetičkih konfiguracija hvatača. Tvrtka navodi i da se GraspGen-X može koristiti s curoboV2, novom CUDA-ubrzanom bibliotekom za planiranje kretanja, kako bi se ti položaji hvata ostvarili u nepoznatim okruženjima.

Na toj osnovi NVIDIA spominje i Grasp-MPC, rad predstavljen na ICRA 2026, koji ide korak dalje u lancu: od generiranja hvata prema izvršavanju hvata u zatvorenoj petlji. U drugom dijelu objave fokus je na autonomnoj vožnji i sustavu LCDrive. NVIDIA kaže da taj pristup zamjenjuje riječi komprimiranim latentnim prikazima, pa sustav umjesto tekstualnih koraka zaključivanja radi u kompaktnom latentnom prostoru koji zadržava prostorne informacije. Arhitektura izmjenjuje dva tipa razmišljanja: predlaganje mogućih akcija i predviđanje kako će svijet izgledati ako se te akcije poduzmu. Prema NVIDIA-i, rezultat je usporediva kvaliteta izlazne putanje s tekstualnim zaključivanjem, uz otprilike upola manje tokena.

Model LCDrive izgrađen je na NVIDIA Alpamayo i treniran je uz nadzor izveden iz postojećih podataka o vozilu. Treći dio istraživačkog paketa odnosi se na virtualne agente. Isaac GR00T, NVIDIA-in otvoreni temeljni model za humanoidne robote, polazi od ideje da model izložen dovoljno raznolikim situacijama bolje generalizira na one koje nije vidio. NitroGen tu ideju proširuje na virtualna okruženja i koristi GR00T arhitekturu za treniranje temeljnog modela za utjelovljene agente kroz niz virtualnih svjetova. NVIDIA pritom ističe da videoigre nude strukturirana i raznolika okruženja s definiranim ciljevima i jasno određenim uvjetima uspjeha, pa ih NitroGen tretira kao mjesto za treniranje agenata koji će se kasnije razvijati za nove stvarne ili simulirane situacije.

AI Nvidia Robotika

NVIDIA Research predstavio nova istraživanja o hvatanju objekata, autonomnoj vožnji i treniranju agenata u velikom opsegu

Vezane vijesti