Foto: SiliconANGLE
Kako poduzeća prelaze iz AI eksperimentiranja u produkcijska agentna okruženja, mijenjaju se i pretpostavke o tome gdje i kako treba pokretati opterećenja. U središtu te promjene nalazi se hibridna AI arhitektura, a AMD i Dell tvrde da upravo ona postaje ključna za planiranje enterprise računalstva u eri u kojoj troškovi tokena, podatkovna gravitacija i ograničena gustoća snage u podatkovnim centrima ponovno određuju raspodjelu posla između on-premises sustava, ruba i cloud/API poziva.
Suresh Andani, korporativni potpredsjednik za računalstvo i enterprise AI u AMD-u, rekao je da oko 70 posto podatkovnih centara ima gustoću napajanja od 30 kilovata po racku ili manje, a oko 50 posto ih je ispod otprilike 15 kilovata. U takvom okruženju, prema njegovim riječima, MI350P GPU kartica koja se uklapa u postojeće poslužitelje omogućuje da se u već postojećoj infrastrukturi pokreću modeli za inferenciju s 150 do 170 milijardi parametara, bez nužnih velikih zahvata na infrastrukturi.
Andani i Melissa Crichton, potpredsjednica za serverska i AI rješenja u Dell Technologiesu, razgovarali su s Johnom Furrierom i Daveom Vellantem na Dell Technologies World 2026. Tamo su govorili o hibridnoj AI arhitekturi, lansiranju AMD-ova MI350P i promjenama u odnosu CPU-a i GPU-a u agentnim implementacijama. Dell i AMD su nedavno najavili podršku za MI350P u poslužiteljima Dell PowerEdge, s naglaskom na to da se u postojećim energetskim okvirima mogu pokretati značajnija inferencijska opterećenja.
Crichton je rekla da otprilike 80 posto podataka nastaje na rubu, zbog čega poduzeća ne mogu AI pokretati na jednoj lokaciji. Zato Dell, kako je navela, gradi hibridnu platformu koja može raditi na rubu, u jezgri ili u hyperscaler okruženju, uz sloj orkestracije i apstrakcije koji premješta opterećenja ondje gdje su najprikladnija. U tom okviru, kako je istaknuto u razgovoru, ideja AI factoryja služi kao model za poduzeća koja žele krenuti od manjih sustava i skalirati prema većim modelima.
Posebno je naglašena i promjena omjera CPU-a i GPU-a. Andani je rekao da je agentna AI taj omjer potisnula s 8:1 prema 1:1, a AMD smatra da bi se mogao i potpuno preokrenuti. Obrazloženje je da su planiranje, orkestracija i pozivanje alata u višekoračnim agentnim tokovima serijski zadaci koji bolje odgovaraju CPU arhitekturi nego masovno paralelnoj obradi na GPU-u. Ako se ti zadaci ne rasporede pravilno, kako je rekao, skupi GPU-ovi mogu ostati neiskorišteni, što je, prema njegovoj procjeni, rasipanje novca.
U toj se raspravi hibridna AI arhitektura prikazuje kao odgovor na više ograničenja istodobno: energetska, infrastrukturna i operativna. Umjesto da se sav AI posao centralizira u jednom okruženju, pristup koji opisuju AMD i Dell dijeli opterećenja između poslužitelja u vlastitom okruženju, ruba i cloud servisa, ovisno o vrsti zadatka. To uključuje i odluku kada se isplati pozvati frontier model putem API-ja, a kada je praktičnije zadržati inferenciju lokalno.
AMD je naveo i da je MI350P namijenjen za ugradnju u postojeće servere, što je u razgovoru istaknuto kao važna značajka za organizacije koje ne žele odmah mijenjati cijelu infrastrukturu. Crichton je pri tome naglasila da cilj nije samo povećati performanse, nego stvoriti model koji može započeti s manjim opterećenjima i potom se širiti prema većim modelima, uz zadržavanje kontrole nad raspodjelom posla. Razgovor na Dell Technologies Worldu tako je pokazao kako se rasprava o AI infrastrukturi sve više udaljava od čistog GPU kapaciteta i pomiče prema pitanju gdje pojedini zadaci najviše odgovaraju sustavu u cjelini.