Foto: Cloudflare Blog
Cloudflare je objavio da se ključni članovi tima Ensemble AI pridružuju tvrtki kako bi ubrzali rad na AI infrastrukturi i olakšali programerima pokretanje snažnih AI modela učinkovito u velikoj skali. Objavu je Cloudflare datirao na 15. lipnja 2026., a u središtu promjene je jačanje razvoja alata i infrastrukture za posluživanje modela umjetne inteligencije.
Ensemble AI, osnovan 2023. u San Franciscu, posljednjih se godina fokusirao na jedan od ključnih problema u AI području: kako velike modele učiniti bržima, manjima i isplativijima za posluživanje bez gubitka kvalitete. Tim je razvio pristupe kompresiji modela i učinkovitom izvođenju inferencije, a cilj je smanjiti memorijsko, računalno i implementacijsko opterećenje velikih jezičnih modela i multimodalnih arhitektura.
Cloudflare navodi da je trošak inferencije jedan od najvećih izazova pri skaliranju AI aplikacija. Tvrtka ističe da modeli postaju veći, radna opterećenja dinamičnija, a korisnici sve češće očekuju da je AI dostupan globalno, brzo, pouzdano i pristupačno. U tom kontekstu Cloudflare ocjenjuje da dolazak tima Ensemble AI jača njegovu sposobnost da tu razinu posluživanja učini mogućom.
U objavi se izdvaja i NdLinear, koji je opisan kao zamjena koja se može umetnuti umjesto standardnih linearnih slojeva u transformer modelima. Radi izravno na višedimenzionalnim aktivacijama, umjesto da strukturu najprije pretvara u ravni prikaz, pa može zadržati značenjske osi poput glava, kanala ili prostornih dimenzija, uz smanjenje broja parametara i računalnog opterećenja. Ensemble AI je razvio i NdLinear-LoRA, pristup prilagodbi zamišljen tako da smanji broj trenabilnih parametara potrebnih za fino podešavanje velikih modela.
Cloudflare dodaje da će se tim usredotočiti na poboljšanje ekonomike posluživanja velikih jezičnih modela i drugih naprednih AI arhitektura, s naglaskom na učinkovitost modela, iskorištenost GPU-a i skalabilnu implementaciju. To se naslanja na postojeći rad Cloudflarea na poboljšanju učinkovitosti modela, uključujući inference engine Infire, tehnike kompresije tenzora poput Unweighta te platformu za pokretanje ekstra velikih jezičnih modela.
Cloudflare Workers AI razvija serverless GPU inferenciju na globalnoj mreži tvrtke, a Cloudflare navodi da je za razvoj AI-native aplikacija sposobnost učinkovitog posluživanja modela ključan dio platforme. Tvrtka također opisuje svoju globalnu mrežu, developersku platformu i serverless arhitekturu kao temelj za približavanje AI-ja mjestu na kojem aplikacije već rade, dok će Workers AI Machine Learning Engineering tim raditi na sloju učinkovitosti ispod tog iskustva.