Foto: Tom's Hardware
Istraživačka skupina u kojoj je i Huawei Technologies kaže da je dovršila full-parameter post-training DeepSeekova modela V4-Pro s 1,6 bilijuna parametara. Prema navodima gradskih vlasti Shenzhena, koje prenosi South China Morning Post, posao je obavljen na klasteru od najmanje 1.000 Huaweijevih čipova Ascend 910C.
Ta tvrdnja dolazi u trenutku kada se kineski akceleratori sve češće uspoređuju s Nvidijinim hardverom u dijelu AI lanca u kojem je kineskim tvrtkama bilo najteže prijeći na domaće silicijske platforme pod američkim izvoznim ograničenjima. U projektu su, uz Huawei, sudjelovali Shenzhen Loop Area Institute, kampus Harbin Institute of Technologyja u Shenzhenu i Shenzhen Research Institute of Big Data.
Ascend 910C Huawei opisuje kao svoj aktualni vodeći AI akcelerator. Riječ je o dual-die čipu koji je u ranijem testiranju DeepSeeka navodno ostvario oko 60 posto inferencijske izvedbe Nvidijina H100. U toj usporedbi inference znači fazu u kojoj gotov model odgovara na upite, dok se pri treningu težine modela ponovno izračunavaju na velikim skupovima podataka. Tim navodi da je izveo full-parameter post-training, što znači da su ažurirane sve težine, a ne samo tanki adapterski sloj na vrhu modela.
Post-training je faza koja slijedi nakon daleko veće pre-trening faze. Pre-trening gradi temeljne sposobnosti modela prolaskom kroz golema tekstualna korpusa, a dokumentacija DeepSeeka navodi da je pre-trening korpus V4-Proa sadržavao više od 32 bilijuna tokena. Post-training potom oblikuje ponašanje kroz praćenje uputa, sigurnosno usklađivanje i podatke za određene zadatke.
Dovršetak te faze na Ascend siliciju predstavlja rezultat za tu platformu, ali ne pokazuje da isti čipovi mogu pre-trenirati frontier model od nule, što je teži i skuplji zadatak. U kolovozu je, prema ranijim navodima, DeepSeek navodno nije uspio dovršiti nijedan uspješan trening za model R2 na Ascend čipovima ni uz prisutnost Huaweijevih inženjera, uz obrazloženje da su problem bili nestabilne performanse, spore međučipne veze i nedostaci u Huaweijevu softverskom sklopu CANN, zamjeni za Nvidijinu CUDA-u.
Za tvrdnju koja dolazi iz Shenzhena nema objavljenih benchmarka, nema podatka o trajanju izvođenja, usporedbi s istim zadatkom na Nvidijinu hardveru ni o učinkovitosti korištenja klastera s 1.000 čipova. DeepSeek zasad nije komentirao navode.