Foto: Own work (CC BY 2.0)
Kineski Nacionalni centar za superračunalstvo u Shenzhenu rasporedio je superračunalo LineShine koje doseže 1,54 exaflopsa BF16 performansi i oslanja se na CPU-only arhitekturu, a ne na uobičajenu kombinaciju procesora i GPU-ova. Prema navodima iz objavljenih tehničkih podataka, riječ je o sustavu razvijenom u okruženju u kojem su kineskom tržištu posljednjih godina otežane nabave AI GPU-ova iz SAD-a, pa se sve češće pojavljuju veliki CPU sustavi za AI i HPC opterećenja.
LineShine je izgrađen oko prilagođenih procesora LX2 temeljenih na Armv9 arhitekturi. Developer LX2 čipa nije javno otkriven, ali Jon Peddie iz Jon Peddie Researcha taj procesor izravno naziva „Huawei LX2”. U isto vrijeme ostavlja se i mogućnost da je riječ o prilagođenom Huawei HPC procesoru, zajedničkom dizajnu NSCC-a i Huaweija ili o zasebnom kineskom razvojnom projektu usmjerenom na superračunalstvo.
Svaki LX2 procesor ima dva compute chipleta i ukupno 304 CPU jezgre raspoređene u osam CPU klastera s po 38 jezgri. Svaka jezgra uključuje Arm SVE i SME jedinice za vektorske i matrrične operacije koje se koriste u AI treniranju i znanstvenom računanju te podržavaju FP64, FP32, BF16, FP16 i INT8 formate. Na razini jezgre ugrađene su i 32 KB L1 instrukcijske te 32 KB L1 podatkovne predmemorije, dok svaki klaster dijeli 28,5 MB L2 predmemorije.
Procesor koristi neuobičajen memorijski podsustav koji kombinira 32 GB HBM memorije na paketu s propusnošću do 4 TB/s i do 256 GB DDR5 memorije izvan paketa. Sličan pristup imao je Fujitsujev Arm procesor A64FX koji pokreće superračunalo Fugaku, a prema navodima u objavljenim podacima LX2 bi mogao biti prvi Armv9 procesor za AI i HPC s takvom kombinacijom memorije. Svaki chiplet ima četiri HBM i četiri DDR domene, a po procesoru je ukupno 16 NUMA domena, pa je za raspored podataka potrebno topology-aware planiranje memorije i raspoređivanja zadataka, uz SDMA mehanizam koji prenosi podatke između DDR i HBM sloja.
U performansama jedan LX2 procesor navodno postiže 60,3 TFLOPS FP64, 240 TFLOPS BF16/FP16 throughputa i 960 TOPS INT8 performansi. Iako ostaje CPU-centric dizajn, arhitektura je očito optimizirana za guste AI i matrične radne zadatke. Uspješno održavanje visokog iskorištenja SME matričnih jedinica, navodi se, zahtijevalo je usklađivanje kernela, raspoređivanja u runtimeu, upravljanja cacheom i smještaja tensor podataka preko HBM i DDR hijerarhije.
Prema objavljenoj specifikaciji, LineShine se sastoji od 20.480 računskih čvorova, pri čemu svaki čvor ima dva LX2 procesora, a svaki procesor 304 CPU jezgre. To znači ukupno 40.960 LX2 procesora i 2.451.840 CPU jezgri u sustavu. Povezivanje se odvija preko LingQi mreže velike brzine (LQLink) s propusnošću od 1,6 Tb/s po čvoru.
Sustav navodno postiže 1,54 ExaFLOP/s BF16 performansi u treniranju, a tijekom treniranja 6,3 milijarde parametara velikog modela za generativnu kompresiju promatranja Zemlje dosegnuo je vrhunac od 2,16 ExaFLOPS-a. Tom’s Hardware pritom navodi da se performanse ne mogu izravno usporediti s nekim velikim GPU klasterima jer ti sustavi često ne objavljuju vršne brojke, dok bi teorijski vrhunac LineShinea pri oko 15 posto iskorištenosti FLOPS-a mogao biti znatno veći od objavljenih rezultata. Za teorijski FP64 vrhunac navodi se 2,47 ExaFLOPS-a, premda stvarni FP64 throughput ovisi o više čimbenika.