GPU vs CPU: Prečo CUDA poháňa AI a prečo chce svet utiecť od NVIDIA

Podnadpis: Od vykresľovania pixelov k tréningu AI: Prečo NVIDIA ovládla digitálny svet a prečo technologické giganty investujú miliardy do hľadania alternatív.

Obsah

Intuitívny omyl: Viac GHz neznamená viac vedy
Mechanizmus CUDA: Ako funguje paralelný vesmír
Zlatá klietka: Prečo AI centrá ohlasujú útek
Súboj titanov: Alternatívy na obzore
LIFE-HACK: Aktivujte spiaceho obra vo vašom PC
Pointa do vrecka

Máte procesor za 500 eur a video sa vám seká. Výkon tam je — len je nesprávneho typu. Žijeme v dobe, keď sa počítačová veda presunula od „premýšľania v rade“ k „premýšľaniu v obrovskom dave“. A práve tento posun zmenil grafickú kartu z hernej hračky na motor celej umelej inteligencie.

Intuitívny omyl: Viac GHz neznamená viac vedy

Dlho sme žili v predstave, že frekvencia procesora je jediným meradlom výkonu. CPU (Central Processing Unit) funguje na princípe von Neumannovej architektúry — jeden výkonný procesor vykonáva inštrukcie sériovo, jednu za druhou. Je to ako špičkový šéfkuchár: geniálny, zvládne akýkoľvek zložitý recept, ale krájanie 10 000 cibúľ mu potrvá hodiny.

GPU (Graphics Processing Unit) je iný druh stroja. Namiesto jedného génia nasadí armádu 5 000 učňov: nevedia upiecť suflé, ale tú cibuľu pokrájajú za tri sekundy. Technicky: GPU implementuje model SIMT — Single Instruction, Multiple Threads. Tisíce jednoduchých jadier vykonávajú tú istú inštrukciu súčasne, každé na iných dátach.

Základ AI: maticové násobenia bežia na tisícoch jadier GPU súčasne

Umelá inteligencia patrí presne do tej druhej kategórie. Tréning neurónových sietí je v jadre nekonečné opakovanie jednej operácie: maticové násobenie — násobiť obrovské tabuľky čísel (váhy siete) s ďalšími tabuľkami (vstupné dáta). Jedna vrstva moderného jazykového modelu môže obsahovať miliardy takýchto operácií — a všetky sa dajú vykonávať paralelne.

Základ AI: maticové násobenia bežia na tisícoch jadier súčasne

Mechanizmus CUDA: Ako funguje paralelný vesmír

Keď NVIDIA v roku 2006 predstavila architektúru CUDA (Compute Unified Device Architecture), nešlo primárne o hry ani AI. Bola to priama odpoveď na požiadavky vedeckej komunity — fyzikov simulujúcich dynamiku tekutín, chemikov modelujúcich proteínové štruktúry, klimatológov počítajúcich atmosferické modely.

CUDA im po prvýkrát umožnila využiť tisíce grafických jadier na všeobecné výpočty. To, čo predtým trvalo dni na superpočítači za milióny dolárov, bolo možné zvládnuť za hodiny na jednej pracovnej stanici.

Prelom nastal v roku 2012, keď tím Geoffreya Hintona z University of Toronto použil GPU na tréning neurónovej siete AlexNet. Sieť vyhrala súťaž ImageNet s chybovosťou 15,3 % — o 10 percentuálnych bodov lepšie než vtedajšia špičková neuronová sieť bez GPU. Bol to prvý merateľný dôkaz, že paralelný výkon GPU mení pravidlá hry v umelej inteligencii.

Dnes každý prompt, ktorý napíšete do ChatGPT alebo iného jazykového modelu, prešiel počas tréningu cez desaťtisíce takýchto GPU jadier. NVIDIA H100 — aktuálny štandard AI dátových centier — obsahuje 16 896 CUDA jadier pracujúcich súčasne. Celý GPT-4 trénoval na odhadovaných 25 000 takýchto čipoch počas niekoľkých mesiacov.

Inými slovami: AI neobjavila GPU. AI zdedila infraštruktúru, ktorú desaťročia budovala veda.

🔍 DEEP DIVE: Latencia vs. priepustnosť

Situácia zo života: Kliknete v Exceli — reakcia príde do 30 ms. GPU vykreslí 100 snímok za sekundu. To nie sú dva pohľady na ten istý výkon — sú to dve rôzne architektúry.

Vedecké vysvetlenie: CPU je optimalizované na nízku latenciu — minimálny čas odozvy na jednu inštrukciu. GPU je optimalizované na vysokú priepustnosť (throughput) — maximálny počet operácií za sekundu pri spracovaní veľkých dátových blokov. Moderné GPU ako NVIDIA H100 dosahujú priepustnosť až 3,35 petaFLOPS pri maticových operáciách — to je 3,35 × 10¹⁵ operácií za sekundu.

Zlatá klietka: Prečo AI centrá ohlasujú útek

Dnes sme svedkami paradoxu. Hoci je NVIDIA technologickým lídrom, giganti ako Microsoft, Google či Meta investujú miliardy do vývoja vlastných čipov. Hlavný dôvod: vendor lock-in — závislosť od jedného dodávateľa.

Vendor Lock-in — NVIDIA CUDA v centre ekosystému, závislé giganti a únikové alternatívy.

CUDA je uzavretý softvérový ekosystém. Kód napísaný pre CUDA nefunguje na kartách AMD ani Intel bez kompletného prepisu. Pre spoločnosti prevádzkujúce tisíce GPU serverov to znamená nielen vysoké licenčné náklady, ale aj strategickú zraniteľnosť v globálnom dodávateľskom reťazci.

K softvérovej závislosti sa pridáva fyzický limit: špeciálne pamäte HBM (High Bandwidth Memory), ktoré zásobujú GPU dátami, vyrábajú prakticky len traja výrobcovia na svete — Samsung, SK Hynix a Micron. HBM tretej generácie dosahuje prenosovú šírku pásma až 3,2 TB/s, no výrobná kapacita je obmedzená a ceny tlačí do astronomických výšin. Pre AI dátové centrum s tisíckami GPU kartami môže táto závislosť znamenať rozdiel desiatok miliónov dolárov ročne.

Štúdia Jouppi et al. (2017) z Google ukázala, že vlastný čip TPU (Tensor Processing Unit) dokáže pri inferenčných úlohách prevýšiť GPU v pomere výkon/watt až 30-násobne — práve preto, že jeho architektúra je od základov navrhnutá pre maticové operácie konkrétnych modelov, nie ako univerzálne riešenie.

Inými slovami: svet AI beží na technológii, ktorú nevie nahradiť ani lacno, ani rýchlo.

🔍 DEEP DIVE: Prečo CPU nestačí ani s obrovskou cache

Situácia zo života: Procesor s 32 MB cache stále nestíha pri spracovaní 4K videa.

Vedecké vysvetlenie: Cache je bleskurýchla vyrovnávacia pamäť priamo v čipe — CPU ju používa, aby nemuselo čakať na pomalšiu RAM. Ale veľkosť cache rieši problém latencie, nie priepustnosti. Pri maticovom násobení pre AI model s miliardami parametrov by bola potrebná cache v terabajtoch — fyzicky nerealizovateľná v jednom čipe. GPU tento problém obchádza inak: namiesto rýchleho prístupu pre jedno jadro zabezpečuje primerane rýchly prístup pre tisíce jadier súčasne cez HBM zbernicu.

Súboj titanov: Alternatívy na obzore

Konkurencia sa snaží zlomiť monopol otvorenými štandardmi:

AMD ROCm obsahuje nástroj HIPIFY, ktorý automaticky prekladá CUDA kód pre karty Radeon — no kompatibilita stále zaostáva za natívnym CUDA ekosystémom.
Intel oneAPI buduje jednotné vývojové prostredie pre CPU aj GPU bez ohľadu na výrobcu.
Triton (OpenAI, 2021) je otvorený jazyk, ktorý umožňuje písať kód efektívny pre rôzne typy čipov bez manuálnej optimalizácie pre každú architektúru.

Cieľom nie je poraziť NVIDIA. Cieľom je odstrániť závislosť od jedného „mozgu“ celého digitálneho sveta — a vrátiť kontrolu nad infraštruktúrou späť k tým, ktorí ju prevádzkujú.

LIFE-HACK: Aktivujte spiaceho obra vo vašom PC

Väčšina používateľov nevyužíva GPU efektívne, pretože ich softvér beží len na CPU.

Technika: Zapnite GPU akceleráciu v nastaveniach DaVinci Resolve (Preferences → Memory and GPU → GPU Processing Mode: CUDA/OpenCL) alebo Adobe Premiere (File → Project Settings → Renderer → Mercury Playback Engine GPU Accelerated).

Mechanizmus: Softvér presunie maticové výpočty kódovania videa z CPU na tisíce paralelných CUDA jadier. CPU sa uvoľní pre operačný systém a ostatné procesy.

Efekt: GPU rozdelí video na tisíce obrazových blokov a kóduje ich súčasne — každé jadro spracuje jeden blok nezávisle od ostatných. Výsledok: čas exportu klesá typicky o 60–80 %. Pri 10-minútovom 4K videu to môže znamenať rozdiel medzi 40 minútami a 8 minútami — na rovnakom počítači, len inak využitom.

Pointa do vrecka

Procesor je inteligentný samotár. Grafická karta je efektívne koordinovaný dav. AI centrá sa nesnažia opustiť NVIDIA preto, že by bola zlá — ale preto, že veda a biznis potrebujú slobodu pohybu a kontrolu nad vlastnou infraštruktúrou.

Budúcnosť výpočtov nepatrí najrýchlejšiemu čipu. Patrí tomu, kto kontroluje, ako tisíce čipov myslia naraz.

ZOZNAM LITERATÚRY

NVIDIA Corporation (2006–2024). CUDA C++ Programming Guide. Oficiálna dokumentácia, architektúra SIMT.
Krizhevsky, A., Sutskever, I., Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. NeurIPS. [Prelomová štúdia AlexNet — prvý dôkaz GPU dominancie v deep learningu.]
Jouppi, N. P. et al. (2017). In-Datacenter Performance Analysis of a Tensor Processing Unit. Proceedings of the 44th ISCA. [TPU vs. GPU efektivita — 30× lepší pomer výkon/watt pri inferenčných úlohách.]
Hennessy, J. L., Patterson, D. A. (2018). Computer Architecture: A Quantitative Approach. Morgan Kaufmann. [Von Neumannova architektúra, hierarchia pamätí, paralelizmus.]
JEDEC Solid State Technology Association. High Bandwidth Memory (HBM) DRAM Standard. [Technické špecifikácie HBM3 — priepustnosť 3,2 TB/s.]

Intuitívny omyl: Viac GHz neznamená viac vedy

Mechanizmus CUDA: Ako funguje paralelný vesmír

Zlatá klietka: Prečo AI centrá ohlasujú útek

Súboj titanov: Alternatívy na obzore

LIFE-HACK: Aktivujte spiaceho obra vo vašom PC

Pointa do vrecka

ZOZNAM LITERATÚRY

You Might Also Like

DLSS 4.5 prekonáva natívne rozlíšenie v slepom teste. Čo prináša nový Transformer model?

Google WebMCP: AI agenti sa naučia ovládať web bez hádania

Meta vyhodí Intel a AMD z dátových centier. Vsádza na ARM procesory od Nvidie

Európa chce zmierniť regulačnú záťaž pre startupy v oblasti umelej inteligencie

About Company