Az NVIDIA most nem új GPU-generációval vagy brutálisabb chipmegoldással próbálja megoldani a problémát – hanem egy új adatábrázolási formátummal: ez az NVFP4, a 4 bites lebegőpontos reprezentáció. A cél nem kevesebb, mint újradefiniálni az AI-inferencia költségprofilját.
Ha az NVFP4 működik, akkor a 2026-os évek egyik legnagyobb AI-gondjára ad választ:
→ hogyan lehet olcsóbban, kisebb memóriaigénnyel, kevesebb energiával futtatni nagyméretű modelleket úgy, hogy a pontosság még mindig elfogadható maradjon?
Az NVIDIA szerint megtalálták a megoldást – de vajon ez a formátum tényleg új korszakot nyit, vagy csak új kompromisszumokkal tolja ki az infrastruktúra határait?
Mi az NVFP4?
Az NVFP4 a Blackwell architektúrával egy időben bevezetett új adatformátum. Egy 4 bites lebegőpontos reprezentációról van szó, amelyet elsősorban AI-inferenciára pozicionáltak és optimalizáltak. Lényege: minél kevesebb biten tárolni a súlyokat és aktivációkat, úgy, hogy a teljesítmény (pontosság) a lehető legjobban megmaradjon.
Miért épp 4 bit?
A 8 és 16 bites formátumokat már évek óta használják gépi tanulási gyorsításra. Az NVFP4 tovább megy a tömörítésben, de nem egyszerű kvantálással – hanem egy intelligens skálázási rendszerrel kompenzálja a pontosságveszteséget.
Ez két kulcselemből áll:
- 16 elemű mikroblokkonként történő skálázás (nagyfokú lokális dinamika),
- globális FP32 skála, amely a teljes tenzor értéktartományát kontrollálja.
Az NVIDIA szerint ezzel a megközelítéssel az NVFP4 képes bizonyos nyelvi modellezési feladatoknál, egyes modellek esetében <1 % pontosságveszteséggel működni – miközben 3–4× kevesebb memória és sávszélesség kell ugyanazon feladat elvégzéséhez.
*Megjegyzés: az NVFP4 pontossága erősen modell- és feladatspecifikus; a „low → optimalizált” jelzés csak iránymutatás, nem általános garancia.
Melyik GPU támogatja?
Az NVFP4 a Blackwell architektúrával érkezett meg – vagyis a B200, GB200 és kapcsolódó 2026‑os modellekben érhető el.
Ez azt is jelenti, hogy a fejlesztők a Blackwell platformmal az alábbi precíziós skálákat használhatják:
- FP64, FP32, TF32
- BF16, FP16, FP8
- INT8, INT4
- NVFP4 (új)
Mi a gyakorlati jelentősége?
- Nagyobb modellek → kisebb gépen is elfutnak.
- Kevesebb memóriahasználat → kisebb VRAM‑igény.
- Gyorsabb inferencia → kevesebb költség.
- Kevesebb energia → hatékonyabb adatközpontok.
Végső soron ez nemcsak a szuperklasztereknek, hanem a lokális AI‑alkalmazásoknak is előnyös lehet – feltéve, hogy a szoftveres támogatás és a modellek is követik a formátumot.
Az NVFP4 az NVIDIA Blackwell generáció inferencia-fókuszú 4 bites lebegőpontos formátuma, amely a kétlépcsős skálázással elérheti, hogy egyes feladatokon <1% pontosságvesztés mellett ~3,5× memóriamegtakarítást hozzon FP16-hoz képest — de a nyereség modell-függő, és tréningre az NVIDIA nem ígér általános támogatást.
Források:








































