
Całość będzie produkowana w procesie technologicznym 16 nm FinFET. W Tesli P100 zastosowano nowy typ połączenia NVLink oraz pamięci HBM2. Moduł będzie wyposażony w 6 bloków Graphic Processing Clusters, 65 multiprocesorów streamingowych oraz 28 TPC. Do tego dodajcie 8 512-bitowych kontrolerów pamięci, co daje w sumie 4-megabitowy interfejs.
Twórcy Tesli P100 postawili dużo na obliczenia podwójnej precyzji. Stosunek rdzeni CUDA FP64 do FP32 to 1:2 (przypominamy, że w poprzedniej architekturze był to stosunek 1:32 - różnica spora, prawda?). Parametry te przekładają się na wydajność 5,3 TFLOPS dla obliczeń podwójnej precyzji i 10,6 dla pojedynczej. Warto pamiętać również o TDP, które w przypadku Tesli wynosi 300W.

Układ charakteryzuje również 16GB pamięci HBM2 o przepustowości 720 GB/s przy 1,4GHz pracy. Wspomniane wyżej kontrolery NVLink pozwalają na łączenie wielu kart graficznych ze zdecydowanie szybszą wymianą danych, niż było to możliwe przy tradycyjnym PCI Express.
