NVIDIA GeForce GTX 980: второ действие на Максуел

Максуел за втори път

Разбира се, в сравнение с оригиналната архитектура на Maxwell, представена по-рано тази година, дизайнът от второ поколение се промени донякъде, но на преден план излезе абсолютно енергийната ефективност. Новото кодово име GM204 има много добри цифри на потребление в сравнение с размера си. Не е изненадващо, че 28-нанометровата производствена технология е оцеляла, така че чипът от 398 мм², който се състои от 5,2 милиарда транзистора, успя да включи 16 поточни мултипроцесора, които NVIDIA нарича SMM или Maxwell стрийминг мултипроцесор, за Maxwell.

Структурата на стрийминг мултипроцесорите почти не се е променила в сравнение с решението, познато в GM107. В резултат на това в такава единица са създадени четири по-големи изчислителни блока, които използват общ кеш на инструкции. Всеки изчислителен блок има буфер с инструкции, който очевидно извлича информацията, необходима за текущата работа, от кеша с инструкции. Цялата система използва сложен график, който е внедрен отчасти в хардуера и отчасти в софтуера. Хардуерната част е отговорност на вече познатия двигател GigaThread, докато софтуерната страна на графика е, разбира се, част от компилатора на драйвери. Чрез използването на последния може да се спести относително голямо количество енергия.

Здравей, де т и

Изчислителният блок използва две диспечерски единици и деформатор, който захранва 32 т. Нар. Ядра CUDA, така че думите с инструкции се изпълняват паралелно на 2 16-пътни процесора. Всяко ядро ​​на CUDA има 32-битов изпълнител с плаваща запетая, съвместим с IEEE754-2008, който поддържа инструкции MAD (Multiply-Add) и FMA (Fused Multiply-Add). Всеки изчислителен блок има обща регистърна площ с капацитет 64 kB. В рамките на изчислителния блок има още 8 специални функционални единици (SFU), които изпълняват задачата за интерполация в допълнение към тригонометрични и трансцендентни инструкции.

GM204 също копира GM107 в областта на възможностите за текстуриране, така че всеки стрийминг мултипроцесор включва два текстуриращи блока с четири адресиращи текстури и текстурен филтър, всеки с по четири семплера на канал. Текстуриращ блок се използва от два изчислителни блока едновременно. Той е свързан на хардуерно ниво, така че може да се каже, че SMM е разделен на два големи масива за обработка, които съдържат две изчисления и блок за текстуриране. Въпреки това, в случая на Максуел, 12 kB кеш за текстуриране остава технически кеш за данни, което означава, че той, разбира се, може да съхранява и информация за текстурата, но може да се използва и за данни, необходими за изчисление. Зестрата на това е, че този кеш е не само четим, но и за запис.

Очевидно е, че не е добре за изчисления, ако само два от четирите изчислителни блока могат да записват в собствената си област наведнъж, въпреки че GM204 все още може да раздели 96 kB споделяне на локални данни на две 48 kB секции, които все още изпълняват два изчислителни блока, но с относително голямо съхранение. В същото време е алтернатива да се раздели LDS на три 32 kB секции, които могат да поберат три от четирите изчислителни блока. Разбира се, на други изчислителни интерфейси локалното споделяне на данни все още може да се използва много по-гъвкаво, тъй като горната операция се дължи главно на ограниченията на стандарта DirectCompute 5.0.

По отношение на йерархията на паметта, GM204 е непроменен от GM107, така че архитектурата все още включва 2MB споделен L2 кеш, който може да бъде достъпен от всеки стрийминг мултипроцесор и може да бъде записан от CUDA ядра. Част от това все още помага при оптимизацията на мозайката като вид отделена памет в чипа.

По отношение на контролера на паметта, NVIDIA остана на напречната греда. GM204 използва 256-битова шина, която се разпределя по 64-битови канали. Всеки канал има ROP блок. Има общо 4 от последните, което води до 64 смесвания и 256 Z пробни единици.

действие

Пълно описание на новия SMM [+]

NVIDIA решава двойна точност за GM204 по същия начин, както го прави в чипа GK110. В този случай всеки изчислителен блок има специално CUDA ядро. В технически план това са части от SMM, но две специални ядра CUDA се споделят от два изчислителни блока. В резултат на това SMM съдържа общо четири ядра с двойна прецизност, което води до 64 процесора за целия чип. Това означава, че теоретичната скорост на изчисление, постижима с двойна точност, е 32 пъти по-голяма от теоретичната скорост, показана с единична точност.

Статията все още не е приключила, моля, превъртете!