Итак, все свежие подробности по поводу архитектуры видеокарт RDNA 4, вы можете прочесть
здесь. Однако, я бы хотел выделить основные тезисы, касательно производительности в играх с трассировкой лучей и апскейле, ибо кому не пофиг на то, как там карта воспроизводит видео или какой там техпроцесс:
Свои
тензорные ядра AMD называет тупо
ИИ ускорителями (AI Accelerators), которые на 400 % быстрее чем в RDNA 2 и на 200% чем в RDNA 3. Всё это благодаря расширенной поддержке инструкций FP8, E4M3 и E5M2, двум 16-битным и четырем 8-битным/4-битным режимам вычислений для матриц. Также поддерживается структурированная разреженность 4:2 - это позволяет удалять лишние данные из матрицы, типа значений равных нулю или близких к ним и обрабатывать меньше ненужных данных. Непонятно, фиксированная ли эта разреженность или нет у AMD, но в RTX она кстати динамическая. Так же RDNA 4 поддерживает транспонирование матриц, вычислений где строки и столбцы меняются местами - это очень важная штука для работы, к примеру, свёрточных нейросетей, которая судя по всему и используется в FSR 4. AMD заявляет, что для работы FSR 4 нужно около 779 AI TOPS производительности, в то время как RX 9070 и RX 9070 XT выдают 1200 TOPS и 1500 TOPS соответственно. Такой запас видимо нужен для будущей AI генерации кадров.
Теперь по святой трассировке лучей. AMD заявляет что каждый CU-блок RDNA 4 на 240 % производительнее в лучах чем RDNA 2 и на то есть причины. Как вы знаете, для ускорения поиска пересечений лучей с треугольниками используются BVH - Иерархия ограничивающих объёмов. Это тупо коробки, которые словно ветви дерева имеют вложенные в себя более мелкие коробки ведущие лучи непосредственно к треугольнику. Ещё с первых карт RTX, использовался определённый тип BVH - AABB, коробки ориентированные по оси. Этот тип BVH золотая середина между скоростью вычислений и затратами памяти. Однако, так как они строго ориентированы по одной оси, а не оси конкретного объекта, то AABB тип приводит к ложным срабатываниями проверки пересечения луча. Теперь же RDNA 4 поддерживает аппаратно OBB, коробки ориентированные по оси объекта, что ускоряет прохождение луча.
Далее, новые RT-ядра поддерживают аппаратно трансформацию инстансов. Инстанс в графике - это типа копия объекта, которую можно размещать в сцене без дублирования данных. Например 1000 инстансов 1 дерева обрабатывать как единый объект. Теперь это умеют и RT-ядра. RDNA 4 также поддерживает BVH8 node compression, видимо это связано с уменьшением объёма памяти для расчёта BVH. Все эти улучшения позволяют теперь даже Path Tracing нормально запускать, что Nvidia кстати может уже давно.
В общем, навалили по самое небалуй. Очень очень интересны тесты производительности RDNA 4 в трассировке лучей, которая, напоминаю, совершенно не нужна никому, да. Карты выглядят теперь действительно очень интересно, 16 гб видеопамяти, теоретически неплохая производительность в трассировке и наконец AI-апскейлер за 550 долларов, это звучит мощно. Ещё бы реконструкцию лучей добавить и вообще красота.