Меню

Упаковка от видеокарты geforce



Обзор видеоускорителя Nvidia GeForce RTX 3090: самое производительное на сегодня, но не чисто игровое решение

Оглавление

Теоретическая часть: особенности архитектуры

Недавно компания Nvidia представила видеокарты нового семейства GeForce RTX 30, основанные на архитектуре Ampere, пришедшей на смену Turing. Предыдущая архитектура стала революционной, впервые предложив аппаратную поддержку трассировки лучей и аппаратного же ускорения задач искусственного интеллекта при помощи тензорных ядер. Но производительности тех GPU порой не хватало даже для использования пары эффектов с применением трассировки, поэтому неудивительно, что Nvidia в Ampere сделала упор именно на производительность.

Как только стали доступны технологии производства полупроводников по более тонким нормам, вместе с возможностью значительного прироста количества транзисторов при сохранении приемлемой площади кристалла, в архитектуре Ampere сразу было реализовано улучшение именно в плане производительности, а не для появления новых возможностей. Хотя и они тоже есть, но все же это явно эволюционное развитие возможностей предыдущей архитектуры Turing. Предлагаемые по приемлемым ценам, новинки дали пользователям долгожданное улучшение соотношения цены и производительности.

Решения семейства Ampere, благодаря специальным решениям и производству по более тонкому техпроцессу, обеспечивают повышенную энергоэффективность и производительность в пересчете на единицу площади кристалла, что особенно полезно в самых требовательных задачах, вроде трассировки лучей в играх, которая сильно просаживает производительность. Игровые решения архитектуры Ampere примерно в 1,5-1,7 раза быстрее Turing в традиционных задачах растеризации, и до двух раз быстрее при трассировке лучей.

Первым графическим процессором на основе архитектуры Ampere стал большой «вычислительный» чип GA100, вышедший в мае и показавший мощный прирост производительности в различных вычислительных задачах. Но это все-таки чисто вычислительный чип, предназначенный для узкоспециализированных применений. А игровые видеокарты серии GeForce RTX 30 на базе архитектуры Ampere были представлены директором компании Дженсеном Хуангом во время виртуального мероприятия Nvidia в начале сентября.

Всего было представлено три модели: RTX 3090, RTX 3080 и RTX 3070, мы с вами уже рассмотрели среднюю из них, сегодня узнаем все о топовой, ну а время младшей придет в октябре. Модели RTX 3090 и RTX 3080 сделаны на базе разных модификаций чипа GA102, имеющих отличающееся количество активных вычислительных блоков. Если даже младшая RTX 3070 должна быть примерно на уровне флагмана предыдущей линейки RTX 2080 Ti, то топовая RTX 3090 и вовсе на 50% обходит дорогущий Titan RTX.

Самая производительная модель новой линейки имеет 10496 вычислительных CUDA-ядер, 24 ГБ локальной видеопамяти нового стандарта GDDR6X и отлично подходит для игр в самом высоком 8K-разрешении. Это модель класса Titan с ценой в $1499 (136 990 руб.), но имеющая обычное цифровое наименование — в этот раз Nvidia решила (пока?) не выпускать Titan. Трехслотовая модель с огромным кулером способна справиться с любыми задачами, игровыми и не только. Новинка предназначена для игры как минимум в 4K-разрешении, и даже может обеспечить 60 FPS в 8K-разрешении во многих играх, особенно с применением DLSS.

Основой рассматриваемой сегодня модели видеокарты стал новый графический процессор архитектуры Ampere, но так как она имеет достаточно много общего с предыдущими архитектурами Turing, Volta и местами даже Pascal, то перед прочтением материала мы советуем ознакомиться с нашими предыдущими статьями:

Графический ускоритель GeForce RTX 3090
Кодовое имя чипа GA102
Технология производства 8 нм (Samsung «8N Nvidia Custom Process»)
Количество транзисторов 28,3 млрд
Площадь ядра 628,4 мм²
Архитектура унифицированная, с массивом процессоров для потоковой обработки любых видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX DirectX 12 Ultimate, с поддержкой уровня возможностей Feature Level 12_2
Шина памяти 384-битная: 12 независимых 32-битных контроллеров памяти с поддержкой памяти типа GDDR6X
Частота графического процессора до 1695 МГц (турбо-частота)
Вычислительные блоки 82 потоковых мультипроцессора (из 84 в полном чипе), включающих 10496 CUDA-ядер (из 10752 ядер) для целочисленных расчетов INT32 и вычислений с плавающей запятой FP16/FP32/FP64
Тензорные блоки 328 тензорных ядер (из 336) для матричных вычислений INT4/INT8/FP16/FP32/BF16/TF32
Блоки трассировки лучей 82 RT-ядра (из 84) для расчета пересечения лучей с треугольниками и ограничивающими объемами BVH
Блоки текстурирования 328 блоков (из 336) текстурной адресации и фильтрации с поддержкой FP16/FP32-компонент и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растровых операций (ROP) 14 широких блоков ROP на 112 пикселей с поддержкой различных режимов сглаживания, в том числе программируемых и при FP16/FP32-форматах буфера кадра
Поддержка мониторов поддержка HDMI 2.1 и DisplayPort 1.4a (со сжатием DSC 1.2a)
Спецификации референсной видеокарты GeForce RTX 3090
Частота ядра до 1695 МГц
Количество универсальных процессоров 10496
Количество текстурных блоков 328
Количество блоков блендинга 112
Эффективная частота памяти 19,5 ГГц
Тип памяти GDDR6X
Шина памяти 384-бит
Объем памяти 24 ГБ
Пропускная способность памяти 936 ГБ/с
Вычислительная производительность (FP32) до 35,6 терафлопс
Теоретическая максимальная скорость закраски 193 гигапикселей/с
Теоретическая скорость выборки текстур 566 гигатекселей/с
Шина PCI Express 4.0
Разъемы один HDMI 2.1 и три DisplayPort 1.4a
Энергопотребление до 350 Вт
Дополнительное питание два 8-контактных разъема
Число слотов, занимаемых в системном корпусе 3
Рекомендуемая цена $1499 (136 990 рублей)

Это вторая модель нового поколения и ее название соответствует принципу наименования решений компании, так как ниже нее стоит менее дорогая RTX 3080. Правда, в прошлом поколении модели RTX 2090 не было вообще, а был отдельный Titan RTX. Соответственно, рекомендованная цена для GeForce RTX 3090 ближе не к RTX 2080, а что-то среднее между RTX 2080 Ti и Titan RTX, так как они являются топовыми представителями своих поколений — $1499. Для нашего рынка рекомендация по цене в 136990 рублей сначала могла показаться завышенной, но из-за резкого падения курса национальной валюты в последнее время, как бы ее еще корректировать в большую сторону не пришлось.

В любом случае, у RTX 3090 на рынке просто нет конкурентов, и на нее Nvidia может ставить цену по своему усмотрению. Точнее, соперник то у нее есть, и довольно сильный, но это — модель этой же линейки в виде RTX 3080, которая даже по теоретической производительности уступает топовому решению от силы 20%-25%. А стоит то она гораздо дешевле! Поэтому если кому-то достаточно 10 ГБ видеопамяти и несколько меньшей производительности, то у него появляется немалый соблазн сэкономить. С другой стороны, если вам нужен максимум производительности и большой объем памяти, а вопрос цены на третьем месте, то выбора просто не остается.

О конкурентах со стороны компании AMD пока что сказать нечего. Radeon VII давно устарел и снят с производства, Radeon RX 5700 XT является решением более низкого уровня, а больше у них ничего и нет. Так что ждем решений на базе архитектуры RDNA2, и особенно любопытен будет большой чип «Big Navi», хотя и далеко еще не факт, что и он сможет конкурировать с GeForce RTX 3090.

Nvidia выпустила видеокарты новой серии и в собственном дизайне под наименованием Founders Edition. Они предлагают любопытные системы охлаждения и строгий дизайн, которого не найти у большинства производителей видеокарт, гонящихся за количеством и размером вентиляторов, а также разноцветной подсветкой. Самое интересное в GeForce RTX 30, продаваемых под брендом Nvidia — совершенно новый дизайн системы охлаждения с двумя вентиляторами, расположенными необычным образом: первый более-менее привычно выдувает воздух через решетку с торца платы, а вот второй установлен с обратной стороны и протягивает воздух прямо сквозь видеокарту.

Таким образом, тепло отводится от компонентов на карте в гибридную испарительную камеру, где оно распределяется по всей длине радиатора. Левый вентилятор выводит нагретый воздух через большие вентиляционные отверстия в креплении, а правый вентилятор направляет воздух к выдувному вентилятору корпуса, где он обычно установлен в большинстве современных систем. Эти два вентилятора работают на разной скорости, которая настраивается для них индивидуально.

Подобное решение заставило инженеров менять всю конструкцию. Если обычные печатные платы проходят во всю длину видеокарт, то в случае продувного вентилятора пришлось разработать короткую печатную плату, с уменьшенным слотом NVLink, новыми разъемами питания (переходник на два обычных 8-контактных PCI-E прилагается). При этом, разместить на карте большое количество фаз для питания и микросхем памяти, было очень непросто. Но эти изменения дали возможность большого выреза для вентилятора на печатной плате, чтобы потоку воздуха ничего не мешало.

Nvidia утверждает, что дизайн кулеров Founders Edition привел к заметно более тихой работе, чем стандартные кулеры с двумя осевыми вентиляторами с одной стороны, при этом эффективность охлаждения у них выше. Поэтому новые решения устройств охлаждения позволили повысить производительность без роста температуры и шума по сравнению с видеокартами предыдущего поколения Turing. Так, по данным компании, при уровне потребления 350 Вт рассматриваемая сегодня новинка или на 30 градусов холоднее модели Titan RTX, или на 20 дБА тише. Это мы проверим далее.

Видеокарта модели RTX 3090 доступна в розничных магазинах с 24 сентября, но в связи с недостаточным объемом производства и пока еще высоким спросом, продукт по хорошей цене еще придется поискать. Видеокарты GeForce RTX 30 Founders Edition должны начать продаваться на русскоязычном сайте Nvidia с 6 октября. Естественно, что партнеры компании выпускают карты собственного дизайна: Asus, Colorful, EVGA, Gainward, Galaxy, Gigabyte, Innovision 3D, MSI, Palit, PNY и Zotac.

Некоторые из видеокарт будут продаваться участвующими в акции продавцами с 17 сентября по 20 октября в комплекте с игрой Watch Dogs: Legion и годовой подпиской на сервис GeForce Now. Также графическими процессорами серии GeForce RTX 30 будут оснащены игровые системы компаний Acer, Alienware, Asus, Dell, HP, Lenovo и MSI и системы ведущих российских сборщиков, включая Boiling Machine, Delta Game, Hyper PC, InvasionLabs, OGO! и Edelweiss.

Архитектурные особенности

При производстве GA102 используется техпроцесс 8 нм компании Samsung, он дополнительно оптимизирован именно для Nvidia. Старший игровой чип Ampere содержит 28,3 миллиарда транзисторов и имеет площадь 628,4 мм² — это хороший шаг вперед по сравнению с 12 нм у Turing, но тот же техпроцесс 7 нм на TSMC по плотности все же превосходит 8 нм у Samsung, если судить по чипам одной архитектуры Ampere, сравнивая игровой GA102 и большой чип GA100, который производится именно на тайваньских фабриках.

Скорее всего, Nvidia выбрала техпроцесс Samsung, исходя из себестоимости и доступности массового производства больших чипов. Выход годных на заводе Samsung вполне может быть лучше, условия для такого жирного клиента наверняка особые, а у TSMC производственные мощности техпроцесса 7 нм уже заняты другими компаниями. Так что игровые Ampere производятся на фабриках Samsung скорее всего из-за несогласия Nvidia с предложенными тайваньцами ценами или другими условиями.

Как и предыдущие чипы компании, GA102 состоит из укрупненных кластеров Graphics Processing Cluster (GPC), которые включают несколько кластеров текстурной обработки Texture Processing Cluster (TPC), которые содержат потоковые процессоры Streaming Multiprocessor (SM), блоки растеризации Raster Operator (ROP) и контроллеры памяти. Полный чип GA102 содержит семь кластеров GPC, 42 кластера TPC и 84 мультипроцессора SM. Каждый GPC содержит шесть TPC, каждый из пары SM, а также один движок PolyMorph Engine для работы с геометрией.

GPC — это высокоуровневый кластер, включающий все ключевые блоки для обработки данных внутри него, каждый из них имеет выделенный движок растеризации Raster Engine и теперь включает два раздела ROP по восемь блоков каждый — в новой архитектуре Ampere эти блоки не привязаны к контроллерам памяти, а находятся прямо в GPC. В итоге, полный GA102 содержит 10752 потоковых CUDA-ядра, 84 RT-ядер второго поколения и 336 тензорных ядер третьего поколения. Подсистема памяти полного GA102 содержит двенадцать 32-битных контроллеров памяти, что дает 384-бит в общем. Каждый 32-битный контроллер связан с разделом кэш-памяти второго уровня объемом в 512 КБ, что дает общий объем L2-кэша в 6 МБ для полной версии GA102.

Но пока что мы говорили о полном чипе, а даже топовая модель видеокарты GeForce RTX 3090 использует слегка урезанный по количеству блоков вариант GA102. Эта модификация получила незначительно сниженные характеристики, в которой активных кластеров GPC осталось семь, а количество блоков SM снизилось лишь на два — то есть, в одном из GPC просто отключили один из кластеров TPC с парой мультипроцессоров. Соответственно, в итоге отличается и количество других блоков: 10496 CUDA-ядер, 328 тензорных ядер и 82 RT-ядра. Текстурных блоков осталось 328 штук, а вот блоки ROP активны все — 112. Эти показатели заметно выше, чем у RTX 3080, но это все равно не полный чип.

Еще одно важнейшее отличие от GeForce RTX 3080 заключается в наличии 24 ГБ быстрой GDDR6X-памяти, которая подключена по полной 384-битной шине, что дает чуть ли не терабайт пропускной способности. В отличие от 10 ГБ у «средней» модели RTX 3080, этого объема точно хватит на все. Хотя Nvidia уверяет, что ни одна игра в 4K-разрешении не требует большего объема памяти, но скоро выйдут консоли нового поколения с большим объемом памяти и быстрыми SSD, и некоторые мультиплатформенные или портированные с них игры могут начать требовать большего, чем 10 ГБ локальной видеопамяти.

Пропускная способность также увеличилась и достигла 936 ГБ/с. Но для столь мощного GPU и этого может не всегда хватать, особенно при удвоении общей производительности. Кроме того, хотя Micron указывает эффективную рабочую частоту памяти как 21 ГГц, Nvidia в своих продуктах использует довольно консервативные 19,5 для RTX 3090 — интересно, в чем тут дело? В сырости нового типа памяти и/или ее слишком высоком энергопотреблении?

Подробно рассматривать архитектурные улучшения Ampere в этой статье мы не будем, все написано в теоретическом материале по GeForce RTX 3080. Основным нововведением Ampere является удвоение FP32-производительности для каждого мультипроцессора SM, по сравнению с семейством Turing, что привело к значительному повышению пиковой производительности. Почти то же самое касается и RT-ядер — хотя их число и не изменилось, внутренние улучшения привели к удвоению темпа поиска пересечений лучей с геометрией. Улучшенные тензорные ядра хоть и не удвоили производительность при обычных условиях, но темп вычислений удвоился, а также появилась возможность удвоения скорости обработки так называемых разреженных матриц.

Все остальные архитектурные особенности игровых решений Ampere, включая изменения в мультипроцессорах SM, блоках ROP, системе кэширования и текстурирования, тензорных и RT-ядрах, подробно рассмотрены в теоретическом обзоре RTX 3080. Там же приведены сведения о новом типе памяти GDDR6X, который применяется в старших чипах новой линейки. Все улучшения привели к достижению довольно высокой энергоэффективности, вся архитектура Ampere делалась с упором на это, включая доработанный техпроцесс Samsung, дизайн чипов и печатных плат, оптимизацию ПО и многое другое.

Добавим лишь небольшое дополнение про интереснейший набор технологий RTX IO, обеспечивающих быструю передачу и распаковку ресурсов на GPU, что повышает производительность системы ввода-вывода в десятки раз, по сравнению с привычными HDD и традиционными API. RTX IO в будущем обеспечит очень быструю загрузку ресурсов игры и позволит создавать гораздо более разнообразные и детализированные виртуальные миры.

RTX IO распаковывает данные при помощи потоковых процессоров GPU, это осуществляется асинхронно — при помощи высокопроизводительных вычислительных кернелов, используя механизмы прямого доступа к памяти архитектур Turing и Ampere, также помогает в процессе улучшенный набор инструкций и новая архитектура мультипроцессоров SM, позволяющая использовать расширенные асинхронные вычислительные возможности.

У Nvidia все необходимое для работы этой технологии было и раньше в их собственной технологии GPUDirect Storage, но за исключением распаковки сжатых данных на GPU. Именно в этом и заключается принципиально новая возможность RTX IO и DirectStorage API. При использовании GPU Nvidia и ранее можно было осуществить подобный подход в операционных системах Linux, но в Windows есть определенные фундаментальные архитектурные ограничения, не позволяющие реализовать прямой обмен данными в полной мере.

Поэтому разработчикам придется ждать, пока Microsoft реализует эти возможности в их собственном DirectStorage API. Впрочем, это не должно сильно помешать, так как вряд ли в ближайшие годы появятся игры, даже портированные с консолей следующего поколения, которые смогут полностью использовать возможности быстрых SSD. Пока что разработчики все еще ориентируются на механические HDD-накопители, но так как рыночная доля SSD (NVMe, в частности) растет быстро, то пройдет пара-тройка лет, и такие игры точно появятся.

Поддержка технологии DLSS в 8K

Совсем недавно 4K-разрешение казалось очень высоким, а теперь 8K-телевизоры уже предлагаются на рынке в исполнении компаний LG, Samsung и Sony, и цены на них начинаются от $2999. Распространению 8K мешает не только отсутствие соответствующего контента в подобном разрешении, но и высочайшая требовательность. Такие условия не только предъявляют вчетверо больше требований к мощности GPU, но и повышенный объем видеопамяти для загрузки всех необходимых ресурсов повышенного качества. Даже простое декодирование 8K-видео в форматах H.265 и VP9 может быть слишком требовательной задачей, не говоря уже о его кодировании и уж тем более 3D-рендеринге.

Зачем вообще нужно высокое разрешение? Разве не важнее само качество затенения, освещения, качественного наложения теней и так далее? Конечно важнее, но все эти улучшения труднее увидеть в низких разрешениях, когда изображение расплывчатое. Увеличение разрешения позволяет повысить общие четкость и детализацию, а вместе с этим и реалистичность. Конечно, это не стоит делать, снижая качество графики, все должно быть сбалансировано. Но именно в высоких разрешениях, вроде 8K, и можно увидеть мелкие детали.

Устройства вывода с поддержкой 8K-разрешения (7680×4320 пикселей) выводят 33 миллиона пикселей несколько раз в секунду, по сравнению с парой миллионов для Full HD и 8 миллионами для 4K. Так что вполне можно себе предположить приличный шаг в улучшении четкости, если учитывать разницу между Full HD и 4K, которую все уже видели. Столь большое количество пикселей позволяет увидеть максимальное количество деталей в сгенерированной картинке. Например, по 8K-скриншоту из игры Watch Dogs: Legion:

Видеокарта GeForce RTX 3090 в принципе является наиболее подходящей для 8K-разрешения. Во-первых, вместо двух кабелей для подключения к устройствам с разъемом HDMI 2.1 на всех Ampere можно использовать лишь один кабель. Во-вторых, это максимально производительный графический процессор на сегодня, а даже 4K-разрешение требует подобной мощности, не говоря уже о 8K. И в-третьих, зачастую 3D-приложения в высоком разрешении используют очень много видеопамяти, а GeForce RTX 3090 имеет более чем вдвое больший объем видеопамяти, по сравнению с прошлым флагманом компании — RTX 2080 Ti с его 11 ГБ. Новая модель несет 24 ГБ памяти нового типа GDDR6X с высокой пропускной способностью, которая также важна для 8K. Так что Nvidia не так уж далека от истины, когда называет этот GPU первым подходящим для 8K. Но все не так просто, ведь даже в 4K порой недостаточно производительности, особенно при включенной трассировке лучей.

Читайте также:  Сравнение видеокарт asus amd radeon r7 370 strix

Давно известно, что трассировка лучей — это крайне затратный и ресурсоемкий процесс. Настолько, что компания Nvidia сделала аппаратную поддержку так называемого Deep Learning Super Sampling (DLSS) в своем предыдущем поколении Turing. Этот метод повышения производительности использует возможности выделенных тензорных ядер для работы нейросети, которая дорисовывает недостающие пиксели при переводе изображения из более низкого разрешения в требуемое.

Например, для того, чтобы получить приемлемую производительность с применением трассировки в 4К, картинка отрисовывается в меньшем разрешении (вплоть до Full HD в случае производительного режима DLSS) и далее восстанавливается до полноценного разрешения при помощи заранее подготовленной нейросети, которая работает с использованием информации из предыдущих кадров и способна отображать даже мелкие детали. В итоге, картинка получается схожей с той, что получается при рендеринге в полном разрешении, при этом общая производительность будет намного выше. А сам по себе алгоритм DLSS требует совсем немного ресурсов GPU.

Вместе с выходом решений архитектуры Ampere были добавлены некоторые улучшения и в технологию DLSS — в частности, была проведена оптимизация под тензорные ядра третьего поколения и улучшенные асинхронные вычисления, а также появился новый режим для разрешения 8K. Он использует рендеринг изображения с в 9 раз меньшим количеством пикселей и затем восстанавливает его до полного разрешения 8K. Именно такой подход и позволяет получить качество высокого разрешения при сохранении 60 FPS даже в играх с поддержкой трассировки лучей.

При работе DLSS в 8K применяется улучшенная модель для нейросети, которая использует рендеринг в разрешении 2560×1440 и затем растягивает его до 7680×4320 с использованием мощи тензорных ядер. Даже на 4K-мониторе видно, насколько лучше становится качество в восстановленном при помощи DLSS изображении. Это и неудивительно, ведь оно предлагает в 16 раз больше пикселей чем Full HD, и вчетверо больше 4K.

Вообще, DLSS 2.1 включает три улучшения: новый режим Ultra Performance, позволяющий запускать игры в разрешении 8K при помощи DLSS на GeForce RTX 3090; поддержку VR-приложений и динамического разрешения, когда разрешение рендеринга входного кадра для DLSS изменяется постоянно, но выходное всегда фиксировано — так что если игровой движок поддерживает динамическое разрешение, то эта DLSS позволяет довольно легко отмасштабировать его до разрешения дисплея с максимально возможным качеством.

В играх с поддержкой технологии, у пользователей появится выбор из четырех режимов качества DLSS: Quality, Balanced, Performance и Ultra Performance. Поддержка последней версии технологии DLSS, включая режим Ultra Performance для 8K, должна появиться в следующих играх: Boundary, Bright Memory Infinite, Control, Call of Duty: Black Ops Cold War, Cyberpunk 2077, Death Stranding, Justice, Fortnite, Minecraft RTX, Ready or Not, Scavengers, Watch Dogs: Legion и Wolfenstein: Youngblood.

Применение в профессиональном ПО

Видеокарта модели GeForce RTX 3090 предназначена не только для богатых энтузиастов игр на ПК, но и различных представителей современной индустрии, использующих мощь современных графических процессоров в собственной работе: дизайнеры, 3D-аниматоры, ИИ-разработчики, ученые и многие другие, нацеленные на использование самых мощных GPU в мире. Именно GeForce RTX 3090 и является таковым, предлагая максимум всего. Аналогично своему условному предшественнику в виде Titan RTX, новинка несет на борту 24 ГБ быстрой памяти, важной для всех перечисленных категорий пользователей, в частности для обработки видеоданных в формате 8K HDR, а также предлагает высочайшую производительность в вычислительных приложениях, в том числе с аппаратной поддержкой трассировки лучей.

Новое семейство видеокарт GeForce RTX 30 приносит улучшенные возможности по ускорению рендеринга в таких популярных приложениях, как Blender Cycles, Chaos V-Ray и Autodesk Arnold. Помимо вдвое более производительных RT-ядер и удвоенного темпа исполнения математических вычислений в GPU новой архитектуры Ampere, отдельно отметим новую возможность для ускорения смазывания в движении (motion blur) для трассированных изображений, которая ускоряется на RTX 30 в несколько раз, вплоть до пяти. А огромный объем видеопамяти в 24 ГБ позволяет загрузить в нее большие 3D-проекты для аппаратной обработки полностью, без необходимости использования медленной системной памяти.

Новая архитектура Ampere помогает ускорять и приложения искусственного интеллекта, также применяемые в 3D-графике в виде технологии DLSS и постфильтров шумоподавления. Например, технология DLSS повышает производительность рендеринга в реальном времени не только в играх, но и в приложениях визуализации, вроде D5 Render. Тензорные ядра третьего поколения помогают ускорить процесс шумоподавления в рендерерах Blender Cycles, Chaos V-Ray и Autodesk Arnold, а также повысить разрешение видеороликов или улучшить качество замедленного видео в Davinci Resolve.

Серия GeForce RTX 30 отлично подходит для всех перечисленных применений, ведь в число новых возможностей входит поддержка PCI Express четвертого поколения, удваивающая производительность каналов между GPU и остальной системой, что помогает при передача огромных объемов данных при обработке видеороликов высокого разрешения. Для этой же цели будет полезен очень большой объем локальной видеопамяти в 24 ГБ. Многие приложения по работе с видеоданными позволят комфортно работать с множеством эффектов при обработке 8K-видео. А в приложениях с применением трассировки лучей средняя производительность решений на базе архитектуры Ampere в 1,8-2,4 раза выше, чем у аналогичных GPU из семейства Turing:

Мы уже писали о том, что в архитектуре Ampere появилось аппаратное ускорение эффекта смазывания в движении при трассировке лучей. Одним из первых рендереров с поддержкой такой возможности стал Blender Cycles, и в результате процесс ускоряется вплоть до пяти раз. Это в теории, а в реальных сценах поменьше, конечно. Использование RTX-ускорения в рендерере Cycles дает высококачественное смазывание без артефактов при высокой скорости. Blender — это очень популярное ПО для 3D-моделирования, анимации и рендеринга, которое может использовать возможности ускорения трассировки лучей на GPU при помощи Nvidia Optix, как для финального рендеринга, так и при предпросмотре прямо в окне Blender, что дает возможность удобной оценки получаемых материалов, освещения и теней.

Еще один популярный рендерер — OctaneRender. Это независимый рендерер, использующий возможности CUDA и RTX и доступный в большинстве популярных приложений по созданию 3D-контента: Autodesk Maya и 3ds Max, Maxon Cinema 4D, DAZ 3D, Side Effects Houdini, Unreal Engine и других. Также Octane включает полноценный внешний редактор рендеринга, позволяющий отрисовывать сцены без необходимости запуска стороннего ПО. Предварительная версия OctaneRender 2020.1.5 получила поддержку второго поколения RTX, включая аппаратное ускорение трассировки лучей на RT-ядрах и оптимизации работы ИИ на тензорных ядрах — для шумоподавления.

В результате на Ampere достигается производительность примерно вдвое выше, чем на соответствующих Turing. Использование технологий Nvidia для рендеринга с трассировкой лучей и со смазыванием в движении, а также ускоренном при помощи ИИ шумоподавлении, 3D-приложения вроде Blender позволяют специалистам повысить производительность труда и быстрее получать итоговый результат. Также в приложения по созданию цифрового контента потихоньку внедряется и технология DLSS. Это позволяет получить в программе визуализации D5 Render неплохие 35 FPS вместо 19 FPS без DLSS в одной из сцен. То же самое касается и Autodesk VRED 2021, позволяющем получить трассированные изображения высокого качества в реальном времени.

Отметим также относительно новую форму искусства Машинима (Machinima — сочетание machine и cinema), в которой для создания кинематографических шедевров применяются игровые движки и модели и текстуры из игр же. Машинима стала популярной в 90-е годы, и имеет немало поклонников. Компания Nvidia, желающая поддержать таких энтузиастов, представила специальное средство для создания подобных роликов — Omniverse Machinima.

Оно значительно упрощает подобную работу, предоставляя инструменты для просмотра и движок с поддержкой трассировки лучей, корректных физических взаимодействий, включая симуляцию жидкостей и частиц, продвинутых материалов и т. д. Все желающие смогут использовать ресурсы из списка поддерживаемых игр, и при помощи ИИ и собственных действий создавать качественную анимацию кинематографического качества при помощи мощных графических процессоров серии RTX 30.

Создание контента подобной сложности всегда представляло определенные проблемы из-за ограничений игровых ресурсов и имеющихся инструментов для анимации. Довольно сложно создать долгую и реалистичную анимацию современного уровня, но теперь, благодаря внедрению технологий Nvidia, создатели Machinima будут иметь под рукой богатый набор инструментов с расширенными возможностями для создания собственных историй в реальном времени. Для анимации персонажей достаточно веб-камеры, микрофона и специального алгоритма обработки с применением ИИ.

При помощи Nvidia Omniverse можно импортировать ресурсы из поддерживаемых игр и сторонних библиотек ресурсов, а затем автоматически анимировать персонажей при помощи использования специального средства позирования с применением возможностей ИИ и записей с веб-камеры. Лица персонажей можно оживить при использовании технологии Nvidia Audio2Face просто с помощью аудиозаписи с голосом.

Также можно имитировать физические взаимодействия высокой реалистичности с применением систем частиц и симуляции поведения жидкостей. После создания всех сцен, итоговый фильм можно отрисовать с применением трассировки пути при помощи рендерера Omniverse RTX. Бета-версия Nvidia Omniverse Machinima должна появиться в октябре.

Особенности видеокарты Nvidia GeForce RTX 3090 Founders Edition

Сведения о производителе: Компания Nvidia Corporation (торговая марка Nvidia) основана в 1993 году в США. Штаб-квартира в Санта-Кларе (Калифорния). Разрабатывает графические процессоры, технологии. До 1999 года основной маркой была Riva (Riva 128/TNT/TNT2), с 1999 года и по настоящее время — GeForce. В 2000 году были приобретены активы 3dfx Interactive, после чего торговые марки 3dfx/Voodoo перешли к Nvidia. Своего производства нет. Общая численность сотрудников (включая региональные офисы) — около 5000 человек.

Объект исследования: ускоритель трехмерной графики (видеокарта) Nvidia GeForce RTX 3090 Founders Edition 24 ГБ 384-битной GDDR6X

Характеристики карты

Nvidia GeForce RTX 3090 Founders Edition 24 ГБ 384-битной GDDR6X
GPU GeForce RTX 3090 (GA102)
Интерфейс PCI Express x16 4.0
Частота работы GPU (ROPs), МГц 1395—1695(Boost)—1995(Max)
Частота работы памяти (физическая (эффективная)), МГц 4875 (19500)
Ширина шины обмена с памятью, бит 384
Число вычислительных блоков в GPU 82
Число операций (ALU/CUDA) в блоке 128
Суммарное количество блоков ALU/CUDA 10496
Число блоков текстурирования (BLF/TLF/ANIS) 328
Число блоков растеризации (ROP) 112
Число блоков Ray Tracing 82
Число тензорных блоков 328
Размеры, мм 310×125×53
Количество слотов в системном блоке, занимаемые видеокартой 3
Цвет текстолита черный
Энергопотребление пиковое в 3D, Вт 364
Энергопотребление в режиме 2D, Вт 38
Энергопотребление в режиме «сна», Вт 11
Уровень шума в 3D (максимальная нагрузка), дБА 34,7
Уровень шума в 2D (просмотр видео), дБА 18,0
Уровень шума в 2D (в простое), дБА 18,0
Видеовыходы 1×HDMI 2.1, 3×DisplayPort 1.4a
Поддержка многопроцессорной работы SLI (NVlink)
Максимальное количество приемников/мониторов для одновременного вывода изображения 4
Питание: 8-контактные разъемы 1 (12-контактный) c адаптером на 2 8-контактных разъема
Питание: 6-контактные разъемы
Максимальное разрешение/частота, Display Port 7680×4320@60 Гц
Максимальное разрешение/частота, HDMI 7680×4320@60 Гц
Максимальное разрешение/частота, Dual-Link DVI 2560×1600@60 Гц (1920×1200@120 Гц)
Максимальное разрешение/частота, Single-Link DVI 1920×1200@60 Гц (1280×1024@85 Гц)
Средняя розничная стоимость карты Palit около 150 тысяч рублей на момент подготовки обзора

Память

Карта имеет 24 ГБ памяти GDDR6X SDRAM, размещенной в 24 микросхемах по 8 Гбит на обеих сторонах PCB (по 12 на каждой). Микросхемы памяти Micron (GDDR6X, MT61K256M32JE-21) рассчитаны на условную номинальную частоту работы в 5250 (21000) МГц. Расшифровщик кодов на упаковках FBGA находится здесь.

Особенности карты и сравнение с Nvidia GeForce RTX 2080 Ti

Nvidia GeForce RTX 3090 Founders Edition 24 ГБ Nvidia GeForce RTX 2080 Ti 11 ГБ
вид спереди
вид сзади

Прежде всего: почему мы сравниваем с GeForce RTX 2080 Ti? Во-первых, это флагманский продукт предыдущего поколения, как GeForce RTX 3090 является флагманом сейчас. Во-вторых, GeForce RTX 2080 Ti имеет шину обмена с памятью 352 бита, что максимально близко к нынешним 384 битам ширины шины у GeForce RTX 3090. В-третьих, по иронии судьбы, к нам так до сих пор и не прибыли референс-карты GeForce RTX 3080 (с которыми сравнивать, наверно, было бы логичнее).

Очевидно, что референс-дизайн инженеры Nvidia сделали не только уникальным, но и весьма забавным внешне. Впрочем, в Nvidia сделали два варианта дизайна PCB: для своих карт Founders Edition и для партнеров, у последних платы без таких вырезов, немного проще. В целом фирменная карта получилась очень компактной, несмотря на шину обмена с памятью в 384 бита.

Суммарное количество фаз питания у GeForce RTX 3090 просто ошеломляет: 22! Это на 6 больше, чем у GeForce RTX 2080 Ti и GeForce RTX 3080 (там 16). При этом распределение фаз у GeForce RTX 2080 Ti — 13 фаз на ядро и 3 на микросхемы памяти, у GeForce RTX 3080 — 14+2, а у GeForce RTX 3090 — 18+4.

Зеленым цветом отмечена схема питания ядра, красным — памяти. При этом никаких удвоителей (даблеров) фаз нет, для управления схемой питания GPU используются три ШИМ-контроллера Monolithic Power Systems: MP2884 рассчитан на 4 фазы, MP2886 — на 6 фаз, а MP2888 — на управление 10 фазами питания. Первые два расположены на оборотной стороне платы, а третий — на лицевой.

Совместными усилиями они обеспечивают 18 фаз схемы питания GPU. Система питания микросхем памяти включает 4 фазы, которыми заведует один из uS5650Q (uPI Semiconductor).

Второй такой контроллер отвечает за мониторинг состояния платы.

В преобразователе питания, традиционно для всех видеокарт Nvidia, используются транзисторные сборки DrMOS — в данном случае, MP86957 той же Monolithic Power Systems.

У карты необычный коннектор питания — 12-контактный. Причем один.

Еще в начальном видеоролике мы упомянули, что ряд производителей блоков питания, прежде всего Seasonic, объявили о выпуске отдельных кабелей («хвостов») для своих модульных БП для подключения к референс-картам серии GeForce RTX 30. Ну а с самой картой, конечно же, поставляется переходник, позволяющий подключить два 8-контактных коннектора к новому разъему.

Возникает вопрос: зачем эти сложности, если для питания карты все равно задействованы те же два 8-контактных коннектора, под которые совершенно спокойно распаивают два 8-контактных разъема на своих GeForce RTX 3080/3090 партнеры Nvidia? Ведь новый 12-контактный разъем пока встречается только у карт серии Founders Edition. Ответа на этот вопрос пока нет. Впрочем, у карт с двумя 8-контактными разъемами наблюдался повышенный нагрев разъемов питания, чего не было отмечено у референс-карты. Возможно, распределение тока по проводникам в 12-контактном разъеме, как у Founders Edition, более рациональное.

Нагрев и охлаждение

Не случайно в Nvidia решили сделать PCB более компактной: для новых карт задумана специальная система охлаждения.

Основной пластинчатый радиатор, выполненный из медного сплава и очень тяжелый, имеет тепловые трубки, подведенные к теплосъемнику на GPU. Массивная основа (по сути, настоящая рама) охлаждает также микросхемы памяти с лицевой стороны и преобразователи питания VRM. Задняя пластина служит охладителем других 12 микросхем памяти, а также участвует в охлаждении оборотной стороны PCB.

Вентиляторов здесь два (∅95 мм), в обоих используются двойные подшипники. Особенность СО состоит в том, что вентиляторы установлены с разных стороны карты (один с лицевой, другой с оборотной). Замысел создателей прост и сложен одновременно:

Как видно по схеме, правый вентилятор продувает радиатор (ту его часть, куда выведены тепловые трубки) насквозь (через решетку на оборотной стороне). Нагретый воздух поднимается вверх, и его должен подхватить выдувной вентилятор в корпусе системного блока. Левый же вентилятор сразу выдувает горячий воздух за пределы корпуса сквозь отверстия в брекете карты. PCB имеет характерный вырез именно для эффективной работы правого вентилятора. Для эффективной работы такого кулера в корпусе должна быть организована хорошая вентиляция, потому что часть нагретого воздуха будет оставаться в корпусе. Впрочем, абсолютное большинство партнеров Nvidia выпускают карты с системами охлаждения, которые не выбрасывают воздух сразу за пределы корпуса, поэтому такая ситуация является на сегодняшний день совершенно привычной.

Демонтаж такой СО — тот еще квест. Nvidia даже выпустила руководство по корректному снятию и установке кулера. Нашему фотографу пришлось просто ювелирно потрудиться с тонким пинцетом, лупой и т. п.

Ряд разъемов демонстрируют богатую фантазию разработчиков.

Напомним, что обычно видеокарты останавливают свои вентиляторы в простое, при работе в 2D, если температура GPU опускается ниже примерно 60 градусов, и СО при этом становится бесшумной. В случае карты Nvidia GeForce RTX 3090 Founders Edition режим работы кулера иной: для остановки вентиляторов температура GPU должна быть ниже 50 °C, температура чипов памяти — ниже 80 °C, а энергопотребление самого GPU — ниже 35 Вт. Только при соблюдении всех трех условий вентиляторы остановятся. Ниже есть видеоролик на эту тему, где в конце вентиляторы все же останавливаются.

Мониторинг температурного режима с помощью MSI Afterburner:

После 6-часового прогона под нагрузкой максимальная температура ядра не превысила 70 градусов, что является великолепным результатом для видеокарты топового уровня.

Мы засняли и ускорили в 30 раз 8,5-минутный прогрев:

Максимальный нагрев наблюдался в центральной части PCB, причем, с учетом конфигурации системы охлаждения, нагревалась вся карта! Обратите внимание на разъем питания: его нагрев не выделялся на общем фоне, тогда как у других видеокарт на GeForce RTX 3090 два 8-контактных разъема нагреваются очень сильно (об этом мы расскажем в соответствующих обзорах).

Методика измерения шума подразумевает, что помещение шумоизолировано и заглушено, снижены реверберации. Системный блок, в котором исследуется шум видеокарт, не имеет вентиляторов, не является источником механического шума. Фоновый уровень 18 дБА — это уровень шума в комнате и уровень шумов собственно шумомера. Измерения проводятся с расстояния 50 см от видеокарты на уровне системы охлаждения.

  • Режим простоя в 2D: загружен интернет-браузер с сайтом iXBT.com, окно Microsoft Word, ряд интернет-коммуникаторов
  • Режим 2D с просмотром фильмов: используется SmoothVideo Project (SVP) — аппаратное декодирование со вставкой промежуточных кадров
  • Режим 3D с максимальной нагрузкой на ускоритель: используется тест FurMark
Читайте также:  Какая видеокарта на ноутбуке hp 255

Оценка градаций уровня шума следующая:

  • менее 20 дБА: условно бесшумно
  • от 20 до 25 дБА: очень тихо
  • от 25 до 30 дБА: тихо
  • от 30 до 35 дБА: отчетливо слышно
  • от 35 до 40 дБА: громко, но терпимо
  • выше 40 дБА: очень громко

В режиме простоя в 2D температура была не выше 37 °C, вентиляторы не работали, уровень шума был равен фоновому — 18 дБА.

При просмотре фильма с аппаратным декодированием вентиляторы иногда запускались, но не раскручивались выше 500 об/мин, поэтому шум сохранялся на прежнем уровне.

В режиме максимальной нагрузки в 3D температура достигала 70 °C. Вентиляторы при этом раскручивались до 1300 оборотов в минуту, шум вырастал до 34,7 дБА: это отчетливо слышно, но еще не раздражает. В видеоролике ниже видно, как растет шум (шум фиксировался пару секунд через каждые 30 секунд).

Как и в случае с GeForce RTX 3080, с учетом того, сколько данная карта «кушает» (около 364 Вт в максимуме!), шум абсолютно приемлемый, и надо похвалить разработчиков, придумавших такую хитроумную СО.

Подсветка

Подсветка у карты одноцветная (белая), подсвечены логотип и «V»-образные полоски вдоль центрального «креста».

Подсветка не регулируется и не выключается. Благо она минимальная и не раздражает.

Подсветка имеется на обеих сторонах радиатора, питание ее светодиодов и вентиляторов разведено только с одной стороны, поэтому имеется хитроумный разъем для передачи питания на вторую сторону карты.

Комплект поставки и упаковка

Комплект поставки, кроме традиционного руководства пользователя, включает переходник питания на новый 12-контактный разъем с двух 8-контактных коннекторов.

Упаковка вызывает восторг, все очень стильно! Ощущение премиального продукта создается еще при виде коробки. Видео распаковки и восторгов — в начальном ролике 🙂

Тестирование: синтетические тесты

Конфигурация тестового стенда

  • Компьютер на базе процессора Intel Core i9-9900K (Socket LGA1151v2):
    • Компьютер на базе процессора Intel Core i9-9900KS (Socket LGA1151v2):
      • процессор Intel Core i9-9900KS (разгон 5,1 ГГц по всем ядрам);
      • ЖСО Cougar Helor 240;
      • системная плата Gigabyte Z390 Aorus Xtreme на чипсете Intel Z390;
      • оперативная память Corsair UDIMM (CMT32GX4M4C3200C14) 32 ГБ (4×8) DDR4 (XMP 3200 МГц) ;
      • SSD Intel 760p NVMe 1 ТБ PCI-E;
      • жесткий диск Seagate Barracuda 7200.14 3 ТБ SATA3;
      • блок питания Seasonic Prime 1300 W Platinum (1300 Вт);
      • корпус Thermaltake Level20 XT;
    • операционная система Windows 10 Pro 64-битная; DirectX 12 (v.2004);
    • телевизор LG 65NANO996NA (65″ 8K HDR);
    • драйверы AMD версии 20.8.3;
    • драйверы Nvidia версии 452.06/456.16/456.38;
    • VSync отключен.

Тесты GeForce RTX 3090 проводились с выводом картинки на новейший телевизор LG 65NANO996NA, имеющий разрешение 7680×4320, то есть 8К.

8K-матрица телевизора LG Nano99 65″ 8K NanoCell состоит из 33 миллионов пикселей (99 млн субпикселей). Для качественного изображения в 8K важно фактическое число пикселей, но еще важнее, чтобы каждый пиксель был отдельным и отличимым для глаза. Такие телевизоры положили начало новому поколению продуктов и услуг с маркировкой 8K Ultra HD, которые обеспечивают четкость в четыре раза выше, чем у 4K-телевизоров, и в 16 раз выше, чем у Full HD-моделей. Телевизоры LG NanoCell 2020 года создают чистые цвета благодаря мельчайшим наночастицам, которые отфильтровывают некорректные цвета и усиливают чистоту цвета, так что виртуальный мир превращается в настоящую реальность. А благодаря функции Motion Pro вы видите все быстрые и малейшие движения каждого игрока в спортивных соревнованиях без размытости.

NanoCell-телевизоры LG — интеллектуальные. Функция распознавания голоса позволяет управлять интерфейсом SmartTV и контролировать умный дом при помощи технологии LG ThinQ. Также они обеспечивают оптимальное качество HDR-изображения с поддержкой основных форматов HDR, включая HDR 10 и HLG Pro. Dolby Vision IQ грамотно настраивает яркость, цвет и контрастность экрана в зависимости от жанра контента и условий освещения.

Телевизоры LG NanoCell получили сертификат «светобиологической безопасности светодиодов» Underwriters Laboratories (UL), подтверждающий, что излучение от экрана не вредит глазам. В ходе испытаний на светобиологическую безопасность светодиодов оценивается пять показателей: синий свет, актиничное УФ-излучение, ближнее УФ-излучение, инфракрасное излучение и опасность ожога сетчатки глаза. Эти показатели официально утверждены МЭК (Международной электротехнической комиссией) для оценки уровня опасности излучения светодиодов для тела человека. Телевизоры NanoCell превзошли требования по всем показателям.

Мы провели тестирование видеокарты GeForce RTX 3090 со стандартными частотами в нашем наборе синтетических тестов. Он продолжает постоянно меняться, добавляются новые тесты, а некоторые устаревшие постепенно убираются. Мы бы хотели добавить еще больше примеров с вычислениями, но с этим есть определенные сложности. Постараемся расширить и улучшить набор синтетических тестов, и если у вас есть четкие и обоснованные предложения — напишите их в комментариях к статье или отправьте авторам.

Начиная с этого обзора мы полностью отказались от ранее активно использовавшихся нами тестов RightMark3D, так как они устарели слишком сильно, и на столь мощных GPU или не запускаются вообще, или упираются в различные ограничители, не загружая работой блоки графического процессора и не показывая его истинную производительность. А вот синтетические Feature-тесты из набора 3DMark Vantage мы все еще оставили в полном составе, так как заменить их попросту нечем, хотя и они уже изрядно устарели.

Из более-менее новых бенчмарков мы начали использовать несколько примеров, входящих в DirectX SDK и пакет SDK компании AMD (скомпилированные примеры применения D3D11 и D3D12), а также несколько разнообразных тестов для измерения производительности трассировки лучей, программной и аппаратной. В качестве полусинтетического теста у нас также используется и довольно популярный 3DMark Time Spy, а также некоторые другие — например, DLSS и RTX.

Синтетические тесты проводились на следующих видеокартах:

  • GeForce RTX 3090 со стандартными параметрами (RTX 3090)
  • GeForce RTX 3080 со стандартными параметрами (RTX 3080)
  • GeForce RTX 2080 Ti со стандартными параметрами (RTX 2080 Ti)
  • GeForce RTX 2080 Super со стандартными параметрами (RTX 2080 Super)
  • GeForce RTX 2080 со стандартными параметрами (RTX 2080)
  • Radeon VII со стандартными параметрами (Radeon VII)
  • Radeon RX 5700 XT со стандартными параметрами (RX 5700 XT)

Для анализа производительности новой видеокарты GeForce RTX 3090 мы выбрали несколько видеокарт из прошлого поколения компании Nvidia. Для сравнения с относительно аналогичным по позиционированию решением взяли RTX 2080 Ti — как самое дорогое решение предыдущего семейства Turing, если не брать сверхдорогой Titan RTX. Также есть на диаграммах и результаты RTX 2080 (или Super-варианта), просто для подтверждения того, как изменилась производительность GPU новой архитектуры.

У компании AMD соперников для GeForce RTX 3090 в нашем сегодняшнем сравнении снова просто не существует. Ждем конца октября, когда новые Radeon будут объявлены, а скорее даже ноября, когда они появятся у нас на тестах. Ну а пока нам ничего не остается, кроме как снова сравнивать новинки Nvidia с парой видеокарт: результаты Radeon VII присутствуют в качестве самого быстрого решения, хоть уже и давно исчезнувшего из продажи, а также есть Radeon RX 5700 XT — наиболее производительный графический процессор архитектуры RDNA первого поколения.

Мы традиционно рассматриваем устаревшие синтетические тесты из пакета 3DMark Vantage, ведь в них зачастую можно найти что-то интересное, чего нет в других, более современных тестах. Feature тесты из этого тестового пакета имеют поддержку DirectX 10, они до сих пор более-менее актуальны и при анализе результатов новых видеокарт мы всегда делаем какие-то полезные выводы.

Feature Test 1: Texture Fill

Первый тест измеряет производительность блоков текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Эффективность работы видеокарт AMD и Nvidia в текстурном тесте компании Futuremark довольно высока, и тест показывает результаты, близкие к соответствующим теоретическим параметрам, хотя иногда они все же получаются несколько заниженными для некоторых из GPU. Так как GA102 в исполнении RTX 3090 имеет куда большее количество текстурных модулей, по сравнению с RTX 3080, то сегодняшняя новинка показала результат заметно выше — сразу на 25%, что вполне соответствует теоретическим показателям. Прибавка в скорости к показателю прошлого топа RTX 2080 Ti также довольно неплохая.

Сравнивать с очень условными конкурентами производства компании AMD смысла все так же нет, но отметим высокую скорость текстурирования у Radeon VII — так получается из-за большого количества текстурных блоков у него. Посмотрим, что с количеством и возможностями TMU сделают в архитектуре RDNA2, но обычно Radeon имеют сравнительно большое количество блоков текстурирования и с такими задачами справляются несколько лучше видеокарт конкурента не только того же ценового позиционирования, но и более мощных.

Feature Test 2: Color Fill

Вторая задача — тест скорости заполнения. В нем используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне современным.

Цифры из второго подтеста 3DMark Vantage должны показывать производительность блоков ROP, без учета величины пропускной способности видеопамяти, и тест обычно измеряет именно производительность подсистемы ROP. Radeon RX 5700 имеет отличные теоретические показатели, подтверждающиеся результатами этого теста, скорость заполнения у этой модели высока.

Конкурирующие видеокарты компании Nvidia по скорости заполнения сцены почти всегда не так хороши, и хотя GeForce RTX 3090 в этом тесте оказалась снова почти на четверть быстрее RTX 3080, стоящей на ступень ниже, и явно быстрее своей предшественницы RTX 2080 Ti, но разница между последними лишь полуторакратная, хотя вычислительная скорость выросла сильнее. Впрочем, это объяснимо современными типами нагрузок, и новым чипам семейства Ampere нужны другие нагрузки, чтобы показать свою силу. Скорость же заполнения у новинки достаточна для реальных применений.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника давно используется в играх. В нем рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоемкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжелого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчеты освещения по Strauss.

Результаты этого теста из пакета 3DMark Vantage не зависят исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от нескольких параметров одновременно. Для достижения высокой скорости в этой задаче важен правильный баланс GPU, а также эффективность выполнения сложных шейдеров. Это довольно полезный тест, так как результаты в нем всегда неплохо коррелируют с тем, что получается в игровых тестах.

Тут важны и математическая и текстурная производительность, и в этой «синтетике» из 3DMark Vantage новая модель видеокарты GeForce RTX 3090 показала вполне ожидаемый результат на 20% быстрее, чем RTX 3080 и на 40% быстрее своего условного аналога из предыдущего поколения. Вполне вероятно, что схожую картину мы увидим в играх без применения трассировки лучей, когда разница между Turing и Ampere будет меньше двукратной. Если же сравнивать новинку с Radeon, то ее результат неплохой, ведь графические процессоры AMD в этом тесте всегда были сильны. Но сейчас у этой компании просто нет GPU, схожего с GA102 по мощности, так что ждем октября-ноября.

Feature Test 4: GPU Cloth

Четвертый тест интересен тем, что в нем рассчитываются физические взаимодействия (имитация ткани) при помощи GPU. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте должна зависеть сразу от нескольких параметров, и основными факторами влияния должны являться производительность обработки геометрии и эффективность выполнения геометрических шейдеров. Сильные стороны чипов Nvidia должны были проявиться, но мы в который раз получаем явно некорректные результаты в этом тесте, поэтому учитывать результаты всех видеокарт GeForce тут просто нет смысла, они просто неверны. И модель RTX 3090 ничего не изменила, естественно, так как дело в драйверах, которые одинаковы для всех GPU.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи графического процессора. Используется вершинная симуляция, где каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот. Частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Больше всего загружает шейдерные блоки вершинными расчетами, также тестируется stream out.

Во втором геометрическом тесте из 3DMark Vantage мы также видим далекие от теории результаты, но они чуть ближе к истине, чем в прошлом подтесте этого же бенчмарка. Представленные видеокарты Nvidia и в этот раз необъяснимо медленны, и хотя лидером стала рассматриваемая сегодня GeForce RTX 3090, но Radeon RX 5700 XT довольно близка к ней. Впрочем, видеокарты на основе архитектуры Ampere оказались достаточно быстры в этом тесте, новинка на 15% быстрее RTX 3080 и более чем на треть опередила RTX 2080 Ti.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом GPU, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических вычислений.

В этом математическом тесте производительность решений хоть и не совсем соответствует теории, но она обычно ближе к пиковой производительности видеочипов в предельных задачах. В тесте используются операции с плавающей запятой, и новая архитектура Ampere должна бы раскрыть свои уникальные возможности, показав результат заметно выше предыдущего поколения, но увы — видимо, тест слишком устарел и не показывает современные GPU с лучшей стороны.

Наиболее мощное решение компании Nvidia на основе архитектуры Ampere справляется с задачей отлично, обогнав RTX 3080 почти на 30%, и почти в полтора раза быстрее RTX 2080 Ti, хотя по теории разница должна бы быть куда большей. Но и этого хватило, чтобы обойти Radeon VII, но она уже очень стара и сравнивать с ней смысла не очень много. Снова остается ждать выхода RDNA2 и Big Navi, в частности. А сейчас рассмотрим более современные тесты, использующие повышенную нагрузку на GPU.

Переходим к Direct3D11-тестам из пакета разработчиков SDK Radeon. Первым на очереди будет тест под названием FluidCS11, в котором моделируется физика жидкостей, для чего рассчитывается поведение множества частиц в двухмерном пространстве. Для симуляции жидкостей в этом примере используется гидродинамика сглаженных частиц. Число частиц в тесте устанавливаем максимально возможное — 64 000 штук.

В первом Direct3D11-тесте новая GeForce RTX 3090 ожидаемо обошла все остальные видеокарты, хотя преимущество над RTX 3080 получилось лишь 16%. А вот RTX 2080 Ti отстала почти в полтора раза, что неплохо. По опыту предыдущих тестов мы знаем, что GeForce в этом тесте выступают не очень хорошо, и ожидаемые осенью новинки AMD могут выиграть соперничество в этом тесте. Впрочем, судя по крайне высокой частоте кадров, вычисления в этом примере из SDK уже слишком просты для мощных видеокарт.

Второй D3D11-тест называется InstancingFX11, в этом примере из SDK используются DrawIndexedInstanced-вызовы для отрисовки множества одинаковых моделей объектов в кадре, а их разнообразие достигается при помощи использования текстурных массивов с различными текстурами для деревьев и травы. Для увеличения нагрузки на GPU мы использовали максимальные настройки: число деревьев и плотность травы.

Производительность рендеринга в этом тесте больше всего зависит от оптимизации драйвера и командного процессора GPU. С этим дела лучше всего обстоят у решений Nvidia, хотя видеокарты семейства RDNA чуть улучшили позиции конкурирующей компании. Если рассматривать RTX 3090 по сравнению с решениями предыдущего поколения Turing, то разница между аналогичными по позиционированию моделями в этот раз не впечатлила — лишь 25%. Хотя Radeon VII остался далеко позади.

Ну и третий D3D11-пример — VarianceShadows11. В этом тесте из SDK AMD используются теневые карты (shadow maps) с тремя каскадами (уровнями детализации). Динамические каскадные карты теней сейчас широко применяются в играх с растеризацией, поэтому тест довольно любопытный. При тестировании мы использовали настройки по умолчанию.

Производительность в этом примере из SDK зависит как от скорости блоков растеризации, так и от пропускной способности памяти. Новая видеокарта GeForce RTX 3090 показала не слишком высокий результат, если сравнивать ее с RTX 3080. По какой-то причине между ними лишь 4% разницы в скорости, налицо упор во что-то. Ну хоть RTX 2080 Ti отстала далеко, как и единственная представленная Radeon — она слишком далеко от всех GeForce. Хотя частота кадров и тут снова слишком высокая — очередная задача слишком проста, особенно для топовых GPU.

Переходим к примерам из DirectX SDK компании Microsoft — все они используют последнюю версию графического API — Direct3D12. Первым тестом стал Dynamic Indexing (D3D12DynamicIndexing), использующий новые функции шейдерной модели Shader Model 5.1. В частности — динамическое индексирование и неограниченные массивы (unbounded arrays) для отрисовки одной модели объекта несколько раз, при этом материал объекта выбирается динамически по индексу.

Этот пример активно использует целочисленные операции для индексации, поэтому особенно интересен нам для тестирования графических процессоров семейства Turing. Для увеличения нагрузки на GPU мы модифицировали пример, увеличив число моделей в кадре относительно оригинальных настроек в 100 раз.

Общая производительность рендеринга в этом тесте зависит от видеодрайвера, командного процессора и эффективности работы мультипроцессоров GPU в целочисленных вычислениях. Все решения Nvidia отлично справились с такими операциями, хотя новая GeForce RTX 3090 показала результат почти как RTX 3080 и. как RTX 2080 Ti, что несколько странно. Впрочем, единственная Radeon VII выступила заметно хуже всех GeForce — вероятнее всего, дело в недостатке программной оптимизации.

Очередной пример из Direct3D12 SDK — Execute Indirect Sample, он создает большое количество вызовов отрисовки при помощи ExecuteIndirect API, с возможностью модификации параметров отрисовки в вычислительном шейдере. В тесте используется два режима. В первом на GPU выполняется вычислительный шейдер для определения видимых треугольников, после чего вызовы отрисовки видимых треугольников записываются в UAV-буфер, откуда запускаются посредством ExecuteIndirect-команд, таким образом на отрисовку отправляются только видимые треугольники. Второй режим отрисовывает все треугольники подряд без отбрасывания невидимых. Для увеличения нагрузки на GPU число объектов в кадре увеличено с 1024 до 1 048 576 штук.

Читайте также:  Как разобрать видеокарту амд

В этом тесте видеокарты Nvidia доминировали всегда, так что сегодняшний расклад сил неудивителен. Производительность в нем зависит от драйвера, командного процессора и мультипроцессоров GPU. Наш предыдущий опыт говорит также о влиянии программной оптимизации драйвера на результаты теста, и в этом смысле видеокартам AMD похвастать обычно нечем, но подождем новых решений архитектуры RDNA2. Рассматриваемая сегодня GeForce RTX 3090 справилась с задачей лишь на 13% быстрее RTX 3080 и на треть быстрее своей условной предшественницы RTX 2080 Ti.

Последний пример с поддержкой D3D12 — известный тест nBody Gravity. В этом примере из SDK показана расчетная задача гравитации N-тел (N-body) — симуляция динамической системы частиц, на которую воздействуют такие физические силы, как гравитация. Для увеличения нагрузки на GPU число N-тел в кадре было увеличено с 10 000 до 64 000.

По количеству кадров в секунду видно, что эта вычислительная задача довольно сложна, хотя современные GPU справляются с ней заметно легче предыдущих поколений. Сегодняшняя новинка GeForce RTX 3090, основанная на лишь слегка урезанной версии графического процессора GA102, показала достаточно сильный результат, на треть опередив RTX 3080, и более чем на 70% превзойдя уровень производительности RTX 2080 Ti. Похоже, в этой сложной математической задаче сработал и удвоенный темп FP32-вычислений и улучшения в подсистеме кэширования. Radeon VII и тут новинке не конкурент, ждем Big Navi.

В качестве дополнительного вычислительного теста с поддержкой Direct3D12 мы взяли известный бенчмарк Time Spy из 3DMark. В нем нам интересно не только общее сравнение GPU по мощности, но и разница в производительности с включенной и отключенной возможностью асинхронных вычислений, появившихся в DirectX 12. Так мы поймем, изменилось ли что-то в поддержке async compute в Ampere. Для верности мы протестировали видеокарты сразу в двух графических тестах.

Если рассматривать производительность новой модели GeForce RTX 3090 в этой задаче по сравнению с RTX 3080, то новинка быстрее соседней модели в линейке лишь на 10%. Возможно, новинку ограничивало выбранное нами разрешение рендеринга. Зато RTX 2080 Ti из прошлого поколения отстала сразу почти на 40%. Неудивительно, что обе представленные в тестировании видеокарты Radeon отстают от всех GeForce, так как одна из них очень старая, а другая — заметно более дешевая. Что касается асинхронного исполнения, то в этом тесте Ampere и Turing получают примерно одинаковое ускорение при его включении — существенной разницы не видно.

Специализированных тестов трассировки лучей пока что выпущено не так уж много. Одним из таких тестов производительности трассировки лучей стал бенчмарк Port Royal создателей известных тестов серии 3DMark. Полноценный бенчмарк работает на всех графических процессорах с поддержкой DXR API. Мы проверили несколько видеокарт Nvidia в разрешении 2560×1440 при различных настройках, когда отражения рассчитываются при помощи трассировки лучей и традиционным для растеризации методом.

Бенчмарк показывает сразу несколько новых возможностей применения трассировки лучей через DXR API, в нем используются алгоритмы отрисовки отражений и теней с применением трассировки, но тест в целом не слишком хорошо оптимизирован и очень сильно загружает в том числе и мощные GPU, ведь даже на GeForce RTX 3090 мы еле достигли 60 FPS в среднем — и это при традиционной отрисовке отражений. Но для сравнения производительности разных GPU в этой конкретной задаче тест подходит.

Наглядна разница в поколениях видеокарт RTX: решения семейства GeForce RTX 20 показывают близкие результаты, и частота кадров даже у GeForce RTX 2080 Ti довольно низка, а вот обе новые платы GeForce RTX 30 в этой задаче чувствуют себя как рыба в воде, и новинка показывает на 60% более высокие результаты, по сравнению с RTX 2080 Ti, что очень неплохо! Сцены 3DMark Port Royal требовательны к объему видеопамяти, но в этом разрешении рендеринга преимущества у RTX 3090 не обнаружено.

Переходим к полусинтетическим бенчмаркам, которые сделаны на игровых движках, и соответствующие проекты должны выйти в скором времени. Первым тестом стал Boundary — название вы могли видеть на иллюстрации с китайскими игровыми проектами с поддержкой RTX. Это бенчмарк с очень серьезной нагрузкой на GPU, трассировка лучей в нем используется весьма активно — и для сложных отражений с несколькими отскоками луча, и для мягких теней, и для глобального освещения. Также в тесте используется технология DLSS, качество которой можно настраивать, и мы выбрали максимально возможное.

Картинка в этом тесте в целом выглядит весьма неплохо, а вот результат новой GeForce RTX 3090 лишь на 15% выше, чем у RTX 3080. Стоит ли это разницы в цене — решать покупателям. Похоже, что для чисто игрового применения средняя модель из трех анонсированных будет более выгодной. Топовая же на 60% быстрее своей условной предшественницы RTX 2080 Ti, так что результат не такой и плохой. Причем, если в Full HD даже младшая из сравниваемых видеокарт дает искомые 60 FPS, то в 4K только решения линейки RTX 30 обеспечили приемлемую частоту кадров, хотя и ниже считающихся комфортными 60 FPS. В таких случаях можно использовать DLSS меньшего качества.

Второй полуигровой бенчмарк также основан на грядущей китайской игре — Bright Memory. Интересно, что оба теста довольно похожи по результатам и по качеству изображения, хотя по тематике они совсем разные. И все же этот бенчмарк чуть более требователен, особенно к производительности трассировки лучей. В нем новый графический процессор семейства Ampere обеспечил преимущество над RTX 2080 Ti до 65%.

По этим результатам видно, что в RTX-тестах преимущество новой архитектуры налицо, GPU семейства Ampere заметно быстрее в задачах трассировки лучей, по сравнению с аналогами из прошлого семейства Turing. Более продвинутым решениям помогают и улучшенные RT-ядра и удвоенный темп FP32-вычислений, и улучшенное кэширование, и быстрая видеопамять — архитектура выглядит отлично сбалансированной именно для подобных задач. Похоже, это и было главной целью инженеров Nvidia.

Мы продолжаем поиск бенчмарков, использующих OpenCL для актуальных вычислительных задач, чтобы включить их в состав нашего пакета синтетических тестов. Пока что в этом разделе остается довольно старый и не слишком хорошо оптимизированный тест трассировки лучей (не аппаратной) — LuxMark 3.1. Этот кроссплатформенный тест основан на LuxRender и использует OpenCL.

Новая модель GeForce RTX 3090 показала отличные результаты в LuxMark, обогнав RTX 3080 на 20%, а над RTX 2080 Ti ее преимущество составило более двух раз! Именно подобные математически-интенсивные нагрузки с большим влиянием кэширования лучше всего подходят для новой архитектуры Ampere, в этом тесте новые GPU не оставляют шансов конкурентам и предшественникам. Впрочем, подождем топового чипа архитектуры RDNA2, чтобы сделать окончательные выводы. Правда, низкий результат Radeon RX 5700 XT настораживает — вполне возможно, что для этой задачи архитектура RDNA подходит не слишком хорошо. Radeon VII выступает гораздо сильнее.

Рассмотрим еще один тест вычислительной производительности графических процессоров — V-Ray Benchmark — это тоже трассировка лучей без применения аппаратного ускорения. Тест производительности на базе рендерера V-Ray раскрывает возможности GPU в сложных вычислениях и также может показать преимущества новых видеокарт. В прошлых тестах мы использовали разные версии бенчмарка: которая выдает результат в виде времени, затраченного на рендеринг и в виде количества миллионов просчитанных путей за секунду.

Этот тест также показывает программную трассировку лучей и в нем топовая GeForce RTX 3090 лишь на 15% быстрее соседней RTX 3080, имеющей гораздо более низкую цену. Зато все остальные остались где-то далеко позади в пыли — разница между RTX 3090 и RTX 2080 Ti получилась больше двойной. Еще один мощный результат в сложных вычислительных тестах — архитектуре Ampere явно подходят такие задачи, с кучей FP32-вычислений, а также требовательных к скорости и объему кэш-памяти. Radeon RX 5700 XT сильно отстает, хотя он новинке и не конкурент. Вы еще не устали читать, что нужно подождать AMD Big Navi, чтобы сделать окончательные выводы?

В этот раз мы решили включить в материал отдельные тесты технологии DLSS в ее второй версии и в разных режимах качества. Хотя у нас выше уже были проведены тесты трассировки лучей с применением DLSS в приложениях с трассировкой лучей, мы посчитали полезным сделать и отдельное тестирование в 4K- и 8K-разрешениях. Сначала рассмотрим результаты четырех GPU в более низком разрешении, но с DLSS максимального качества:

Без включения технологии DLSS, рендеринг производится в полном 4K-разрешении, и 8 ГБ локальной видеопамяти у RTX 2080 Super для этого явно недостаточно, вот она и просела до слайд-шоу. Остальные ушли вперед, но не слишком далеко — если RTX 3090 обеспечивает почти 30 FPS в среднем, то результат RTX 2080 Ti куда скромнее — почти вдвое ниже. Именно включение DLSS и позволяет поднять производительность до вполне приемлемой — в таком режиме сегодняшняя новинка показывает более чем 50 FPS в среднем, и это уже играбельно. Да и RTX 3080 отстала от нее лишь на 10%-15%. Что же получится при выборе еще более требовательного 8K-разрешения?

Родное разрешение рендеринга 8K негативно сказалось уже на всех моделях видеокарт, ведь даже топовая RTX 3090 обеспечила жалкие 7,5 FPS! А о том, что творится со скоростью рендеринга RTX 2080 Super в таком случае, мы вообще молчим. Получается, что играть в 8K невозможно? Не совсем. Именно из-за подобных ситуаций Nvidia и придумала в свое время технологию DLSS — если раньше она помогала играть в 4K-разрешении с трассировкой лучей, то теперь позволит делать это и в 8K-разрешении.

Для того, чтобы производительность оставалась на приемлемом уровне, мы протестировали 8K-разрешение только в наиболее производительном и наименее качественном варианте Ultra Performance. И даже при этом топовая RTX 3090 доползла лишь до 33 FPS в среднем, но остальные GPU то вообще не дают играбельности. Видите, почему Nvidia заявляет именно GeForce RTX 3090 первой видеокартой для 8K-разрешения? Разница между двумя моделями GPU на базе разных модификаций чипа GA102 составила уже больше 30% — именно поэтому приобретение RTX 3090 может иметь смысл для игр в 8K. Но только с применением DLSS, скорее всего, уж слишком требовательно родное 8K-разрешение.

Тестирование: профессиональные тесты

Нам остается рассмотреть тесты в профессиональных приложениях. Работа с большими детализированными 3D-сценами и текстурами высокого разрешения требует не только мощного графического процессора, но и максимального объема видеопамяти. Это позволяет использовать финальный рендеринг без снижения качества и скорости рендеринга, а в случае обработки видеоданных их больший объем влезет в быструю локальную память GPU, что также ускорит обработку.

Раз толк от RTX 3090 есть в играх в 8K-разрешении, то наверняка он должен проявиться и в приложениях рендеринга и прочей обработки изображений, включая сложные эффекты для видеороликов. Первым в нашем тесте будет OctaneRender, о котором мы писали в теоретической части. Этот популярный рендерер можно использовать в большинстве приложений для создания 3D-контента, он использует возможности CUDA и RTX, а предварительная версия OctaneRender 2020.1.5 получила поддержку второго поколения RTX.

Увы, сам рендерер в реальных условиях нам протестировать не удалось — видимо, из-за «предварительности» версии, он работал явно некорректно, и результаты на нашей тестовой системе получились весьма странными. Зато выделенный бенчмарк всегда работает отлично, позволяет отключать RTX-ускорение и тестирует производительность сразу в нескольких тестовых сценах, отличающихся по нагрузке. Но мы приведем лишь общее количество очков, рассчитанное сразу по всем:

Как видите, разница между семействами RTX 30 и RTX 20 получилась довольно ощутимая, но если с применением возможностей RTX она доходит до двукратной, то в случае отключения аппаратного ускорения составляет лишь 60% для RTX 3090 и RTX 2080 Ti, и 80% для RTX 3080 и RTX 2080 Super. Включение RTX на Turing дает прирост около 10%, а на Ampere сразу до 25%. Явно сказывается повышенная производительность RT-ядер, ведь по теории они почти вдвое быстрее в Ampere, а также удвоенный темп FP32-вычислений и улучшенное кэширование. И если бы в сценах рассчитывался эффект motion blur, то разница стала бы еще большей.

Интересно также и то, что по данным Nvidia, результаты с включенным RTX при рендеринге реальных сцен в определенных условиях на RTX 3090 могут быть еще выше — до двух раз быстрее, чем без RTX. Так иногда получается из-за того, что весь объем ресурсов 3D-сцен входит в 24 ГБ быстрой памяти, и обработка происходит быстрее. В бенчмарке это не совсем так, более того — скорость от включения RTX повышается даже не во всех сценах из четырех тестовых. Мы еще будем разбираться с этим бенчмарком. Возможно, есть смысл сравнения не общего количества очков, а скорости в определенных сценах.

Вторым примером профессионального применения топового решения семейства Ampere будет улучшение рендеринга сложных эффектов для видеороликов высокого разрешения в DaVinci Resolve 16 — Nvidia обещает ускорение на Ampere по сравнению с Turing более чем вдвое, а мы проверим как работает добавление смазывания в движении (motion blur) высокого качества для видеоролика в 8K-разрешении.

DaVinci Resolve сочетает профессиональное редактирование 8K-видео, цветокоррекцию, визуальные эффекты и обработку звука в одной программе. Мы попробовали смоделировать сценарий, когда при рендеринге видео это приложение превышает доступные ресурсы памяти GPU с 8-10 ГБ, что приводит к сбою приложения. Именно такие случаи и показывают преимущество повышенного объема видеопамяти на GeForce RTX 3090. Мы обрабатывали видеоданные в RAW-формате R3D (8K Redcode RAW), а вот настройки ПО:

При работе с RAW-видеофайлами в разрешении 8K, вроде R3D, мощный GPU с большим объемом памяти позволяет декодировать, дебайеризовать и обрабатывать их в реальном времени, а также применять сложные эффекты, активно использующие видеопамять. При использовании GeForce RTX 3090 с 24 ГБ памяти, обработка RAW-видеоролика с наложением эффекта motion blur происходит в реальном времени и очень плавно — в этом примере добавлено 50 для motion blur (внимание, ролики в 8K-разрешении!):

А вот на GeForce RTX 3080 с 10 ГБ локальной видеопамяти подобная задача вообще не работает — процесс просто не запускается:

Более того, на GeForce RTX 3080 рассматриваемая программа для обработки видео при использовании 8K RAW быстро достигает пределов 10 ГБ видеопамяти, что вызывает ошибки ПО, указывающие именно на нехватку памяти GPU:

Такой пример может показаться кому-то искусственным и надуманным, но ведь быстрая обработка RAW-видео в 8K-разрешении требует как вычислительных ресурсов, так и большого объема памяти, и если все требуемые данные входят в локальную видеопамять, то их обработка будет осуществляться заметно быстрее. А если данные не помещаются в 8-10 ГБ буфер GPU, то ПО не может произвести всю обработку полностью на GPU и будет делать это, используя заметно более медленную системную память.

Последним профессиональным тестом будет еще один 3D-пакет — Blender. Это популярное ПО для 3D-моделирования, анимации и рендеринга, которое может использовать возможности ускорения трассировки лучей на GPU при помощи Nvidia Optix, как для финального рендеринга, так и при предпросмотре прямо в окне Blender, что дает возможность удобной оценки качества материалов, освещения и теней. Мы рассмотрим наиболее сложный для GPU случай — сочетание этих двух возможностей.

Использование интерактивной визуализации Cycles сразу в окне вывода Blender — это максимально удобный способ для моделлеров и аниматоров, чтобы видеть картинку с физически корректными материалами и освещением прямо в реальном времени. Возможности Nvidia RTX и шумоподавление OptiX AI позволяют использовать интерактивный рендеринг даже для довольно сложных сцен. При этом, текстуры и модели загружаются в видеопамять, оставаясь там и при запуске финального рендеринга, который также требует собственного куска памяти для работы, ускоренной на GPU. И если запустить финальный рендеринг при включенной интерактивной визуализации, то графический процессор одновременно загружает данные для интерактивной визуализации и финального рендеринга и видеопамяти может не хватить, так как это две параллельные задачи.

Неудивительно, что в относительно сложных сценах запуск финального рендеринга при активном окне с интерактивной трассировкой на GeForce RTX 3080 с 10 ГБ памяти не работает, Blender «падает» при запуске рендеринга, что указывает на нехватку видеопамяти у видеокарты. Ровно то же самое будет и с RTX 2080 Ti и другими GPU с относительно небольшим объемом локальной памяти. А вот кадровый буфер в 24 ГБ на RTX 3090 идеально подходит для подобных задач, предъявляющих повышенные требования к объему видеопамяти.

Если не рассматривать искусственно созданные условия нехватки 8-10 ГБ памяти, то рассматриваемая сегодня модель отлично справилась с поставленной задачей, отрисовав эту сцену в финальном качестве за 2 минуты 18 секунд. Вероятно, если отключить одновременное использование ускорения на GPU для предпросмотра и финального рендеринга, то последний получится осуществить и на других решениях с меньшим объемом памяти, но в этот раз сравнить скорость рендеринга RTX 3090 с другими GPU мы не успели. В Blender Cycles есть возможность использования не только OptiX для финального рендеринга, но и OpenCL, так что мы еще можем вернуться к этому тесту, когда выйдет самое мощное решение на базе архитектуры AMD RDNA2.

Тестирование: игровые тесты

Список инструментов тестирования

Во всех играх использовалось максимальное качество графики в настройках.

  • Gears 5 (Xbox Game Studios/The Coalition)
  • Wolfenstein: Youngblood (Bethesda Softworks/MachineGames/Arkane Studios)
  • Death Stranding (505 Games/Kojima Productions)
  • Red Dead Redemption 2 (Rockstar)
  • Star Wars Jedi: Fallen Order (Electronic Arts/Respawn Entertainment)
  • Control (505 Games/Remedy Entertainment)
  • Deliver Us The Moon (Wired Productions/KeokeN Interactive)
  • Resident Evil 3 (Capcom/Capcom)
  • Shadow of the Tomb Raider (Eidos Montreal/Square Enix), HDR включен
  • Metro Exodus (4A Games/Deep Silver/Epic Games)
Источник