Железный сайт

  • Увеличить размер шрифта
  • Размер шрифта по умолчанию
  • Уменьшить размер шрифта
Главная Видеокарты Обзор видеокарты Asus GeForce GTX 465 Voltage Tweak Edition - Подробный анализ архитектуры GF 100
Обзор видеокарты Asus GeForce GTX 465 Voltage Tweak Edition - Подробный анализ архитектуры GF 100
Рейтинг пользователей: / 20
ХудшийЛучший 
Автор: Александр Мунин   
13.06.2010 11:49
Индекс материала
Обзор видеокарты Asus GeForce GTX 465 Voltage Tweak Edition
Подробный анализ архитектуры GF 100
Эффективность кэширования
Подробнее о блоках Raster и PolyMorph
Усовершенствования качества картинки
Усовершенствования качества картинки (продолжение)
Знакомство с NVIDIA Surround / 3D Vision Surround
GTX NVIDIA 465: Спецификации и позиционирование на рынке
Упаковка и комплектация Asus GTX 465
Подробный осмотр ASUS GTX 465 1 Гб
Тестовый стенд и софт
Aliens Versus Predator (DX11)
BattleField: Bad Company 2 (DX11)
DiRT 2 (DX11)
Far Cry 2 (DX10)
Just Cause 2 (DX10)
Metro 2033 (DX11)
Unigine: Heaven v2.0 (DX11)
Тест 8x MSAA (BF: BC2 / DiRT 2)
Тест 8x MSAA (Far Cry 2 / Just Cause 2)
Нагрев ядра и уровень шума
Результаты разгона Asus GTX 465
Заключение

Подробный анализ архитектуры GF 100 (структура ядра)

Первое, на чем мы остановимся, это подробное описание архитектуры GeForce GF100, для понимания того, что представляет собой видеокарта от NVIDIA.

Многие неправильно полагают, что архитектура Fermi разрабатывалась именно для графических процессоров. Идея применения данной архитектуры в производстве GPU возникла уже потом. Как результат, получена совершенно новая архитектура, поддерживающая среду DX11. В основном, NVIDIA применили наработки из прошлых поколений чипов (G80 & GT200) в GF100.

Архитектура ядра GF100

На изображении выше схематически представлено то, что является основой любой платы GF100 - графическое ядро. Перед тем, как перейти к подробному рассмотрению блоков ядра, скажем, что оно делится на четыре кластера обработки графики (Graphic Processing Cluster или GPC). GPC, в свою очередь, делятся на потоковые мультипроцессоры (Streaming Multiprocessors), блоки растеризации. Каждый блок SM содержит 32 ядра CUDA (они же шейдерные процессоры в предыдущих поколениях). Так как в одном кластере GPC находится 4 блока SM, то общее количество шейдерных процессоров (CUDA) - 128. Тогда не трудно подсчитать, что общее количество ядер CUDA в GF100 равняется 512. Однако платы GTX 480 и GTX 470 довольствуются меньшим числом ядер (480 и 448 соответственно). А в новинке GTX 465 число CUDA сокращено еще больше.

На периферии находится глобальный планировщик GigaThread Engine и шесть контроллеров памяти. Планировщик GigaThread Engine считывает команды CPU из оперативной памяти и копирует их в кадровый буфер видеокарты перед тем, как они будут переданы на обработку в соответствующие блоки. Ядро GF100 имеет шесть 64-бит контроллеров памяти GDDR5, что составляет в общей сложности 384 бит. Память GDDR5 с интерфейсом 384-бит обеспечивает достаточную пропускную способность, чтобы не быть узким местом, как это было в прошлых поколениях видеоадаптеров.

Структура блока SM в составе ядра GF100

Каждый блок SM содержит 32 ядра CUDA. Потоки, получаемые от GigaThread Engine, SM раздает группами по 32 штуки на обработку шейдерным процессорам (CUDA). Одна такая группа называется "варпом". На изображении выше видно, как происходит обработка данных ядрами и блоком SM, который может обрабатывать 32 параллельных потока.

Ближе к основанию SM находятся кеш L1 / L2, Polymorph Engine и четыре текстурных модуля. Всего, максимальное число текстурных модулей в данной архитектуре 64 единицы. Это стало неожиданностью потому, что старшая архитектура GT200 поддерживала до 80 TMU. Однако NVIDIA осуществили множество усовершенствований  архитектуры данных модулей. Их мы рассмотрим позднее.

Структура кэша ядра GF100

Независимо от блоков SM располагаются шесть специализированных модулей ROP по восемь единиц в каждом. В общей сложности получается 48 блоков ROP в противоположность 32-м в архитектуре GT200. Помимо этого отличие от GT200 заключается в том, что вместо того, работать с шиной памяти, блоки ROP связаны с общим кэшем L2, который обеспечивает быстрый доступ к данным.



Понравилась новость? Поделись с друзьями!

Обновлено 08.08.2010 10:14
 

Извините, у Вас недостаточно прав для комментирования.

Заметили ошибку в тексте?

Сообщите админу - выделите текст с ошибкой и нажмите Shift+Enter.
Спасибо!

Подписка на новости сайта


Ваше имя или ник:

Ваш email:

Авторизация

Популярные статьи