A+ A A-

FAQ по AMD Phenom II

  • Обновлено 01.01.2013 20:15
  • Автор: Maikl

9 января 2009 года компания AMD выпустила на рынок новую линейку процессоров – Phenom II.

Обзор AMD Phenom II, часть 2 - 4 ядра для народа

AMD Phenom II x4 940 Black Edition

Спецификации  AMD Phenom II (AM2+)

Cпецификации AMD Phenom II

Roadmap AMD

ланы выпуска
1 квартал
2009г.
2 квартал 2009г.
3 квартал 2009г.
 Phenom II X4
 900 серия   

 940 (AM2+)  
925
 920 (AM2+)
910
 945
 940 (AM2+)
925
920 (AM2+)
910
 945
 940 (AM2+)
925
 920 (AM2+)
910
  Phenom II X4
 800 серия
   
810
805
810
805
810
805
 Phenom II X3
 700 серия 
  
720
710
720
710
720
710

     Практически все процессоры будут выпускаться с сокетом AM3 (за исключением 940 и 920 моделей).

     Что можно сказать о Phenom II

     - Изменилась маркировка процессоров – вместо 4-х значных цифр используются 3-х значные.

     - Архитектура Deneb (800, 900 серии), Heka (700 серия), техпроцесс – 45 нм.

     - Первые модели процессоров будут выпускаться для сокета AM2+, в дальнейшем только  AM3.

     - Встроенный контроллер памяти с поддержкой модулей DDR2-1066 (сокет AM2+), обещается поддержка DDR3 (сокет AM3).

     - Кэш-память суммарным объемом 8 Мб (кэш L2 – 2 Мб, кэш L3 – 6 Мб) для архитектуры Deneb и 7,5 Мб (кэш L2 – 1,5 Мб, кэш L3 – 6 Мб) для архитектуры Heka.

Пара слов об архитектуре Stars (K10) CPU Phenom (Barcelona, Agena) и Phenom II

     В Интернете есть множество статей, посвященных исследованию архитектуры K10, поэтому ее особенности не являются секретом. Однако, для того, чтобы понять суть исследуемого предмета, общее представление о его свойствах иметь следует.

     Некоторые особенности архитектуры Stars

     1. Технология SSE-128

     В архитектуре K8 параллельно могут выполняться 2 SSE операции, однако в этом CPU блоки SSE лишь 64 битные. Все 128-битные SSE операции K8 обрабатывает как две 64-битных операции.

     CPU K-10 (Barcelona) увеличивает разрядность исполнительного блока, который теперь обрабатывает SSE операции, от 64 до 128 бит, соответственно, теперь 128-битные SSE операции не нужно дробить на две 64-битных операции.

     Так как для исполнения 128-битных SSE команд, пропускная способность декодирования увеличилась, ядро Barcelona теперь может обрабатывать 32 байта за такт, вместо 16 байтов у K8. От 32 байтной выборки команд выигрывает не только SSE код, но и целочисленные вычисления.

     AMD расширила у CPU Barcelona интерфейс между L1 кэшем данных и SSE регистрами. Barcelona может совершить две 128-битных SSE загрузки из L1-D кэша за такт, по сравнению с двумя 64-битными загрузками за такт у K8. Также AMD расширила интерфейс между L2 кэшем и контроллером памяти таким образом, чтобы за такт можно было передавать по 128 бит информации.

     2. Предсказатель переходов

     В новом CPU AMD Barcelona модернизирован предсказатель переходов. Чем выше число правильно предсказанных команд, тем большее число исполнительных блоков, может быть задействовано в CPU.

     В CPU Barcelona добавлен предсказатель непрямых переходов с 512 входами. Непрямая ветка – ветка у которой адресат перехода задается адресом в памяти, то есть переход со многими адресатами. Непрямой переход, вместо того, чтобы направить переход непосредственно к метке, заданной командой перехода, отсылает CPU к ячейке памяти с адресом команды, к которой он должен перейти из этой метки.

     Кроме этого у Barcelona – в два раза, в сравнении с K8, увеличен размер стека возврата. В очень длинных цепочках запросов, когда код вызывает много подпрограмм (в частности, рекурсивные функции), CPU может не хватить места для записи начального адреса. Если ЦП потеряет цепочку адресов возврата, он не сможет предсказывать переходы, связанные с этими адресами. Удваивая размер стека возврата, ядро K10 уменьшает вероятность возникновения подобной ситуации.

     3. Sideband Stack Optimizer

     У CPU Pentium M компания Intel ввела механизм, названный «dedicated stack manager» – специализированный диспетчер стека. Этот механизм предназначен для работы со стековыми операциями x86 стека (запись в стек, извлечение из стека, запрос, возврат). Задача диспетчера стека состоит в том, чтобы хранить в коде те операции стека, которые часто используются для вызова функций, отделяя их от остальных x-86 команд. Специализированный диспетчер стека занимается декодированием и «исполнением» этих команд, чтобы они не «забивали» декодеры процессора и исполнительные блоки в конвейере.

     В Barcelona AMD вводит сходную технологию, которая была названа Sideband Stack Optimizer. Команды стека больше не идут через декодер CPU и стековые операции больше не исполняются через исполнительные блоки, что, по идее, эффективно расширяет CPU Barcelona. Sideband Stack Optimizer, как и dedicated stack manager, имеет собственный сумматор, обрабатывающий все операции стека.

     4. Более быстрая (внеочередная) загрузка

     Одним из основных преимуществ микроархитектуры Core является возможность разрешать командам загрузки обходить предыдущие команды загрузки и выгрузки. В среднем около трети всех команд программного кода заканчивается их загрузкой, соответственно, если вы можете увеличить скорость их загрузки, то можете увеличить скорость работы приложения. В микроархитектуре Core можно изменить последовательность загрузок, команды, зависящие от этих загрузок, получат нужные им данные.

     У архитектуры CPU - K8 подобной схемы не было, поэтому даже без интегрированного на кристалле контроллера памяти CPU Core 2 Duo Intel может выполнять некоторые операции с памятью быстрее, чем K8. В Barcelona эта проблема решена вводом аналогичной схемы «быстрой загрузки».

     Теперь и CPU Barcelona может менять очередность и ставить одни загрузки перед другими, загрузка может выполняться перед выгрузками, при условии, что процессор «знает», что обе эти операции не используют один и тот же адрес памяти. Если Intel для определения конфликта выгрузки и загрузки использует предсказатель, то у AMD Barcelona ждет, пока адрес выгрузки не будет вычислен. Работая по такой схеме, Barcelona никогда не ошибается, а значит не может получить сброс всего конвейера. Новый CPU AMD может вычислить до трех адресов выгрузки за такт, у него имеется 3 блока расчета адресов (AGU - Address Generation Unit), по сравнению с одним блоком на выгрузку у Intel, это значит, что у AMD больше вычислительных мощностей для вычисления адреса выгрузки ещё до того, как поставить загрузку перед выгрузкой.

     5. Буфер TLB

     Для кэширования карты виртуальных адресов распределения физической памяти системы используются буферы трансляции-просмотра (Translation Lookaside Buffer - TLB). Частота успешных обращений к TLB весьма высокая, но, однако, так как программы становятся все больше и требуют всё больше памяти, приходится подгонять под них и объемы TLB. Соответственно если у K8 TLB больше, чем у K7, то у CPU Barcelona AMD TLB больше чем в K8.

     TLB у Barcelona поддерживают 1G страницы, которые нужны для баз данных и виртуализации нагрузки. В этом CPU AMD сделала 128 входов 2M L2 TLB, что помогает при работе с новыми программами, для которых нужны большие «страничные» (page) файлы. Усовершенствования TLB у Barcelona заметны в корпоративном использовании в серверных приложениях, для которых нужны большие объемы памяти.

     6. Деление целых чисел

     Выпуская свой второй Pentium M, под кодовым названием Dothan, Intel одним из улучшений сделала меньшую задержку при делении целых чисел. AMD заявляет, что у Barcelona аналогичная задержка также уменьшена.

     AMD в CPU Barcelona перевела несколько команд в микрокоды и сделала их fastpath-инструкциями. Такие команды могут пройти через fastpath-декодер ядра значительно быстрее, чем происходит декодирование обычных микрокоманд. Команды CALL и RET-Imm теперь являются fastpath-командами, что является частью улучшения оптимизации байпасного стека (sideband stack optimization) в Barcelona. Команды MOV из SSE регистров в целочисленные регистры теперь также являются fastpath-командами.

     Кроме того в Barcelona AMD ввела несколько новых расширений для своей технологии ISA. Так, в частности введены две новых команды для работы с битами: LZCNT и POPCNT. Leading Zero Count (LZCNT) считает число первых нулей операции, а Pop Count считает количество всех единиц. Обе эти команды предназначаются для приложений шифрования.

     (POPCNT (Population Count) - это число единичных битов (не обязательно первых). Используется в криптографии при реализации РСЛОС (регистр с линейной обратной связью) и некоторых других алгоритмов. Так, для аргумента 0011000010101101 POPCNT вернет 7, так как в нем 7 единиц).

     7. Новые SSE инструкции

     AMD ввела и 4 новых SSE расширения: EXTRQ/INSERTQ, MOVNTSD/MOVNTSS. Первые два расширения – это маскирование и сдвиг, объединенные в одну команду, две последние – скалярная потоковая выгрузка (потоковая выгрузка, которая может быть применена к скалярным операндам).

     8. Более быстрый контроллер памяти

     У архитектуры Intel - FB-DIMM, используемой в серверах Xeon, является возможность одновременной записи и чтения в буфер/из буфера. С обычной памятью DDR2 можно делать либо запись, либо чтение, что заставляет терять темп при переключении с одной операции на другую. Если эти события происходят случайным образом, на это тратится достаточно много времени, чего бы не было, если бы сначала выполнялись все операции чтения, а после переключения – запись. Контроллер памяти в CPU K8 старается сначала произвести чтение, (на это нужно меньше времени), у ядра K10 контроллер памяти усовершенствован. Вместо того чтобы произвести запись сразу же по приходу этой команды, они записываются в буфер, и как только буфер заполнится до заданного порога, контроллер выполнит подряд все эти операции. Таким образом, сокращаются задержки на переключение чтение/запись, что помогает увеличить пропускную способность и уменьшить задержки.

     У ядра K8 в кристалле один контроллер памяти с 128 битной шиной, а у CPU Barcelona AMD разделила контроллер DRAM на два отдельных 64-битных контроллера. Каждым контроллером можно управлять независимо, поэтому мы получаем некоторое увеличение быстродействия, особенно при задействовании 4 ядер, когда каждое ядро работает со своим потоком данных и своим массивом ячеек памяти.

      Северный мост Barcelona сделан таким образом, чтобы обеспечивать более высокую пропускную способность, чем раньше. У него более объемные буферы, что позволяет поддерживать более высокую пропускную способность, и северный мост уже подготовлен для работы с будущими технологиями памяти (например, DDR3).

     9. Новый блок предвыборки

     Известно, что ядро K8 имеет 2 блока предвыборки на ядро – один для команд, и один для данных. Ядро Barcelona имеет тоже два блока предвыборки, но они улучшены. Самое радикальное изменение в том, что блок предвыборки данных теперь переносит данные прямо в L1 кэш данных, а не в L2 кэш, как у K8. AMD также увеличила гибкость своего блока предвыборки команд L1 кэша, чтобы он мог обрабатывать 2 предстоящих запроса по любому адресу.

     Каждое ядро Barcelona имеет свой набор блоков предвыборки команд, но главное его усовершенствование в том, что теперь у него есть новый блок предвыборки – блок предвыборки DRAM. Данный блок расположен в контроллере памяти, он просматривает все запросы к памяти и старается извлечь из неё данные, которые, по его мнению, понадобятся в будущем. Так как этот блок предвыборки помогает всем четырем ядрам по отдельности, то он помогает всему CPU улучшить производительность, и может эффективно намечать тенденции, которые будут положительно влиять на работу всех ядер. Блок предвыборки DRAM не переносит данные ни в L2, ни в L3 кэш CPU – у него есть собственный буфер, поэтому он не «засоряет» кэши. У этого буфера примерно 20 - 30 строк кэша и он может быть тем же самым буфером, который использует Barcelona для накопления записей, о котором говорилось выше.

     10. Особенности КЭШа третьего уровня

     В настоящее время у двух ядер CPU Core 2 Duo 4 МБ общего L2 кэша, в то время как у самого быстрого процессора AMD на ядре K8 он в 2 раза меньше. Это «отставание» продолжится и в новом CPU Barcelona, (напомню, что каждое из его четырех ядер будет иметь только 512 Kb L2 кэш, что в сумме дает 2 Mb в то время, как у четырехъядерного CPU Intel Kentsfield в уже сейчас имеется 8 МБ L2 кэш на 4 ядра).

     Разместив 4 ядра на одном кристалле, AMD оставив иерархию кэшей K8, добавила третий уровень кэша – общий для всех четырех ядер. Сделанный по 65 нм технологии, четырехъядерный Barcelona будет иметь 2 МБ L3 кэш, доступный для всех четырех ядер, который может быть впоследствии увеличен (впрочем об этом уже говорилось).

     Иерархия кэшей в Barcelona работает следующим образом: сначала L2 кэши заполняются излишками L1 кэшей. Когда кэш полностью заполняется, часть данных, которые не использовались в последнее время, освобождают место для новых данных, а эти данные переписываются в L2 кэш (кэш второго уровня).

     Новый кэш L3 в CPU K10 работает как общий кэш для всех L2 кэшей четырех ядер. Алгоритмы, управляющие работой L3 кэша, стараются сохранять в нем данные, которые могут понадобиться нескольким ядрам. Если CPU сделает выборку кода, его копия останется в L3 кэше, чтобы этот код был доступен всем четырем ядрам, однако простая загрузка данных осуществляется независимо. Контроллер кэш-памяти следит за хронологией, и если данные уже есть в общем доступе, их копия остается в L3 кэше; если нет – они сохраняются.

     У L1 и L2 кэшей ассоциативность не изменена – 2 и 16 уровней соответственно. Однако у нового L3 кэша уровень ассоциативности 32. Это должно повысить число успешных обращений к относительно маленькому, по сравнению с его конкурентами, кэшу.

     11. Улучшение технологии виртуализации

     У CPU Barcelona увеличена скорость переадресации адресов виртуализации. В виртуальном программном стеке, где гипервизор управляет несколькими гостевыми ОС, трансляция адресов памяти происходит по-новому, поэтому нужно производить переадресацию от гостевой ОС к гипервизору, ведь у каждой гостевой ОС свой собственный диспетчер памяти. По мнению AMD, в настоящее время этот новый уровень переадресации осуществляется программно методом shadow paging. В качестве альтернативы shadow paging Barcelona предлагает Nested Paging – свою технологию с аппаратным ускорением.

     Предположительно, что до 75% времени гипервизор может работать с теневыми страницами, которые AMD ликвидирует, научив процессор работать как с гостевыми таблицами страниц, так и с хостовыми. Транслируемые адреса кэшируются в новом большем буфере TLB (о котором уже говорилось выше), что ещё больше увеличивает производительность. Чтобы включить поддержку Nested Paging у Barcelona, достаточно установить соответствующий бит режима, что разработчики ПО могут легко осуществить.

     Основные особенности 45 нм CPU AMD на ядре Deneb

     1. Новые Phenom II X4 выпускаются по технологии 45 нм, имеют площадь ядра 258 кв. мм и содержат 758 млн. транзисторов, Phenom X4 предыдущего поколения, выпускаемые по 65-нм технологии, обладают 450 млн. транзисторов при площади ядра 285 кв. мм. Новые CPU AMD созданные на основе архитектуры Stars решили проблему с недостаточно высокими тактовыми частотами, из-за которых Phenom не могли на равных конкурировать с Core 2 Quad. Сегодня старшим CPU Phenom II, появившимся в продаже является AMD Phenom II X4 940 с штатной тактовой частотой 3,0 Ггц.

     2. В CPU Phenom II X4 на новом ядре Deneb втрое (с 2-х Мб до 6-ти Мб) возрос объем кеша 3-го уровня, что позволяет более эффективно задействовать исполнительные блоки ЦП. Максимальный прирост увеличение объема кеша 3-го уровня должно дать в «кешелюбивых» игровых приложениях. Так ли это станет понятно по результатам тестирования нового ЦП.

     3. Кроме увеличения объёма, кэш-память новых CPU производства AMD стала быстрее, чем у оригинальных Phenom. Её латентность уменьшилась на 2 цикла, однако, при этом в полтора раза увеличилась ассоциативность. L3-кэш процессоров Phenom II X4 имеет 48 областей ассоциативности, в то время как у Phenom X4 он делился на 32 области.

     К сожалению, пока (?!) переход на новый технологический процесс не позволил AMD увеличить тактовую частоту встроенного в ядро CPU северного моста, в Phenom II X4 он работает на 1,8 Ггц, что даже ниже, чем в серийно выпускаемых Phenom Х4 BE (индексы моделей - 9850, 9950). Исходя из здравого смысла, увеличение тактовой частоты северного моста новых ЦП увеличило бы и производительность кеша третьего уровня, а соответственно и производительность CPU в целом, но пока мы этого не видим.

    Впрочем, по моему скромному мнению, относительно низкая тактовая частота северного моста — это вынужденная мера, вызванная необходимостью добиться прироста производительности CPU Phenom II при смене платформы с сокетом AM2+ на платформу с гнездом АМ3. Вероятнее всего, в ЦП, для гнезда AM3, тактовая частота северного моста будет выше - в пределах 2-2,2 Ггц.

     4. В 45-нм CPU AMD улучшена работа алгоритмов предсказания переходов: теперь эти процессоры могут предсказывать косвенные переходы, как это уже реализовано в ЦП основного конкурента. В новом ядре инженеры компании производителя увеличили объемы внутренних буферов загрузки и сохранения данных,  буферов FPU.

     Одним из дополнительных улучшений в новых ЦП AMD является ускорение работы инструкции перемещения значения с плавающей точкой между регистрами процессора. Кроме того в CPU на ядре Deneb введена конвейеризация инструкций с префиксом LOCK, ускорение работы алгоритма поддержания когерентности кэшей при межъядерном обмене данными.

     5. Технология Cool'n'Quiet 3.0 впервые появившаяся в CPU AMD Phenom II X4 (ранее, в ЦП AMD Phenom II имела место предыдущая версия технологии энергосбережения - Cool'n'Quiet 2.0). По заявлениям AMD, новая версия технологии энергосбережения на 50% эффективнее нежели предыдущая версия Cool'n'Quiet 2.0.

     Основные характеристики ЦП AMD Phenom II в равнении с характеристиками CPU Phenom представлены в таблице ниже:

Наименование ядра Agena Deneb
Наименование микроархитектуры Stars (K10) Stars (K10)
Тактовые частоты 2,2-2,6 ГГц 2,8-3,0 ГГц
Кеш 1-го уровня 4х128 (64 Кб данные+ 64 Кб инструкции) 4х128 (64 Кб данные+ 64 Кб инструкции)
Кеш 2-го уровня 4х512 Кб 4х512 Кб
Кеш 3-го уровня 2 Мб 6 Мб
Контроллер памяти Двухканальный DDR-2 (800/1066) SDRAM Двухканальный DDR-2 (800/1066) SDRAM
Тактовая частота шины Hyper Transport 3,6 - 4,0 ГГц 3,6 ГГц
Тактовая частота встроенного в CPU северного моста 1,8-2,0 ГГц 1,8 ГГц
Технология производства 65 Нм 45 Нм
гнездо Socket AM2+ Socket AM2+
Количество транзисторов ~ 450 млн. ~ 758 млн.
Площадь ядра 285 мм2 258 мм2
Тепловой пакет 95-140 W 125 W
Технология энергосбережения Cool'n'Quiet 3.0 Cool'n'Quiet 3.0

Материнские платы

     Производителями материнских плат уже заявлена поддержка сокета AM3, вот некоторые модели:

     - ASUS M4A78 PRO (AMD 780G)

     - ASUS M4A79 Deluxe (AMD 790FX+AMD SB750)

     у нижеследующих потребуется обновление BIOS

     - ASRock AOD790GX/128M (AMD 790GX + AMD SB750)

     - ASRock K10N780SLIX3-WiFi (NVIDIA® nForce 780a SLI)

     - ASRock K10N750SLI-110dB (NVIDIA® nForce 750a SLI)

     - ASRock K10N78-1394, K10N78hSLI-GLAN, K10N78FullHD-hSLI R3.0, K10N78  (NVIDIA® GeForce 8200)

     Более полный перечень материнских плат ASRock, поддерживающих новые процессоры, можно посмотреть в этой новости

Чего ожидать

     На начало января 2009 года в продаже (Интернет-магазины) можно найти 2 модели процессоров:

     - AMD Phenom II X4 940. Рабочая частота 3 ГГц, незаблокированный множитель, сокет AM2+, тепловой пакет – 125Вт, цена около 470$.

     - AMD Phenom II X4 920. Рабочая частота 2,8 ГГц, сокет AM2+, тепловой пакет – 125Вт, цена около 400$.

     Из особенностей можно отметить высокий разгонный потенциал: с воздушной системой охлаждения достигается частота 4 ГГц, а при использовании экстремальных систем охлаждения (жидкий азот) – 6 ГГц.

     Один из вариантов разгона. Тестовая конфигурация:

     - Процессор Phenom II X4 940 3 @ 5,434 ГГц  (охлажденный при помощи жидкого азота до температуры минус 186 градусов по Цельсию).

     - Материнская плата DFI DK 790FXB-M2RSH

     - Оперативная память 2х1Гб GSKILL DDR2 1200

     - Две видеокарты ASUS Radeon HD 4870 X2, работающие в режиме Crossfire.

     Результаты тестов в 3DMark06. Сравнение с другими процессорами.

Тест 3DMark06

Тест SUPER PI

Заключение 

     В настоящее время на роль процессора "для масс" Phenom II еще не походит, т.к. цена высоковата, однако, учитывая неплохой разгонный потенциал и грядущую ценовую войну Intel и AMD в скором времени новые процессорый найдут своих покупателей.

     Источники:

     1. http://www.almodi.org/content/view/11851/

     2. http://www.amd.com

     3. http://people.overclockers.ru/Freevad/record39

     4. http://www.fcenter.ru/online.shtml?articles/hardware/processors/25857

     5. http://www.3dnews.ru/cpu/phenom_two

Комментарии