Реферат на тему Процессоры AMD седьмого поколения K7
Работа добавлена на сайт bukvasha.net: 2015-06-30Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
ДАЛЬНЕВОСТОЧНЫЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Реферат на тему:
Процессоры AMD седьмого поколения (K7)
По дисциплине: Архитектура ПК
2009 г.
Содержание
Введение
1. Процессоры AMD седьмого поколения (K7)
2. Общие сведения о процессоре AMD Athlon (Thunderbird)
2.1 Основные свойства архитектуры процессора AMD Athlon™
2.2 Характеристики процессора AMD Athlon
3. Архитектура процессора AMD Athlon (Thunderbird)
3.1 Микроархитектура
3.2 Системная шина
3.3 Блок операций с плавающей точкой
3.4 Расширенные возможности технологии 3DNow!™
3.5 Архитектура КЭШа
3.6 DDR память
4. Возможности следующего поколения компьютеров
Список источников
Приложение
Введение
К7 - первый из семейства микропроцессоров х86 7-го поколения, в котором присутствуют конструктивные решения, до сих пор не применявшиеся в процессорах архитектуры х86 и сулящие выигрыш в быстродействии даже при одинаковых тактовых частотах. Наиболее впечатляющим из них является, конечно, 200-мегагерцовая системная шина, однако есть и другие, менее заметные на первый взгляд новшества, ставящие К7 выше процессоров 6-го поколения.
1. Процессоры AMD седьмого поколения (K7)
K7 - первые процессоры, выпущенные на платформе PC, которые не только вывели AMD на уровень действительно достойного и мощного конкурента Intel, но и на длительное время стали признанными лидерами по производительности. Архитектура принципиально отличаются от Intel, которая уперлась в свой Slot1 и решила давить конкурентов, никого на него ни в коем случае не пуская. В результате AMD разработала свой интерфейс и в альянсе с VIA Technoliges, а в последствии и с nVidia обеспечила быструю и надежно работающую гибкую связку процессор + чипсет. Это был абсолютно новый кристалл следующего поколения, с тщательно переработанной и проработанной архитектурой. На этот раз особенно впечатлял своими показателями как раз блок арифметики с палавающей запятой (FPU): для него использовалось 3 независимых полностью автоматизированных конвейера, один из которых обеспечивал взаимодействие регистров с памятью (что сильно повышает среднюю производительность), а два других (сложения и умножения) могли одновременно обрабатывать инструкции (их подача осуществлялась конвейерно, в отличии от FPU K6). При этом пиковая производительность при, скажем, 500MHz составляет 1000 Mflops (когда обрабатываются 2-е инструкции за такт). AMD в качестве маркетинговой политики продвигала тезис о том, что конвейер у Athlon меньше (соответственно команды выполняются быстрее), а инструкций за такт больше.
Также был сильно увеличен объем кэш-памяти L1 - 128 Кбайт (по 64 Кбайт для инструкций и данных). Кэш-память L2 - 512 Кбайт, первое время работала на 1/2, 2/5 или 1/3 частоты процессора. Чем тактовая частота процессора выше, тем на относительно меньшей частоте работал кэш процессора "благодаря" вот этим самым делителям. В следствии чего ядро было в скором времени переделано. Был эффективно переработан интерфейс с L2, причем без дублирования данных L1, т.е. размер кэша для процессора суммировался, в отличии от Intel. Осуществлен механизм двойной независимой шины - по отдельному каналу на кэш и на оперативную память. Изменения также коснулись и SIMD блока. Были добавлены 24 новые инструкции, из них 19 для улучшения целочисленного блока MMX и работы с потоковыми данными, а еще 5 - для обработки инструкций DSP (digital signal processor), которые используются в таких программах, как MP3, Dolby Digital, а также в программных модемах. Дополненный набор был именован как "Enhanced 3DNow!". Процессорная шина взята от небезызвестной Alpha - EV-6. Тактовая частота 100 МГц с эффективной частотой передачи данных 200 МГц (упрощенно: по 100 МГц в обе стороны). Процессор поддерживает набор инструкций MMX и расширенный по сравнению с K6-III набор 3DNow!. Форм-фактор - Slot A, а затем и Socket A, который используется по сей день. К7 получил гордое наименование Athlon. Были выпущены модели 500-1000 МГц. Ядро K75 (Slot A, 0,25мкм) - алюминиевые соединения, K76 (Socket A, 0,18, 0,13мкм) и последующие - медные. Терминология процессоров AMD
Теперь пробежимся по терминологии процессоров AMD, ну а что бы не было скучно - продолжим сравнение с линией Intel. Athlon - наименование процессоров, созданных на основе архитектур K7, К75, К76, Thunderbird, Palomino, Thoroughbred и Barton в вариантах Slot A и Socket A (Socket 462). Высокопроизводительные процессоры, ориентированные на сектор рабочих станций с большим быстродействием. При этом изначально цена у них была ниже чем у PIII (в то время - Coppermine), а производительность заведомо выше. Ценовая тенденция сохранилась и до настоящего момента :) Argon - Первое ядро семейства K7. Выпускался по технологии 0,25 мкм от 500-650 МГц. Имел кэш память L2 512 Кб, работающую на половине частоты процессора. Был предназначен для Slot A. Thunderbird - кодовое название 2-го ядра процессоров Athlon, выпущенных по технологии 0,18 мкм с использованием технологии медных соединений. На чипе интегрированы 256 Кбайт полноскоростного эксклюзивного кэша L2 (что решило проблему медленного L2 в первых Athlon). В качестве переходного варианта камень некоторое время выпускался в модификации для Slot A. Однако основным форм-фактором является все же Socket A. Модель с частотой 1,33 ГГц демонстрирует большую производительность на офисных задачах, чем процессор Intel Pentium IV с частотой 1,7 ГГц. Технологический потенциал ядра Thunderbird предоставляет возможность выпуска изделий с частотой до 1,4 ГГц. Однако достойную конкуренцию PIV с его "бешеными мегагерцами" составил кристалл с существенно обновленным ядром… Palomino - кодовое название 3-го ядра процессоров Athlon XP, принявший эстафетную палочку AMD от Thunderbird. C этого ядра AMD, следуя своим традициям, ввела так называемый PR рейтинг, который вместо реальной тактовой частоты указывает некий индекс, сопоставимый с производительностью P4. (т.е. 1500+ по производительности, с точки зрения AMD соответствует P4 1500, даже немного быстрее :) ), хотя его реальная тактовая частота состовляла 1333 МГц). Было произведено несколько незначительных изменений, а результат получился весьма интересным. Первое: обновлен набор SIMD команд, добавлен SSE. Правда, только первая версия (насчет второй с Intel не договорились?), полученный блок называли 3Dnow! Professional. Впрочем, в то время не так много программ были оптимизированны под SSE (ну а SSE2 использовали еще меньше), к тому же не все из них были способны распознать процессорную поддержку (что больше говорит о кривости программ - как правило, они используют старый способ определения поддерживаемости каких-либо инструкций - по CPUID. Естественно, не-интеловские процессоры при таком "технологичном" запросе ничего не говорят, да, собственно, и не обязаны). В любом случае, это шаг в сторону программной совместимости, что вообще-то приятно - нет необходимости волноваться о специальной поддержке в конкретном приложении и медленной работе в случае ее отсутствия. Да и дополнительная производительность в некоторых приложениях с переходом с "обыкновенного" Athlon на XP хоть и иногда, но будет заметна (при поддержке SSE). Тем более, такие бренды, как Adobe (Photoshop etc), с такой поддержкой обычно не затягивают. А в последнее время производители софта стали предусматривать поддержку не только первого, но и второго SSE. Забегая немного вперед, отмечу поддержку SSE2 в поколении AMD K8. Кэш у Palomino экслюзивный, то есть данный в кэше L1 и L2 не дублируются. Дополнительно была реализована опережающая загрузка инструкций в кэш L1, а заодно и механизм TLB (Translation Look-aside Buffer) - кэширование адресов команд и данных (а не их самих), причем приоритет выставлен в пользу данных. С указанной предварительной загрузкой инструкций - выглядит весьма стройным и красивым решением… Улучшен блок предсказания ветвлений что повышает производительность практически во всех приложениях. Хотелось бы также замолвить пару слов про реанимированный Pentium Rating (PR). Для начала просто список приложений, с помощью которых специалисты из AMD его считали. Приложения бизнес класса (офисное ПО): · Business Winstone 2001 · SYSmark 2001 Office Productivity Графика и мультимедиа: · Content Creation Winstone 2001 · SYSmark 2001 Internet Content Creation Игры и игровые бенчмарки: · 3D WinBench 2000 · 3DMark 2001 · Aquamark · Half-Life · Expendable · Quake III · DroneZ · Unreal Tournament · Evolva · MDK2 · Serious Sam В отличие о первого введения PR, здесь это уже не просто рекламный ход, как для К5, но вполне информативный параметр. По 2 теста на разные виды деловых приложений и 11 игровых программ! Роскошно! При этом AMD еще проводит аудит этих своих тестов, и в общем, похоже, она действительно хочет быть объективной, а не только казаться таковой. Кроме того AMD для справки честно объявила настоящие частоты для своих процессоров (таблица приведена далее). Резюмируем: Palomino - высокопроизводительный кристалл с большим количеством высокотехнологических новшеств, и если по "мускулатуре" (частотам и объему кэша) PIV время от времени и урывками выпрыгивает в лидеры гонки, то AMD уж точно можно давать приз за оригинальность исполнения, причем без ущерба производительности. Thoroughbred - кодовое название 4-го ядра процессоров Athlon XP. Никакими новыми функциями по сравнению с Palomino он не обладает. Это "подопытный" AMD, именно на нем она впервые испытала новый техпроцесс 0,13 мкм. В настоящее время выпускается от 1700+ до 2800. Благодаря технологии 0,13 мкм стали доступны более высокие частоты. Топовая модель Throughbred имеет реальную тактовую частоту 2233 при работе FSB - 333 МГц. Это позволяет реально приблизиться к основному конкуренту - P4. Преимущества "более микронной" технологии следующие: уменьшается площадь ядра - следовательно, увеличивается простор для добавления каких-либо микросхем, например кэша (Northwood (512) по сравнению с Willamette (256) - пример от Intel), уменьшается напряжение питания ядра, соответственно уменьшается тепловыделение, и, наконец, открывается возможность увеличивать тактовые частоты, в том числе потому, что микросхемы находятся ближе друг к другу и сигнал проходит быстрее. В общем, такой ход - логичен и ожидаем, и анонс этой "внутренней кухни" многое говорит о перспективах развития конкретного семейства. В настоящее время можно встретить модели от 1700+ до 2700+, процессоры с более высоким рейтингом, как правило, имеют больший объём кэша, это уже Barton (младшая модель Barton 2500+). Следует также отметить великолепный разгонный потенциал 0,13мкм AMD. Начиная с Thoroughbred, наконец убрали "принудительную честность", выраженную в виде заблокированного множителя частоты процессора (что повсеместно присутствует у Intel). Теперь, когда множитель разблокирован, если это предусмотрено возможностями материнской платы, умножение по умолчанию можно запросто поменять. Например, если очень постараться, использовать качественную мать, грамотно подойти к напряжению и охлаждению, то некоторые модели Thoroughbred 1700+ разгоняются аж до 2900+ (по данным www.overclockers.ru). Верхние модели Throughbred с относительно низкой тактовой частотой вполне реально приближаются к основному конкуренту - P4. Для иллюстрации изменений посмотрим таблицу с тремя представителями каждого ядра:
-
Модель
Тактовая частота, МГц
Площадь ядра, мм2
Напряжение питания ядра, В
Максимальная мощность тепловыделения, Вт
AMD Athlon XP (Palomino) 1900+
1600
128
1,75
68,1
AMD Athlon XP (Palomino) 2000+
1667
1,75
70,0
AMD Athlon XP (Palomino) 2100+
1733
1,75
71,9
AMD Athlon XP (Thoroughbred) 2000+
1667
80
1,60
60,3
AMD Athlon XP (Thoroughbred) 2100+
1733
1,60
62,1
AMD Athlon XP (Thoroughbred) 2200+
1800
1,65
68,0
Максимальные частоты (в смысле рейтинг частоты) Thoroughbred в настоящее время дошли до 2800+, выпущена новая версия ядра - степпинг 1(B). Доработаны недочеты начального варианта, уменьшена мощность тепловыделения, повысилась надежность и стабильность работы, что позволяет в большинстве тестов успешно конкурировать с PIV, в связи с чем AMD несколько поменяло политику своего PIV рейтинга, вот частотная таблица (обновленна в декабре 2003 года, указаны все модели Athlon XP на тот момент):
-
Рейтинг
Кэш L2. Кб
Множитель / FSB / МГц
Palomino
T-bred A
T-bred B
Barton
3200+
512
11*200 = 2200
—
—
—
X
3000+
512
10.5*200 = 2100
—
—
—
X
3000+
512
13*166 = 2167
—
—
—
X
2800+
512
12.5*166 = 2083
—
—
—
X
2800+
256
13.5*166 = 2250
—
—
X
—
2700+
256
13*166 = 2167
—
—
X
—
2600+
512
11.5*166 = 1917
—
—
—
X
2600+
256
12.5*166 = 2083
—
—
X
—
2600+
256
16*133 = 2133
—
—
X
—
2500+
512
11*166 = 1833
—
—
—
X
2400+ | 256 | 15*133 = 2000 | — | — | X | — |
2200+ | 256 | 13.5*133 = 1800 | — | X | X | — |
2100+ | 256 | 13*133 = 1733 | X | X | X | — |
2000+ | 256 | 12.5*133 = 1667 | X | X | X | — |
1900+ | 256 | 12*133 = 1600 | X | X | X | — |
1800+ | 256 | 11.5*133 = 1533 | X | X | X | — |
1700+ | 256 | 11*133 = 1466 | X | X | X | — |
1600+ | 256 | 10.5*133 = 1400 | X | — | — | — |
1500+ | 256 | 10*133 = 1333 | X | — | — | — |
Поскольку при все большем увеличении частоты производительность растет все меньше и меньше, с версии 2400+, можно увидеть большее увеличении частоты, чем выводится из общей формулы AMD для процессоров с маркировкой XP. Должно бы быть 1800+2*66=1933 МГц, а реально 2000. И немного по другому: разница между 2600+ и 2700+ всего 33MHz, однако переход на 166 МГц шину позволяет увеличить рейтинг при такой малой разницы частоты. Все это в очередной раз свидетельствует о честном подходе AMD к данному рейтингу как к показателю реальной производительности процессора, а не к пустым ничего не значащим цифрам. Barton - кодовое название 5-го ядра процессора Athlon XP. Отличает Barton от Throughbred кэш-память второго уровня 512 кб и шина 333 (400). Будут выпускаться от 2500+, 2800+ , 3000+ 3200+ (шина 400 МГц). До 3500+ (если будут :) ). Больше отличий нет.
Посмотрите, ядро Barton (справа) немного удлинено из-за большего объёма кэша:
Частотная политика AMD реализованная в модельном ряде Barton представляется мне несколько сомнительной. Выпущен кристалл с рейтингом 3000+, реальная частота которого 2167. Такая же частота у Thoroughbred 2700+, а у 2800+ частота уже выше(2233MHz). Получается что Barton 3000+, хоть и быстрее предыдущей модели 2800+, но не строго. Потому что с увеличением кэша, увеличение быстродействия во многом зависит и от приложения, а иногда его может не наступить вообще. В отличии от всех предыдущих моделей, когда при увеличении рейтинга, увеличивалась и частота. А при увеличении частоты производительность увеличивается всегда. Соответственно росло и быстродействие всей линейки, пусть и не равномерно, особенно с учётом разгона по частоте с 133 на 166 на последних моделях. Но - постоянно, от модели к модели. А теперь, с учётом того, что у 2800+ частота выше, возможно в некоторых приложениях он окажется даже быстрее. Впрочем основные усилия AMD сосредотачивает на K8, а модельный ряд К7, с надрывом достигает возможных и невозможных для него пределов, повторяя историю К6. Кстати и увеличение кэша до 512Мб погоды не делает - в случае большого потока данных кроме кэша ещё необходима быстрая связь с контроллером памяти (как впрочем и с остальными устройствами), а шина FSB (процессор-северный мост, через который процессор может соединяться со всеми устройствами, в том числе и с контроллером памяти) обладает пропускной способностью всего 2700Мб/с (при 166МГц, результирующая - 333 МГц), чего явно не достаточно. Добавленно декабрь 2003: для сравнения у Intel с 800MHz шиной пропускная способность состовляет 6400Мб/с. Чем больше частота процессоров AMD, тем более сказывается эффект узкой шины. Thorton - кодовое название 6-го ядра процессора Athlon XP. Это ядро завершает всю линейку K7. Младший брат ядра Barton комплектуется кэш-памятью второго уровня 256 Кб. Возможно появление таких процессоров с рейтингом от 3000+ и выше. Поддерживает технологию как и Athlon XP Barton "Bus Disconnect", которая в случае перегрева отключает процессор от системной шины. Duron - семейство процессоров K7, ориентированных на сектор компьютеров Low-End. Являются конкурентами процессоров Celeron, однако обладают меньшей ценой и большей производительностью при равных рабочих частотах. Построены на варианте ядра Thunderbird с урезанной до 64 Кбайт кэш-памятью L2. Выпускаются только в форм-факторе Socket A. Spitfire - кодовое название 1-го ядра Duron. Основано на ядре Thunderbird с урезанным в 4 раза кэшем 2-го уровня.
Morgan - кодовое название 2-го ядра Duron. Основано на ядре Palomino с урезанным в 4 раза кэшем 2-го уровня.
Appaloosa - кодовое название 3-го ядра Duron. Основано на ядре Thoroughbred с урезанным в 4 раза кэшем 2-го уровня. Должен был выпускаться с шиной 266 мгц при 0,13 техпроцессе. Ни одного экземпляра процессора выпущено не было. Этот процессор мог бы помешать продажам Athlon нижних частот, и поэтому AMD от него отказалась. Athlon MP - серверная версия Athlon XP, с хорошей масштабируемостью в 2-х процессорных системах, по маркетинговым соображениям вышел раньше Athlon XP. Вполне возможно, что новые ядра процессоров AMD получат технолонию виртуальной многоядерности, или даже реальной - в сервереных кристаллах. Intel уже имеет технологию виртуальной двухпроцессорности. Носит она название Hyper-Threading. Для иллюстрации подобного рода решений несколько слов о её работе. Технология очень кстати для многозадачности и задач с множеством потоков, а это востребованно практически повсеместно. Разумеется, для этого необходима поддержка многопроцессорности на уровне операционной системы (есть в Win2k - NT, 2000, XP, в различных Linux и Unix, в Win9x такой поддержки нет); для увеличения производительности в отдельном приложении важно, учитывалось ли при разработке распараллеливание кода на несколько процессоров. Реализовано Hyper-Threading в виде дополнительного набора регистров. Получается 2 независимых регистровых блока + процессорное ядро. В итоге могут исполняться 2 независимых участка кода на одном ядре - 2 процессорная система de facto. Однако необходимо учитывать, что "второй" процессор - логический, поэтому при загрузке процессора множеством потоков производительность растет (за счёт более "плотной" загрузке ядра потоками), но совсем не настолько, как при наличии второго физического ядра (или как у двухпроцессорных систем). В этой гонке основные козыри PIV перед AMD - SSE2 и широкая полоса пропускания шины процессор-память - практически единственные явные технологические преимущества Intel за долгое время. В спецификации Northwood увеличен кэш L2 до 512 Кб, что является традиционной для Intel "игре мускулами". Полоса пропускания взята с большим запасом и пока еще до конца не востребована, что дает возможность Intel спокойно и планомерно повышать частоты процессоров, сохраняя практически линейную масштабируемость, сосредотачивая усилия на оптимизации технологии изготовления, рекламных компаниях и будущих планах. Большинство приложений в первую очередь пишется с учетом технологий Intel, что делает эту компанию "законодателем мод", что способствует продаже процессоров в целом. Поэтому Intel, не обладая наиболее интересными и концептуально стройными решениями, но применяя свои наработки вовремя, к месту и в достаточном количестве, в данный момент является лидером по показателям абсолютной производительности.
Теперь более подробно рассмотрим архитектуру процессора AMD Athlon.
2. Общие сведения о процессоре AMD Athlon (Thunderbird)
AMD Athlon (Thunderbird) - первый выпускаемый серийно процессор седьмого поколения микроархитектуры x86 - наиболее мощный микропроцессор для x86-совместимых компьютеров. Все семейство процессоров AMD Athlon™ разрабатывается как ядро x86-совместимых компьютеров следующего поколения. Разработка этих процессоров явилась ответом на все возрастающие требования к вычислительной мощи процессоров, предъявляемых со стороны современного программного обеспечения, используемого на персональных компьютерах высокого уровня, рабочих станциях и серверах. Процессоры AMD Athlon для настольных компьютеров выпускались в двух вариантах корпусов: SECC (все модификации) и FCPGA (Thunderbird).
Процессор Athlon в корпусе SECC представляет собой полностью закрытый картридж, содержащий процессорную плату с установленным на ней ядром процессора (во всех модификациях), а также микросхемами кэш-памяти BSRAM (во всех модификациях, кроме процессоров на ядре Thunderbird). Процессор предназначен для установки в 242-контактный щелевой разъём Slot A. В процессорах, основанных на ядрах Argon, Pluto и Orion, кэш-память второго уровня работает на частоте от трети до половины частоты ядра, а в процессорах на ядре Thunderbird — на частоте ядра.
На процессорной плате также находится ножевой 40-контактный технологический разъём, закрытый картриджем. Разъём содержит контакты, отвечающие за установку напряжения питания и тактовой частоты. С помощью специального устройства, подключаемого к процессору, возможно изменение этих параметров[2].
Картридж состоит из двух частей: металлической теплоотводной пластины, контактирующей с кристаллом процессора и микросхемами кэш-памяти (в случае с процессорами, имеющими внешний кэш), а также пластикового кожуха, закрывающего процессорную плату и защищающего установленные на ней элементы от повреждений. Маркировка находится на верхней грани картриджа.
Процессоры Athlon в корпусе типа FCPGA предназначены для установки в системные платы с 462-контактным гнездовым разъёмом Socket A и представляют собой подложку из керамического материала с установленным на ней открытым кристаллом на лицевой стороне и контактами на обратной (453 контакта). Существовали также процессоры с органической подложкой, выпущенные ограниченной партией[3]. На стороне ядра расположены SMD-элементы, а также контакты, задающие напряжение питания и тактовую частоту (обычно называемые мостиками). Контакты располагаются группами, которые имеют обозначения L1 — L7. Маркировка нанесена на кристалл процессора.
Изначально кристалл не был защищён от сколов, которые могли происходить в результате перекоса радиатора при его неправильной установке неквалифицированными пользователями, однако вскоре появилась защита от перекосов в виде четырёх круглых прокладок, расположенных в углах подложки. Несмотря на наличие прокладок, при неаккуратной установке радиатора неопытными пользователями кристалл всё же мог получать трещины и сколы (процессоры с такими повреждениями обычно назывались "ко́лотыми"). В ряде случаев процессор, получивший существенные повреждения кристалла (сколы до 2—3 мм с угла), продолжал работать без сбоев или с редкими сбоями, в то же время, процессор с незначительными сколами мог полностью выйти из строя. Простейший способ проверки процессора на наличие сколов кристалла заключался в проведении по граням кристалла ногтем[4]. В случае наличия сколов палец явно ощущал шероховатость. При наличии лупы или микроскопа сколы определялись визуально. Однако соблюдение мер предосторожности при сборке или установка опытным сборщиком, вместо самостоятельной установки, исключали механические повреждения процессоров с открытым ядром, таких, как процессоры семейства AMD K7 или Intel Pentium III и Celeron с ядром Coppermine.
2.1 Основные свойства архитектуры процессора AMD Athlon™
К основным свойствам архитектуры процессора AMD Athlon™ относятся:
Первая, оптимизированная для работы с высокой тактовой частотой, суперконвейерная, суперскалярная микроархитектура, предназначенная для выполнения 9 инструкций за один такт. Включает в себя:
Несколько параллельных декодеров x86-инструкций;
Три суперскалярных внеочередных конвейера для выполнения вычислений с плавающей точкой, включая инструкции MMX™ и 3DNow!™;
Три суперскалярных внеочередных конвейера для целочисленных вычислений;
Три суперскалярных внеочередных конвейера для генерации адресов;
Контроль за 72 инструкциями;
Усовершенствованное динамическое предсказание ветвлений;
Расширение возможностей технологии 3DNow! для достижения высокой производительности.
21, уже применяющаяся инструкция технологии 3DNow!, первой технологии расширяющей возможности суперскалярной обработки SIMD;
19 новых инструкций улучшающих расчеты с целочисленными данными, необходимыми для кодирования голоса и видео и интенсификации обмена данными, как для Internet-приложений, так и для любых других приложений требующих потока данных;
5 новых DSP-инструкций для программных модемов, ADSL, Dolby Digital, и приложений использующих MP3;
Совместимость с Windows 98, Windows ME, Windows NT 4.x и Windows 2000 без какой-либо коррекции программного обеспечения. 266-МГц (а в будущем и 400-МГц) системная шина AMD Athlon, обеспечивает небывалую полосу пропускания для приложений требующих интенсивного обмена данными.
Технология синхронизации исходящих данных;
8-разрядная коррекция (ECC) для контроля целостности пересылаемых данных;
Максимальное значение ширины полосы пропускания от 1,6 до 3,2 Гб/с;
Поддержка многопроцессорной обработки - топология точка-точка, с числом процессоров в многопроцессорных системах определяемым вариантом реализации чипсета;
Поддержка 24 отложенных транзакций на процессор.
Процессор AMD Athlon имеет полноскоростной кэш первого уровня включающий в себя 64 Кбайт кэш инструкций и 64 Кбайт кэш данных, дающих в сумме 128 Кбайт. Интегрированный на кристалл полноскоростной кэш второго уровня имеет объем 256 Кбайт. Таким образом суммарный объем полноскоростного кэша составляет 384 Кбайт.
Кристалл процессора содержит приблизительно 37 млн. транзисторов на площади 120 мм2.
Изготавливается по современной 0.18 микронной технологии компании AMD с применением медных проводников на заводе Fab 30 (г. Дрезден, Германия).
2.2 Характеристики процессора AMD Athlon
Чип, производимый по технологии 0.25 мкм
Ядро нового поколения с кодовым именем Argon, содержащее 22 млн. транзисторов
Работает в специальных материнских платах с процессорным разъемом Slot A
Использует высокопроизводительную системную шину Alpha EV6, лицензированную у DEC
Кеш первого уровня 128 Кбайт - по 64 Кбайта на код и на данные
Кеш второго уровня 512 Кбайт. Расположен вне процессорного ядра, но в процессорном картридже. Работает на половинной частоте ядра
Напряжение питания - 1.6В
Набор SIMD-инструкций 3DNow!, расширенный дополнительными командами. Всего 45 команд.
Выпускаются версии с частотами 500, 550, 600 , 650 и 700МГц.
3. Архитектура процессора AMD Athlon (Thunderbird)
Процессор седьмого поколения AMD Athlon (Thunderbird) использует, на данный момент наиболее совершенную микроархитектуру x86. Сочетание указанных ниже свойств предоставляет тем, кто работает с системами на базе AMD Athlon (Thunderbird) не только высокую вычислительную мощь, но и дает уверенность в том, что архитектура их системы не устареет, по крайней мере, в ближайшее время.
3.1 Микроархитектура
Как и процессоры от Intel с ядром, унаследованным от Pentium Pro, процессоры Athlon имеют внутреннюю RISC-архитектуру. Это означает, что все CISC-команды, обрабатываемые процессором, сначала раскладываются на простые RISC-операции, а потом только начинают обрабатываться в вычислительных устройствах CPU. Казалось бы, зачем усложнять себе жизнь? Оказывается, есть зачем. Сравнительно простые RISC-инструкции могут выполняться процессором по несколько штук одновременно и намного облегчают предсказание переходов, тем самым позволяя наращивать производительность за счет большего параллелизма.
Говоря более просто, тот производитель, который сделает более "параллельный" процессор, имеет шанс добиться превосходства в производительности гораздо меньшими усилиями. AMD при проектировании Athlon, по-видимому, руководствовалась и этим принципом. Однако перед тем, как начать работу над параллельными потоками инструкций, процессор должен их откуда-то получить.
Для этого в AMD Athlon, как впрочем и в Intel Pentium III, применяется дешифратор команд (декодер), который преобразует поступающий на вход процессора код.
Дешифратор в AMD Athlon может раскладывать на RISC-составляющие до трех входящих CISC-команд одновременно.
Структура поцессора AMD Athlon (Thunderbird)
Современные интеловские процессоры могут также обрабатывать до трех команд, однако если для Athlon совершенно все равно, какие команды он расщепляет, Pentium III хочет, чтобы две из трех инструкций были простыми и только одна - сложной. Это приводит к тому, что если Athlon за каждый процессорный такт может переварить три инструкции независимо ни от чего, то у Pentium III отдельные части дешифратора могут простаивать из-за неоптимизированного кода.
Кристалл процессора AMD Athlon (ThunderBird)
Перед тем, как попасть в соответствующий вычислительный блок, поступающий поток RISC-команд задерживается в небольшом буфере (Instruction Control Unit), который, что уже неудивительно, у AMD Athlon расчитан на 72 инструкции против 20 у Pentium III. Увеличивая этот буфер, AMD попыталась добиться того, чтобы дешифратор команд не простаивал из-за переполнения Instruction Control Unit.
Еще один момент, заслуживающий внимания - вчетверо большая, чем у Pentium III, таблица предсказания переходов размером 2048 ячеек, в которой сохраняются предыдущие результаты выполнения логических операций. На основании этих данных процессор прогнозирует их результаты при их повторном выполнении. Благодаря этой технике AMD Athlon правильно предсказывает результаты ветвлений где-то в 95% случаев, что очень даже неплохо, если учесть, что аналогичная характеристика у Intel Pentium III всего 90%.
Процессор AMD Athlon (Thunderbird) представляет собой суперконвейерную, суперскалярную и оптимизированную для работы на высоких тактовых частотах микроархитектуру, способную выполнять девять инструкций за один такт. Соответственно, AMD Athlon™ оснащен девятью конвейерами: три из них - для вычислений адреса, три для целочисленных операций и три для выполнения x87-команд (операции с плавающей точкой), а так же инструкций из наборов 3DNow!™ и MMX™.
3.2 Системная шина
Прежде чем углубляться в сам процессор, посмотрим, чем же отличается системная шина EV6, примененная AMD, от привычной интеловской GTL+. Внешнее сходство бывает обманчиво. Хотя процессорный разъем Slot A на системных платах для процессора AMD Athlon выглядит также как и Slot 1, перевернутый на 180 градусов, шинные протоколы и назначения контактов у Intel Pentium III и AMD Athlon совершенно различны. Более того, различно даже число задействованных сигналов - Athlon использует примерно половину из 242 контактов, в то время как Pentium III всего четверть. Внешняя похожесть вызвана тем, что AMD просто хотела облегчить жизнь производителям системных плат, которым не придется покупать особенные разъемы для установки на Slot A системные платы. Только и всего.
На самом же деле, хоть EV6 и работает на частоте 100 МГц, передача данных по ней, в отличие от GTL+ ведется на обоих фронтах сигнала, потому фактическая частота передачи данных составляет 200 МГц. Если учесть тот факт, что ширина шины EV6 - 72 бита, 8 из которых используется под ECC (контрольную сумму), то получаем скорость передачи данных 64бита х 200 МГц = 1,6 Гбайт/с. Напомню, что пропускная способность GTL+, работающей на 100 МГц в два раза меньше - 800 Мбайт/с. Повышение частоты GTL+ до 133 МГц дает увеличение пропускной способности при этом только до 1,06 Гбайт/с. Казалось бы, как в случае с GTL+, так и с EV6 получаются внушительные значения пропускной способности. Однако, только современная PC100 память может отожрать от нее до 800 Мбайт/с, а AGP, работающий в режиме 2x - до 528 Мбайт/с. Не говоря уже о PCI и всякой другой мелочевке. Получается, что GTL+ уже сейчас может не справляться с передаваемыми объемами данных. У EV6 же в этом случае все в порядке, потому эта шина более перспективна.
При этом, как частота GTL+ может быть увеличена со 100 до 133 МГц, планируется, что и частота EV6 также впоследствии достигнет значения 133 (266), а затем и 200 (400) МГц. Однако планы эти могут и не осуществиться - реализовать работу на материнской плате EV6, требующую большего количества контактных дорожек, несколько сложнее, особенно на больших частотах. Хотя если у AMD все получится, пропускная способность системной шины может достичь 2.1 и 3.2 Гбайта/с соответственно, что позволит беспрепятственно применять в Athlon-системах, например, высокопроизводительную 266-мегагерцовую DDR SDRAM.
Еще одна интересная особенность EV6 заключается в поддержке многопроцессорных систем, на рынок которых AMD планирует выйти в наступающем году. В отличие от GTL+, EV6 обеспечивает соединение точка-точка между процессорами и чипсетом, что позволяет выделить всю пропускную способность шины для каждого процессора. Теоретически таким образом может подключаться до 14 процессоров. Ограничения же на количество процессоров в интеловских системах обусловлено, в частности, и тем фактом, что общая пропускная способность GTL+ делится поровну между CPU. Потому, EV6 кажется перспективной и при использовании в многопроцессорных системах.
Сравнение шины EV6 (AMD) c GTL+ (Intel)
EV6 GTL+
Системная шина процессора AMD Athlon (Thunderbird) - первая 266-MHz системная шина для x86-платформ. Системная шина процессора AMD Athlon (Thunderbird) разработана по предложенной компанией DEC, масштабируемой и предполагающей многопроцессорную обработку данных, технологии Alpha™ EV6, что обещает беспрецедентную производительность оснащенных этой шиной систем. Шина AMD Athlon построена на принципе "точка-точка", что так же способствует значительному росту производительности как для однопроцессорных, так и для много процессорных систем.
3.3 Блок операций с плавающей точкой
Athlon (Thunderbird) содержит 3 узла вычислений с плавающей точкой (fpu), любой из которых способен принимать на вход инструкции каждый такт работы процессора. При этом один узел предназначен исключительно для выполнения команды FSTORE! Назначение этого узла - обеспечивать обмен между регистрами и памятью в то время, как процессор выполняет другие инструкции. Такой подход, хотя и не повышает пиковую производительность, позволяет достичь более высокой средней производительности, что во многих случаях важнее. Остальные два fpu состоят из блока сложения (adder) и блока умножения (multiplier). Оба блока используют конвейеры (fully pipelined). Архитектура каждого fpu такова, что он может принимать на вход каждый такт одну инструкцию сложения и одну умножения, что дает пиковую производительность 1000MFLOPS при 500МГц. Ближайшим аналогом с точки зрения архитектуры является Pentium II, у которого также присутствуют adder и multiplier. Однако существуют два основных отличия. Во-первых, у PII только adder является полностью конвейеризованным (fully pipelined), multiplier же может принимать инструкцию на вход только каждый второй такт. Во-вторых, каждый узел fpu PII может принимать только одну инструкцию за такт, таким образом, пиковая производительность составляет 500MFLOPS при 500МГц. В результате возможности для вычислений с плавающей точкой у Athlon (Thunderbird) процессора выросли настолько, что ставят его в один ряд с RISC-процессорами, которыми оснащают мощные рабочие станции и серверы.
3.4 Расширенные возможности технологии 3DNow!™
Блока 3DNow! в AMD Athlon коснулись сильные изменения. Хотя его архитектура и осталась неизменной - два конвейера обрабатывают инструкции, работающие с 64-битными регистрами, в которых лежат пары вещественных чисел одинарной точности, в сам набор команд было добавлено 24 новинки. Новые операции должны не только позволить увеличить скорость обработки данных, но и позволить задействовать технологию 3DNow! в таких областях, как распознавание звука и видео, а также интернет :) Кроме этого, по аналогии с SSE были добавлены и инструкции для работы с данными, находящимися в кеше. Поддержка обновленного набора 3DNow! уже встроена в Windows 98 SE и в DirectX 6.2.
Таким образом, в набор 3DNow! входит теперь 45 команд, против 71 инструкции в SSE от Intel. Причем, судя по всему, использование новых команд должно дать еще больший эффект от 3DNow! В доказательство этого факта AMD распространила дополнительный DLL для известного теста 3DMark 99 MAX, задействующий новые возможности процессора.
Для того, чтобы усилить возможности процессоров AMD Athlon™ как в обработке трехмерной графики, так и в исполнении других мультимедийных задач, разработанный AMD пакет из 21 инструкции, улучшающий возможности набора команд x86 по использованию суперскалярной техники SIMD и известный как технология 3DNow!™, был значительно расширен. В 3DNow!™ было добавлено 24 новых инструкции - 19 для того, чтобы улучшить возможности процессора в целочисленных расчетах, в том числе и в технологии MMX и ускорения передачи данных для Internet-приложений использующих потоки данных, а так же 5 DSP-расширений для программных модемов, ADSL, Dolby Digital и приложений, использующих MP3.
Технология Enhanced 3DNow!™ против SSE - сравнение наборов команд
Исполняемые функции | Enhanced 3DNow! | SSE | Вывод |
Выполнение SIMD-вычислений с плавающей точкой (впервые предложено AMD) | 21 (число инструкций в первоначальном варианте технологии 3DNow!) | ~52 | Сравнение функциональности: Обе технологии поддерживают 4 операции за такт и выполняют вплоть до 2.4 Gflops на частоте 600 MHz. Но инструкции 3DNow! проще для исполнения. SSE включает в себя намного больше инструкций, поскольку архитектура Intel's требует дублирования управляющих функций MMX, для чего необходимо исполнять две инструкции, управляющие операциями с плавающей точкой - одну для SIMD-операций и другую для скалярных операций. |
MMX (целочисленные вычисления),сложение и перемещение данных | 19 (Новые инструкции) | 19 | Сравнимое функциональное назначение: обе технологии имеют инструкции для работы с кэшем и потоковыми данными. |
DSP-расширения для коммуникаций | 5 (новые инструкции) | 0 | Оригинальная методика AMD: Компания AMD приспосабливает SIMD-операции для решения задач DSP - программных модемов, программной реализации ADSL, MP3 и Dolby Digital. |
Общее число инструкций | 45 | 71 | Преимущество AMD: Расширенный набор 3DNow! имеет больше функциональных возможностей, нежели SSE. Усовершенствованная технология 3DNow! плюс превосходный блок для операций с плавающей точкой процессора AMD Athlon дают наивысшую производительность в операциях с плавающей точкой среди x86-совместимых процессоров! |
3.5 Архитектура кэша
Что касается кеша L1 в AMD Athlon, то его размер 128 Кбайт превосходит размер L1 кеша в Intel Pentium III аж в 4 раза, не только подкрепляя высокую производительность Athlon, но и обеспечивая его эффективную работу на высоких частотах. В частности, одна из проблем используемой Intel архитектуры Katmai, которая, похоже, уже не позволяет наращивать быстродействие простым увеличением тактовой частоты, как раз заключается в малом объеме L1 кеша, который начинает захлебываться при частотах, приближающихся к гигагерцу. AMD Athlon лишен этого недостатка.
Что же касается кеша L2, то и тут AMD оказалось на высоте. Во-первых, интегрированный в ядро tag для L2-кеша поддерживает его размеры от 512 Кбайт до 16 Мбайт. Pentium III, как известно, имеет внешнюю Tag-RAM, подерживающую только 512-килобайтный кеш второго уровня. К тому же, Athlon может использовать различные делители для скорости L2-кеша: 1:1, 1:2, 2:3 и 1:3. Такое разнообразие делителей позволяет AMD не зависеть от поставщиков SRAM определенной скорости, особенно при выпуске более быстрых моделей.
AMD Athlon (Thunderbird) располагает самым большим среди x86-совместимых процессоров объемом кэша первого уровня (128КB). Кроме того, AMD Athlon (Thunderbird) оснащен высокоскоростным 64-разрядным кэш-контроллером для управления кэш-памятью второго уровня, объем которой может составлять от стандартных 256KB до почти фантастических 8MB. Эта разработка позволяет эффективно управлять системной шиной, а так же позволяет обходить узкие места в полосе пропускания.
3.6 DDR память
Эта память является естественным развитием PC100/PC133 SDRAM памяти. Память DDR позволяет поднять производительность x86-платформы при сохранении конкурентноспособной цены. В то время, как другие типы SDRAM могут выполнять только один цикл чтения и записи за такт, технология DDR позволяет выполнить два цикла чтения и записи за то же время. DDR память доступна от основных производителей DRAM во всем мире.
4. Возможности следующего поколения компьютеров
Сочетание превосходной производительности, высокой тактовой частоты, впечатляющей пропускной способности системной шины и надежная конструкция делают процессоры семейства AMD Athlon (Thunderbird) наиболее оправданным выбором для настольных ПК высокого уровня, рабочих станций и серверов. Процессоры AMD Athlon (Thunderbird) отвечают всем требованиям к масштабируемости, какие только могут себе представить корпоративные пользователи и IT-менеджеры. Системная шина процессора AMD Athlon (Thunderbird) конструктивно ориентирована на масштабируемую, многопроцессорную обработку данных, число же процессоров в многопроцессорной системе определяется только конкретной реализацией набора системной логики. По мере развития всего семейства процессоров AMD Athlon (Thunderbird), будут появляться и многопроцессорные рабочие станции и серверы на базе этих процессоров. Быстродействующие платформы на базе процессоров AMD Athlon (Thunderbird) смогут обеспечить новый уровень производительности и обмена данными для таких чувствительных к ресурсам компьютера областей, как обработка цифровых изображений, создание Web-сайтов, САПР, научно-технические расчеты, корпоративные задачи и игры с трехмерной графикой.
Список источников
http://www.wscomp.ru
http://www.ixbt.com
http://athlon-amd.narod.ru
http://www.amdclub.ru
http://ru.wikipedia.org
Приложение
Техническое описание процессора Atnlon (Socket A)
-
Рабочая частота ядра, МГц
1333
Напряжение питания ядра, В
1,75
Напряжение питания цепей ввода-вывода, В
3,3
Внешняя частота (Частота шины), МГц
200/266
Частота кэша 2 уровня, МГц
1333
Технология, мкм
0,18
Расширения
3DNow!™ Professional
Разъем (socket, slot)
Socket A
Кэш 1 уровня, Кб
128
Кэш 2 уровня, Кб на кристале процессора
256
Размеры (ШхВхГ), мм
50x50x5
Количество транзисторов
37 млн
Терминология
SIMD (англ. Single Instruction, Multiple Data) — принцип компьютерных вычислений, позволяющий обеспечить параллелизм на уровне данных.
SIMD компьютеры состоят из одного командного процессора (управляющего модуля), называемого контроллером, и нескольких модулей обработки данных, называемых процессорными элементами. Управляющий модуль принимает, анализирует и выполняет команды. Если в команде встречаются данные, контроллер рассылает на все процессорные элементы команду, и эта команда выполняется на нескольких или на всех процессорных элементах. Каждый процессорный элемент имеет свою собственную память для хранения данных. Одним из преимуществ данной архитектуры считается то, что в этом случае более эффективно реализована логика вычислений. До половины логических инструкций обычного процессора связано с управлением выполнением машинных команд, а остальная их часть относится к работе с внутренней памятью процессора и выполнению арифметических операций. В SIMD компьютере управление выполняется контроллером, а "арифметика" отдана процессорным элементам.
RISC (англ. Reduced Instruction Set Computing) — вычисления с сокращённым набором команд.
CISC (англ. Complex Instruction Set Computing) — концепция проектирования процессоров, которая характеризуется следующим набором свойств:
Нефиксированным значением длины команды.
Арифметические действия, кодируется в одной инструкции.
Небольшим числом регистров, каждый из которых выполняет строго определённую функцию.
Типичными представителями являются процессоры на основе x86 команд (исключая современные Intel Pentium 4, Pentium D, Core, AMD Athlon, Phenom которые являются гибридными) и процессоры Motorola MC680x0.
MMX (Multimedia Extensions — мультимедийные расширения) — коммерческое название дополнительного набора инструкций, выполняющих характерные для процессов кодирования/декодирования потоковых аудио/видео данных действия за одну машинную инструкцию. Впервые появился в процессорах Pentium MMX. Разработан в лаборатории Intel в Хайфе, Израиль, в первой половине 1990-х.
3DNow! — дополнительное расширение MMX для процессоров AMD, начиная с AMD K6 3D. Причиной создания 3DNow! послужило стремление завоевать превосходство над процессорами производства компании Intel в области обработки мультимедийных данных. Хотя это расширение является разработкой AMD, его также интегрировали в свои процессоры IBM[источник?], Cyrix и другие.
Технология 3DNow! ввела 21 новую команду процессора и возможность оперировать 32-битными вещественными типами в стандартных MMX-регистрах. Также были добавлены специальные инструкции, оптимизирующие переключение в режим MMX/3DNow! (femms, которая заменяла стандартную инструкцию emms) и работу с кешем процессора. Таким образом технология 3DNow! расширяла возможности технологии MMX, не требуя введения новых режимов работы процессора и новых регистров.