Процессор AMD. История развития

Работа из раздела: «Программирование и комп-ры»
                  МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ УКРАИНЫ

           ЧЕРКАССКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ

                         КАФЕДРА КОМПЬЮТЕРНЫХ СИСТЕМ



                                   РЕФЕРАТ



              По дисциплине Информатика и компьютерная техника


                  На тему: Процессор AMD. История развития.



                                                                   Выполнил:
                                                    Студент 2-го курса ФИТИС
                                                                Группа ЕК-08
                                                           Кондратенко В. В.



                                  ЧЕРКАССЫ
                                    2001



                                   Об AMD


AMD - мировой поставщик интегральных  микросхем  для  рынка  персональных  и
сетевых  компьютеров   и   коммуникаций,   чьи   производственные   мощности
расположены в Соединенных Штатах, Европе,  Японии  и  Азии.  AMD  производит
микропроцессоры, устройства флэш-памяти  и  вспомогательные  микросхемы  для
коммуникационных и сетевых приложений. Компания AMD, основанная в 1969  году
со штаб-квартирой в г. Саннивейл (шт. Калифорния), в 2000 году имела  оборот
4,6 млрд. долл. (NYSE: AMD).

      Первым процессором, который AMD разрабатывала самостоятельно, был  K5,
выпущенный в 1996 году. Сейчас о нем уже мало кто помнит, правда  и  помнить
там особо нечего. Как всегда, опоздав с выпуском этого  кристалла,  отставая
по тактовой частоте и производительности,  AMD  не  смогла  тогда  завоевать
расположения пользователей.
      После этого провала AMD приобрела забытую  сейчас  фирму  NexGen,  еще
одного независимого разработчика x86 процессоров, который обладал  передовой
на то время технологией и в небольших  количествах  выпускал  кристаллы  без
арифметического сопроцессора. Используя эти  наработки,  AMD  спроектировала
новое  поколение  своих  CPU  -  K6.  По  операциям  с  целыми  числами  эти
процессоры стали превосходить аналоги  от  Intel,  однако  блок  операций  с
плавающей точкой все еще оставлял желать лучшего.
      AMD не сдавалась и для нужд компьютерных игр  предложила  использовать
не сопроцессор, а специально спроектированный набор SIMD-инструкций  3DNow!.
Так появился процессор AMD K6-2, в котором к обычному ядру K6 добавился  еще
один  блок  операций  с  числами  одинарной  точности  с  плавающей  точкой.
Благодаря тому, что  он  мог  выполнять  однотипные  вычисления  с  четырьмя
парами операндов одновременно, на  специально  оптимизированных  под  3DNow!
приложениях K6-2 показывал неплохую производительность.
      В скоре AMD к своему процессору K6-2 добавила интегрированный  в  ядро
кеш  второго  уровня,  работающий   на   частоте   кристалла.   Это   спасло
производительность  -  полученный  K6-III  мог   успешно   конкурировать   с
аналогами.
      Находясь в состоянии ценовой войны, Intel и AMD  пришли  к  тому,  что
самые дешевые Intel Celeron продаются практически по себестоимости, если  не
ниже, а на рынке дорогих процессоров обосновался другой продукт от  Intel  -
Pentium  III.  Единственный  оставшийся  шанс  выжить   для   измотанной   и
порастерявшей в борьбе свои капиталы  AMD  -  вылезти  на  рынок  дорогих  и
производительных процессоров. Причем, закрепиться на нем не за счет  цены  -
этим оружием в совершенстве владеет Intel,  который  может  сбрасывать  цены
значительно сильнее AMD, а за счет быстродействия. Именно это  и  попыталась
сделать AMD, выбросив на рынок процессор нового поколения - Athlon.
                           Развитие семейства K-6

                                    [pic]



                                   AMD K6


Clock speeds (MHz)                166, 200, 233
Level one (L1) cache              32K instruction, 32K data
Level two (L2) cache              Controlled by chip set
L2 cache speed              Same as bus
Type of bus                       Socket 7
Bus speed (MHz)             66
Instructions per clock cycle           2
MMX units                   1
Pipelined FPU               N
Out-of-order execution      Y
Process technology                0.35µ CMOS
Die size                    162 mm2
Transistors                       8.8 million


                                  AMD K6-2

      Этот  процессор  является  логическим  продолжением   линейки   K6   и
отличается от предшественника  только  добавленним  в  ядро  нового  модуля,
обрабатывающего '3D-инструкции' и носящего название 3DNow!. По  сути  -  это
еще один сопроцессор по типу MMX, но умеющий выполнять 21 новую  инструкцию.
Эти новые инструкции призваны,  прежде  всего,  ускорить  обработку  данных,
связанных с трехмерной графикой. Поэтому в набор инструкций 3DNow!  включены
команды, работающие с вещественночисленными аргументами одинарной  точности.
Именно поэтому, технология ММХ не пошла в жизнь  -  ММХ  работает  с  целыми
числами,  а  при  расчете   трехмерных   сцен   оперировать   приходится   с
вещественными.  Как  и  ММХ,  3DNow!  использует  те  же  регистры,  что   и
сопроцессор, это связано с тем, что операционные системы должны сохранять  и
сбрасывать все регистры процессора при переключении задач.
      Теоретически,  3DNow!  должен  заменить   сопроцессор   при   расчетах
трехмерной геометрии и  существенно  ускорить  выполнение  этих  вычислений.
Модуль 3DNow! может выполнять до четырех SIMD (Single  Instruction  Multiple
Data) инструкций (из  своего  21-командного  набора)  параллельно,  что  при
грамотном использовании может  дать  небывалый  прирост  производительности.
Хорошей иллюстрацией этого тезиса  может  послужить  Quake2,  работающий  на
процессорах K6 в полтора раза медленней, чем  на  Pentium  той  же  частоты.
Однако, вопреки распространенному мнению, это связано  не  с  тормознутостью
AMD-шного сопроцессора, а с тем  что  Intel  реализовал  в  своем  кристалле
возможность параллельной работы процессора с  арифметическим  сопроцессором.
В  Quake2,  код  оптимизирован  с  учетом  этой  особенности,  поэтому  если
процессорные и сопроцессорные инструкции не могут  выполняться  одновременно
(как на AMD K6), производительность получается крайне  низкая.  K6-2  должен
решить эту проблему, но другим путем - за счет конвейеризации 3D  вычислений
в модуле 3DNow! Однако, вопрос распараллеливания вычислений должен  решаться
программистом,  что   вызывает   определенные   трудности   при   реализации
алгоритмов, тем более, что процесс вычисления геометрии  3D-сцен  далеко  не
линейный.  Поэтому,  теоретическая  производительность   К6-2,   значительно
превышающая скорость всех современных PII-процессоров,  достигнута  быть  не
может.
      Таким образом, чтобы от 3DNow! был хоть какой-то  эффект,  необходимо,
чтобы приложение использовало те самые 21 инструкцию. Причем не  как-нибудь,
а с учетом конвейерной структуры этого модуля процессора.



                               AMD K6-2 3DNow!

       AMD вновь надеется сократить отрыв от Intel'а, на этот раз с  помощью
технологий  высокого  уровня  и  заточенных  под  процессор  3D   драйверов.
Названная 'K6-2 3DNow!', эта серия процессоров должна разбить  иллюзию,  что
пользователи должны покупать процессоры  Intel  Pentium  II  для  достижения
максимально возможного 3D быстродействия.
      Выйдя в 300 и 333Мгц версиях, линия K6-2 содержит некоторые улучшения,
по сравнению с уже знакомой пользователям линии K6. Улучшенный  сопроцессор,
более высокие скорости работы ядра, поддержка 100Мгц кэша 2 уровня, и  набор
инструкций, известный как 3Dnow!, - вот качества, вознесшие K6-2 на  вершину
предлагаемых AMD процессоров.
      3DNow!,  говоря  человеческим  языком,  -   это   улучшенный   процесс
вычислений, ускоряющий обсчитывание  сцены  для  3D  графики.  Cyrellis  уже
раньше упоминал,  что  одним  из  главных  препятствий  для  ускорителей  3D
графики  является  конфликт  между  медленным   созданием   сцены   типичным
процессором  Intel/AMD  и  возможностями  родного   процессора   3D   карты.
Видеокарта должна дождаться, пока CPU завершит свою работу, и  только  тогда
ее 3D-процессор будет в состоянии выжать требуемое нам количество  кадров  в
секунду. 3DNow! обещает изменить такое  положение  вещей,  проносясь  сквозь
генерацию сцены на максимальной  скорости,  тем  самым  значительно  повышая
производительность.
      Вот как это выглядит:
                                    [pic]
      Как вы видите, процессор загружен  работой,  даже  если  3D-ускоритель
берет на себя  генерацию  треугольников,  как  например  это  делает  чипсет
Voodoo2.

                              Технология 3DNow!

      Технология 3DNow!, предложенная AMD  в  своем  новом  процессоре  K6-2
(кодовое  имя  было  K6  3D),  представляет   собой   развитие   применяемой
повсеместно  технологии  MMX.  MMX  -  это  дополнительные   57   инструкций
процессора  и  8  дополнительных  регистров,  которые   призваны   увеличить
производительность мультимедийных приложений. Если программа использует  эти
возможности, то это вносит немалый вклад в скорость ее выполнения. MMX  была
введена в  процессорах  фирмы  Intel,  но  к  настоящему  моменту  все  x86-
процессоры, включая AMD, IDT и Cyrix, поддерживают ее. Однако,  несмотря  на
повсеместную поддержку, MMX используется  недостаточным  числом  приложений,
поэтому преимущества от наличия поддержки MMX пока невелики.
      После  внедрения  MMX,  инициатива  по  внедрению   новых   инструкций
неожиданно перешла к AMD. Правда, в ответ на  этот  шаг,  Intel  анонсировал
набор команд MMX2, который  появился  в  процессоре  Katmai.  Дополнительная
система  команд  от  AMD,  названная  3DNow!  (кодовое   имя   было   AMD-3D
Technology), представляет собой  набор  инструкций  для  ускорения  операций
трехмерной графики.  Этот  набор  включает,  в  частности,  быстрое  деление
вещественных  чисел,  выполняемое  за  3  такта  процессора,  и   вычисление
обратной величины к квадратному корню, выполняемое  также  за  3  такта.  По
мнению  AMD,  использование  в  3D-играх  технологии  3DNow!  позволит  300-
мегагерцовому K6-2 догнать по производительности Pentium II 400 МГц.

                                 AMD K6-III
      Вслед  за  выходом  очередного  процессора  от  Intel,  Pentium   III,
появилась новинка и от AMD - процессор K6-III.  Этот  процессор  должен  был
позволить AMD подняться из ниши дешевых систем и начать конкуренцию с  Intel
на рынке более дорогих машин, подготавливая почву  для  нанесения  решающего
удара  по  позициям  микропроцессорного  гиганта  блокбастером  K7.   Долгое
ожидание, чтение спецификаций и первые впечатления от AMD K6-III давали  все
основания для того, чтобы надеяться на то,  что  позиции  Intel  пошатнутся.
Но, традиционно, AMD выступает в роли  догоняющего,  а  для  победы  в  этом
случае, согласно военной тактике, требуется немалое  превосходство  в  силе.
Но, тем не менее, новый раунд сражения  AMD  против  Intel,  Socket7  против
Slot1, Давид против Голиафа, начался.
      Вот технические данные процессора AMD K6-III:
    . Чип, производимый по технологии 0.25 мкм;
    . Ядро CXT, представляющее собой обычное ядро K6-2 с возможностью
      пакетной записи;
    . Работает в Socket-7-системных платах, но требует обновления BIOS;
    . Кэш первого уровня - 64 Кбайта, по 32 Кбайта на код и данные;
    . Имеет встроенный кэш второго уровня объемом 256 Кбайт;
    . Кэш материнской платы работает как кэш третьего уровня;
    . Напряжение питания 2.3-2.5В (есть разные партии);
    . Набор из 21 SIMD-команды 3DNow! Имеется 2 конвейера, оперирующие с
      двумя парами вещественных чисел одинарной точности;
    . Частоты - 350, 400, 450 и 475 МГц. Системная шина 100 МГц (для модели
      475 МГц - 95 МГц). Возможна работа и на 66МГц системной шине;
    . 3DNow! поддерживается в DirectX 6.0 и выше.
      Как видно из спецификации, AMD K6-III - это AMD K6-2  плюс  256  Кбайт
кэша второго уровня, интегрированного в ядро и работающего на  его  частоте.
Помня, какие чудеса производительности показывает Intel Celeron, от AMD  K6-
III ожидается также немалый прирост в быстродействии, тем  более,  что  шина
памяти - главное узкое место в системе, хоть она и работает на  частоте  100
МГц. К тому же L2 кэш e К6-III имеет  размер  в  два  раза  больший,  чем  у
Celeron и в два раза более быстрый (хотя и вдвое  меньший),  чем  у  Pentium
II. Не следует к тому же забывать и про кэш,  установленный  на  материнской
плате - он становится  кэшем  третьего  уровня  и  добавляет  еще  несколько
процентов производительности.
      Надо уделить внимание и еще  одному  факту,  а  именно  буквам  CXT  в
названии ядра. Это ядро  появилось  в  процессорах  K6-2  совсем  недавно  и
отличается от предшествующего наличием  функции  пакетной  записи  в  память
Write Allocate. То есть, новое ядро позволяет передавать данные по  шине  не
как придется, а  по  мере  накопления  8-ми  байтовыми  пакетами,  что  дает
небольшой выигрыш в производительности  при  передаче  данных  по  64-битной
шине. Правда, новой эту функцию  назвать  нельзя,  так  как  Write  Allocate
имеется и в интеловских процессорах еще со времен Pentium Pro.
      Что касается 3DNow!, то тут по сравнению K6-2 все осталось совсем  без
изменений. Однако, надо  констатировать,  что  приложений  использующих  эту
технологию на рынке не много, а поддержка 3DNow!  в  драйверах  видеокарт  и
DirectX не дает практически  ничего.  Также  как  и  в  случае  с  SSE,  для
получения значимого  прироста  в  быстродействии,  необходимо  использование
SIMD-инструкций  при  расчете   геометрии   3D-сцены,   так   как   функции,
оптимизированные в DirectX работают недостаточно быстро  и  не  используются
разработчиками.
      Отметим тот факт, что для поддержки новых  K6-III  подойдут  и  старые
Socket7 системные платы, для которых есть  BIOS  с  поддержкой  ядра  CXT  и
имеющие возможность выставления напряжения питания  ядра  2.3-2.5В.  Однако,
если в руководстве к системной  плате  не  указан  способ  выставления  этих
напряжений,   отчаиваться   рано.   В   большинстве    случаев    существуют
недокументированные установки для такого напряжения питания.



                                   AMD K7
      К7 - первый  из  семейства  микропроцессоров  х86  7-го  поколения,  в
котором присутствуют конструктивные решения, до сих пор не  применявшиеся  в
процессорах архитектуры х86 и сулящие  выигрыш  в  быстродействии  даже  при
одинаковых  тактовых  частотах.  Наиболее  впечатляющим  из  них   является,
конечно, 200-мегагерцовая  системная  шина,  однако  есть  и  другие,  менее
заметные на первый взгляд  новшества,  ставящие  К7  выше  процессоров  6-го
поколения.
    . Новая  архитектура  узла  вычислений  с  плавающей  точкой  (fpu).  К7
      содержит 3 узла вычислений с плавающей точкой (fpu), любой из  которых
      способен принимать на вход инструкции каждый такт  работы  процессора.
      При этом один узел предназначен исключительно для  выполнения  команды
      FSTORE! Назначение этого узла - обеспечивать обмен между регистрами  и
      памятью в то время, как процессор выполняет другие  инструкции.  Такой
      подход, хотя  и  не  повышает  пиковую  производительность,  позволяет
      достичь  более  высокой  средней  производительности,  что  во  многих
      случаях важнее. Остальные два fpu состоят из блока сложения (adder)  и
      блока умножения (multiplier). Оба блока  используют  конвейеры  (fully
      pipelined). Архитектура каждого fpu такова, что он может принимать  на
      вход каждый такт одну инструкцию сложения и одну умножения,  что  дает
      пиковую производительность 1000MFLOPS при 500МГц. Ближайшим аналогом с
      точки  зрения  архитектуры  является  Pentium  II,  у  которого  также
      присутствуют  adder  и  multiplier.  Однако  существуют  два  основных
      отличия.  Во-первых,   у   PII   только   adder   является   полностью
      конвейеризованным (fully pipelined),  multiplier  же  может  принимать
      инструкцию на вход только каждый второй такт. Во-вторых,  каждый  узел
      fpu PII может принимать только одну инструкцию за такт, таким образом,
      пиковая   производительность   составляет   500MFLOPS   при    500МГц.
      Вышесказанное ни в коем случае  не  является  нападками  на  достойную
      архитектуру семейства Р6, которое до  сих  пор  остается  единственным
      семейством процессоров с конвейерным fpu. Да, чуть  не  забыл...  Rise
      mP6, возможно,  будет  иметь  архитектуру  fpu,  похожую  на  ту,  что
      используется в К7 (как во всем, что связано с  компанией  Rise,  здесь
      полно тумана, но компания уверенно заявляет,  что  fpu  их  процессора
      способен выполнять 2 инструкции  х87  за  такт),  однако  максимальная
      тактовая частота в 200МГц не позволяет этому  процессору  претендовать
      на место не только в 'высшем обществе', но даже и в 'среднем  классе',
      поэтому сравнивать mP6 с К7 некорректно.
    . Огромный кэш L1. Если помните,  Pentium  MMX-166  показывал  такую  же
      производительность на приложениях, не использующих инструкции ММХ, как
      и классический Pentium-200. В чем причина? А причина в  том,  что  чип
      ММХ имел в  2  раза  больше  кэша  L1  (32К  против  16К).  Это  также
      объясняет, почему К6-200 приблизительно  равен  по  производительности
      Pentium MMX-233 - он имеет 64К кэша. К чему это я? К тому,  что  в  К7
      кэш L1 увеличился еще в 2 раза -  до  128К.  Это  еще  не  гарантирует
      эффективного  роста  производительности   процессора   с   увеличением
      тактовой частоты, но, по крайней мере, устраняет опасность простоя, из-
      за обмена с памятью.
    . Модернизируемый кэш L2. У К7 кэш L2 будет размещен, по примеру PII,  в
      картридже, а не интегрирован в кристалл, как у К6-3. Результатом этого
      является возможность 'модернизации' кэша.  Первоначально  его  частота
      будет составлять 1/3  частоты  процессора.  В  дальнейшем  планируется
      выпуск версий  с  кэшем  L2,  работающим  на  частоте  процессора,  и,
      возможно, на половинной частоте. То же и с размером.  К7  может  нести
      кэш L2 размером от 512К в 'нижних' моделях до 8МВ в серверных  моделях
      'high-end' (впечатляюще, Xeon на сегодня имеет до 2МВ, но цена...).
                                AMD Duron 650
      В то время, когда популярность Socket 7 платформ находилась  на  самом
пике, и оба  крупнейших  микропроцессорных  производителя  и  Intel,  и  AMD
делали процессоры под этот разъем, мы привыкли к  тому  что  AMD  предлагала
менее производительные, но и более дешевые решения. Однако,  год  назад  это
положение  коренным  образом   изменилось.   Анонсировав   Athlon,   который
архитектурно превосходит Intel Pentium III, AMD удалось  на  какое-то  время
захватить  лидерство  в  производительности  процессоров.   И   хотя   Intel
впоследствии удалось усовершенствовать ядро  своих  процессоров,  в  которое
был добавлен встроенный кеш  второго  уровня,  AMD  прочно  обосновалась  на
рынке скоростных CPU, где и по сей день продолжает укреплять свои позиции.
      В настоящий момент AMD применяет против Intel два средства.  Первое  -
агрессивная  ценовая  политика,  в  результате  которой  процессоры   Athlon
оказались намного дешевле своих соперников, Intel  Pentium  III,  работающих
на аналогичной частоте. И второе - благодаря своей архитектуре  AMD  удается
повышать  частоту  своих  процессоров  несколько   легче,   чем   Intel.   В
результате, на настоящий момент, например,  AMD  уже  серийно  продает  свои
гигагерцовые CPU.
Однако, есть у AMD и проблемы. Самая большая головная боль с Athlon - это
кеш второго уровня, выполненный в виде микросхем SRAM, которые до недавнего
времени располагались на процессорной плате и производились сторонними
производителями. Младшие модели Athlon имели L2-кеш, работающий на
половинной частоте ядра процессора, однако по мере роста частот
производители SRAM не поспевали за AMD и не могли обеспечить поставки
микросхем кеша, работающих на 1/2 частоты процессора. В результате, начиная
с частоты 750 МГц Athlon стал снабжаться кеш-памятью, работающей на 2/5
частоты процессора, а начиная с частоты 900 МГц - и вовсе работающей на 1/3
частоты. Таким образом, получилась парадоксальная ситуация, когда самый
быстрый L2-кеш оказался у 700-мегагерцового Athlon. AMD же, естественно,
такая ситуация устроить не могла, так как медленная кеш-память второго
уровня начала сдерживать рост производительности процессоров.
      Поэтому, решение наконец-то переместить L2-кеш AMD  Athlon  с  внешней
процессорной платы внутрь ядра выглядит вполне логично. Тем более,  что  оба
завода AMD и в Остине и в Дрездене успешно освоили технологию 0.18 мкм,  что
позволило при переходе со старой 0.25 мкм технологии уменьшить площадь  ядра
Athlon на 82 кв.мм.
      В  результате,  линейка  AMD  Athlon  получила  продолжение   в   лице
процессоров  на  ядре  Thunderbird,  имеющих  кеш  первого  уровня  размером
128Кбайт и  256-килобайтный  интегрированный  в  ядро  кеш  второго  уровня,
работающий на полной частоте CPU. Это семейство новых AMD Athlon с  частотой
750 МГц и выше было анонсировано более двух недель назад.
      Однако, этим AMD не ограничилась.  Еще  год  назад  при  представлении
Athlon компания  заявила  о  намерении  производства  различных  модификаций
своего CPU, рассчитанных на различные сектора рынка. И вот, наконец,  теперь
она начала осуществлять свои планы, представив и семейство  процессоров  AMD
Duron ориентированное на low-end  сектор  и  являющееся  прямым  конкурентом
Intel Celeron.
                                 [pic][pic]
      Итак, посмотрим, что же представляют из себя процессоры Duron с  точки
зрения их основных характеристик:
    . Чип, производимый по технологии 0.18 мкм с использованием медных
      соединений
    . Ядро Spitfire, основанное на архитектуре Athlon. Содержит 25 млн.
      транзисторов и имеет площадь 100 кв.мм
    . Работает в специальных материнских платах с 462-контактным
      процессорным разъемом Socket A
    . Использует высокопроизводительную 100 МГц DDR системную шину EV6
    . Кеш первого уровня 128 Кбайт - по 64 Кбайта на код и на данные
    . Интегрированный кеш второго уровня 64 Кбайта. Работает на полной
      частоте ядра
    . Напряжение питания - 1.5В
    . Набор SIMD-инструкций 3DNow!
    . Выпускаются версии с частотами 600, 650, 700 МГц
      Итак, с  точки  зрения  архитектуры,  Duron  ничем  не  отличается  от
обычного Athlon, кроме встроенного в ядро 64-Кбайтного кеша второго  уровня.
Если же сравнить Duron с новыми Athlon  на  ядре  Thunderbird,  то  различия
между  ними  будут  заключаться  в  размере  интегрированного  L2  кеша   (у
Thunderbird он 256 Кбайт против 64 Кбайт у Duron) и в частотах  (Thunderbird
выпускаются с частотами начиная с 750МГц, а  Duron  -  с  частотами  до  700
МГц). В остальном же, архитектурно и старые и новые Athlon и Duron ничем  не
отличаются. При этом, все же необходимо иметь  в  виду,  что  все  же  новые
процессоры  Duron  и  Thunderbird   имеют   обновленное   и   технологически
усовершенствованное ядро, выпускаемое по технологии 0.18 мкм. В  результате,
например, даже получается, что ядро Duron с встроенным L2-кешем  по  площади
даже меньше, чем ядро K75 (0.18 мкм Athlon).
      И отдельно  хочется  коснуться  нового  форм-фактора  и  процессорного
разъема, который теперь использует AMD для своих  CPU.  Поскольку  микросхем
SRAM,  используемых  для  внешнего  L2-кеша  у  новых  процессоров  Duron  и
Thunderbird теперь нет, AMD  вслед  за  Intel  вновь  обратила  внимание  на
процессорный  разъем  типа  socket.  Это  не   только   более   выгодно   из
экономических  соображений  (нет   необходимости   в   процессорной   плате,
картридже и т.п.),  но  и  более  рационально  с  точки  зрения  организации
лучшего охлаждения. В качестве такого разъема AMD решила  использовать  462-
контактный Socket A, который по своим размерам, да и по внешнему виду  похож
как на Socket 7, так и на Socket 370. Поэтому, с Socket A  процессорами  AMD
можно использовать старые Socket 7 и Socket  370  кулеры.  Единственное,  не
следует при этом забывать, что тепловыделение  Duron  несколько  превосходит
количество тепла, отдаваемое Celeron,  поэтому  они  нуждаются  в  несколько
лучшем охлаждении. Например, Duron 650 выделяет тепла примерно  столько  же,
сколько и Intel Pentium III 733.
      У AMD Duron с системной шиной все в порядке. Поскольку этот процессор,
как и остальные из семейства Athlon  использует  100-мегагерцовую  DDR  шину
EV6,  пропускная  способность  этого  звена  оказывается  1,6  Гбайт/с.  Кеш
первого уровня Duron со времен выпуска первых Athlon  не  претерпел  никаких
изменений - его размер  составляет  128  Кбайт.  Кеш  первого  уровня  Duron
делится на две части - для кеширования данных и для кеширования инструкций.
      Что же касается  кеша  второго  уровня,  то  тут  нас  ждет  небольшой
сюрприз. Нетрудно заметить, что у Duron он в два раза  меньше  чем  L1  кеш.
Зачам он тогда нужен? Ответ на этот вопрос кроется  в  алгоритме  работы  L2
кеша Duron и, кстати,  Thunderbird.  Кеш  второго  уровня  этих  процессоров
является эксклюзивным, что означает, что данные, хранящиеся в L1 кеше в  нем
не дублируются. Такой метод работы L2 кеша реализован пока  только  в  новых
процессорах AMD, все же интеловские процессоры имеют  обычный  inclusive  L2
кеш,  данные  из  L1  кеша  в  котором  дублируются.  Поэтому  общий   объем
эффективной кеш-памяти у AMD Duron составляет 128+64=192 Кбайта, в то  время
как у Celeron он всего 128 Кбайт (32 Кбайта L2 кеша  занято  копией  данных,
имеющихся в L1 кеше).
      Чтобы   проиллюстрировать   все   вышесказанное    приведу    графики,
показывающие скорость записи в память блоков данных различного  размера  для
процессоров AMD Duron 650:

                                    [pic]
      Процессор  AMD  Duron  удался.  Это  можно  сказать  определенно.  Его
производительность находится на достаточно высоком уровне, чтобы  не  только
обогнать конкурирующий Intel Celeron, но и вообще не  оставить  ему  никаких
шансов  в  штатном  режиме.  Производительность  AMD  Duron  650  всего   на
несколько процентов меньше скорости AMD Athlon 650 и примерно  соответствует
производительности Intel Pentium III  600EB.  Таким  образом,  выход  Duron,
если Intel не предпримет никаких действий для  улучшения  производительности
своего low-end процессора, означает смерть Celeron.


                                 AMD Athlon

      Если подойти к архитектуре AMD Athlon поверхностно,  то  основные  его
параметры можно обрисовать следующим образом:
    . Чип, производимый по технологии 0.25 мкм
    . Ядро нового поколения с кодовым именем Argon, содержащее 22 млн.
      транзисторов
    . Работает в специальных материнских платах с процессорным разъемом Slot
      A
    . Использует высокопроизводительную системную шину Alpha EV6,
      лицензированную у DEC
    . Кеш первого уровня 128 Кбайт - по 64 Кбайта на код и на данные
    . Кеш второго уровня 512 Кбайт. Расположен вне процессорного ядра, но в
      процессорном картридже. Работает на половинной частоте ядра
    . Напряжение питания - 1.6В
    . Набор SIMD-инструкций 3DNow!, расширенный дополнительными командами.
      Всего 45 команд
    . Выпускаются версии с частотами 500, 550, 600 и 650 МГц. Версия с
      частотой 700 МГц появится в ближайшее время
      Однако таким простым процессор  AMD  Athlon  кажется  только  лишь  на
первый взгляд. На самом же деле за  этими  несколькими  строками  скрываются
многочисленные  архитектурные  инновации,  которые  мы  рассмотрим  позднее.
Однако  и  простые  характеристики  AMD  Athlon  впечатляют.  Например,  как
нетрудно заметить,  Athlon  превосходит  Intel  не  только  по  максимальной
тактовой частоте (у Intel Pentium III она 600 МГц, да и к тому же  при  этом
он работает на повышенном до 2.05В напряжении ядра), но и  по  размеру  кеша
первого уровня, который у Intel Pentium III всего 32 Кбайта.
                                    [pic]

                                    [pic]
      Перейдем же к более подробному рассмотрению архитектуры AMD Athlon.

Системная шина

      Прежде чем углубляться в сам процессор, посмотрим, чем  же  отличается
системная шина EV6, примененная AMD, от привычной интеловской GTL+.  Внешнее
сходство бывает обманчиво. Хотя процессорный  разъем  Slot  A  на  системных
платах для процессора AMD Athlon выглядит также как и Slot  1,  перевернутый
на 180 градусов, шинные протоколы и назначения  контактов  у  Intel  Pentium
III и AMD Athlon  совершенно  различны.  Более  того,  различно  даже  число
задействованных сигналов  -  Athlon  использует  примерно  половину  из  242
контактов, в то время как Pentium  III  всего  четверть.  Внешняя  похожесть
вызвана тем, что AMD просто хотела облегчить жизнь производителям  системных
плат, которым не придется покупать особенные разъемы для установки  на  Slot
A системные платы. Только и всего.
      На самом же деле, хоть EV6 и работает на  частоте  100  МГц,  передача
данных по ней, в отличие от GTL+ ведется на обоих  фронтах  сигнала,  потому
фактическая частота передачи данных составляет  200  МГц.  Если  учесть  тот
факт, что ширина шины EV6 - 72 бита,  8  из  которых  используется  под  ECC
(контрольную сумму), то получаем скорость передачи данных 64бита х  200  МГц
= 1,6 Гбайт/с. Напомню, что пропускная способность GTL+, работающей  на  100
МГц в два раза меньше - 800 Мбайт/с. Повышение частоты GTL+ до 133 МГц  дает
увеличение пропускной способности при этом только до 1,06 Гбайт/с.  Казалось
бы, как в случае с GTL+,  так  и  с  EV6  получаются  внушительные  значения
пропускной  способности.  Однако,  только  современная  PC100  память  может
отожрать от нее до 800 Мбайт/с, а AGP, работающий  в  режиме  2x  -  до  528
Мбайт/с. Не говоря уже о PCI и  всякой  другой  мелочевке.  Получается,  что
GTL+ уже сейчас может не справляться с передаваемыми объемами данных. У  EV6
же в этом случае все в порядке, потому эта шина более перспективна.
      При этом, как частота GTL+ может быть увеличена со  100  до  133  МГц,
планируется, что и частота EV6 также  впоследствии  достигнет  значения  133
(266), а затем и 200 (400) МГц. Однако планы эти могут и не осуществиться  -
реализовать работу на материнской плате EV6, требующую  большего  количества
контактных дорожек, несколько сложнее, особенно на  больших  частотах.  Хотя
если у AMD  все  получится,  пропускная  способность  системной  шины  может
достичь 2.1 и 3.2 Гбайта/с  соответственно,  что  позволит  беспрепятственно
применять   в   Athlon-системах,   например,   высокопроизводительную   266-
мегагерцовую DDR SDRAM.

Кеш

      Прежде чем переходить непосредственно к функционированию  AMD  Athlon,
хочется затронуть тему L1 и L2 кешей.
      Что касается кеша L1 в AMD Athlon, то его размер 128 Кбайт превосходит
размер L1 кеша в Intel Pentium  III  аж  в  4  раза,  не  только  подкрепляя
высокую производительность Athlon, но и обеспечивая его  эффективную  работу
на высоких  частотах.  В  частности,  одна  из  проблем  используемой  Intel
архитектуры  Katmai,  которая,   похоже,   уже   не   позволяет   наращивать
быстродействие простым увеличением тактовой частоты, как раз  заключается  в
малом  объеме  L1  кеша,  который  начинает  захлебываться   при   частотах,
приближающихся к гигагерцу. AMD Athlon лишен этого недостатка.
      Что же касается кеша L2, то и тут AMD оказалось на высоте.  Во-первых,
интегрированный в ядро tag для  L2-кеша  поддерживает  его  размеры  от  512
Кбайт до 16  Мбайт.  Pentium  III,  как  известно,  имеет  внешнюю  Tag-RAM,
подерживающую только 512-килобайтный кеш второго уровня. К тому  же,  Athlon
может использовать различные делители для скорости L2-кеша: 1:1, 1:2, 2:3  и
1:3. Такое разнообразие делителей позволяет AMD не зависеть  от  поставщиков
SRAM определенной скорости, особенно при выпуске более быстрых моделей.
      Благодаря возможности варьировать  размеры  и  скорости  кеша  второго
уровня  AMD  собирается  выпускать  четыре  семейства  процессоров   Athlon,
ориентированных на разные рынки.
                                    [pic]



Архитектура. Общие положения

      Вот мы и подошли к  рассказу  о  том,  как  же,  собственно,  работает
Athlon. Как и процессоры от Intel с ядром, унаследованным  от  Pentium  Pro,
процессоры Athlon имеют внутреннюю RISC-архитектуру. Это означает,  что  все
CISC-команды, обрабатываемые процессором, сначала раскладываются на  простые
RISC-операции, а  потом  только  начинают  обрабатываться  в  вычислительных
устройствах CPU. Казалось бы, зачем усложнять себе жизнь? Оказывается,  есть
зачем. Сравнительно простые RISC-инструкции  могут  выполняться  процессором
по несколько штук одновременно и намного облегчают  предсказание  переходов,
тем  самым  позволяя  наращивать   производительность   за   счет   большего
параллелизма. Говоря более просто, тот производитель, который сделает  более
'параллельный'   процессор,   имеет   шанс    добиться    превосходства    в
производительности  гораздо  меньшими  усилиями.  AMD   при   проектировании
Athlon, по-видимому, руководствовалась и этим принципом.


      Однако  перед  тем,  как  начать  работу  над  параллельными  потоками
инструкций, процессор должен их откуда-то получить. Для этого в AMD  Athlon,
как впрочем и в Intel Pentium III, применяется дешифратор команд  (декодер),
который преобразует поступающий на вход процессора  код.  Дешифратор  в  AMD
Athlon может раскладывать на RISC-составляющие до трех входящих  CISC-команд
одновременно. Современные интеловские процессоры  могут  также  обрабатывать
до трех команд, однако если для Athlon совершенно все равно,  какие  команды
он расщепляет,  Pentium  III  хочет,  чтобы  две  из  трех  инструкций  были
простыми и только одна - сложной. Это приводит к тому, что  если  Athlon  за
каждый процессорный такт может переварить три инструкции  независимо  ни  от
чего, то у Pentium III отдельные части дешифратора могут  простаивать  из-за
неоптимизированного кода.
      Перед  тем,  как  попасть  в  соответствующий   вычислительный   блок,
поступающий поток RISC-команд задерживается в небольшом буфере  (Instruction
Control Unit), который, что уже неудивительно, у AMD Athlon расчитан  на  72
инструкции против 20 у Pentium III. Увеличивая этот  буфер,  AMD  попыталась
добиться того, чтобы дешифратор  команд  не  простаивал  из-за  переполнения
Instruction Control Unit.
      Еще один момент, заслуживающий внимания  -  вчетверо  большая,  чем  у
Pentium III, таблица предсказания переходов размером 2048 ячеек,  в  которой
сохраняются  предыдущие  результаты  выполнения  логических   операций.   На
основании этих данных процессор прогнозирует их результаты при их  повторном
выполнении.  Благодаря  этой  технике  AMD  Athlon  правильно  предсказывает
результаты ветвлений где-то в 95% случаев,  что  очень  даже  неплохо,  если
учесть, что аналогичная характеристика у Intel Pentium III всего 90%.
      Посмотрим теперь, что же  происходит  в  Athlon,  когда  дело  доходит
непосредственно до вычислений.

Целочисленные операции

      С целочисленными операциями у процессоров от AMD  всегда  все  было  в
порядке. Со времен AMD K6 процессоры от Intel проигрывали именно в  скорости
целочисленных вычислений. Тем не менее, в Athlon AMD напрочь  отказалась  от
старого наследия.
      Благодаря наличию трех  конвейерных  блоков  исполнения  целочисленных
команд  (Integer  Execution   Unit)   AMD   Athlon   может   выполнять   три
целочисленные инструкции одновременно. Что же касается Pentium III,  то  его
возможности ограничиваются одновременным выполнением только двух команд.
      Отдельно хочется затронуть  вопрос  конвейеров.  Оптимальной  глубиной
конвейера для процессоров с  современными  скоростями  считается  9  стадий.
Увеличение этого числа приводит к ускорению процесса обработки  команд,  так
как скорость работы  конвейера  определяется  работой  самой  медленной  его
стадии.  Однако,  в  случае  слишком  большого  конвейера  при   ошибках   в
предсказании переходов оказывается что большая часть  работы  по  исполнению
команд, уже вошедших на конвейер выполнена напрасно. Его приходится  очищать
и начинать процесс заново.
      Потому в AMD Athlon глубина  целочисленных  конвейеров  составляет  10
стадий, что близко к  оптимуму.  К  сожалению,  поклонники  продукции  Intel
снова не услышат ничего  утешительного,  так  как  конвейер  в  Pentium  III
состоит из 12-17 стадий в зависимости от типа исполняемой инструкции.

Вещественные операции

      С замиранием сердца обращаем наш взгляд  на  блок  FPU,  встроенный  в
Athlon. Как мы все хорошо помним, для предыдущих процессоров AMD операции  с
плавающей точкой были настоящей ахиллесовой пятой.  Главной  проблемой  было
то, что  блок  FPU  в  K6,  K6-2  и  K6-III  был  неконвейеризированый.  Это
приводило к тому, что хотя многие операции с плавающей точкой в FPU  от  AMD
выполнялись за меньшее число тактов, чем на интеловских  процессорах,  общая
производительность  была   катастрофически   низкой,   так   как   следующая
вещественная операция не могла начать выполняться до завершения  предыдущей.
А  что-то  менять  в  своем  FPU  AMD  в  то  время  не   хотела,   призывая
разработчиков к отказу от его использования в пользу 3DNow!.
      Но,  похоже,  прошлый  опыт  научил  AMD.  В   Athlon   арифметический
сопроцессор имеет конвейер глубиной 15 стадий против 25 у  Pentium  III.  Не
следует забывать, что, как уже говорилось выше, более  длинный  конвейер  не
всегда обеспечивает  лучшую  производительность.  К  тому  же,  существенным
недостатком Intel Pentium III, которого в Athlon, естественно нет,  является
неконвейерезируемость операций FMUL и FDIV.
      FPU в Athlon объединяет в себе три блока: один для выполнения  простых
операций типа сложения, второй -  для  сложных  операций  типа  умножения  и
третий - для операций с данными. Благодаря такому разделению  работы  Athlon
может выполнять одновременно  по  две  вещественночисленные  инструкциии.  А
ведь такого не умеет даже  Intel  Pentium  III  -  он  выполняет  инструкции
только последовательно!
      Так что, как это ни странно, FPU интеловских процессоров  оказался  не
таким уж замечательным, как это принято было считать ранее.

MMX

      На первый взгляд с выполнением MMX-операций у Athlon по сравнению с K6-
III изменений не произошло. Однако это не совсем так. Хотя и  MMX-инструкции
используются в крайне небольшом числе приложений, AMD добавила в этот  набор
еще несколько инструкций, которые также  появились  в  MMX-блоке  процессора
Pentium III. В их число вошли нахождение среднего, максимума  и  минимума  и
изощренные пересылки данных.
      Если обратить внимание на архитектурные особенности, то в  AMD  Athlon
имеется по два блока MMX, потому на обоих процессорах - и на  Athlon,  и  на
Pentium III - может выполняться одновременно  пара  MMX-инструкций.  Однако,
MMX-блоки в AMD Athlon имеют большую, чем у  Pentium  III  латентность,  что
теоретически должно приводить к отставанию этого CPU в MMX-приложениях.

3DNow!

      Блока 3DNow! в  AMD  Athlon  коснулись  сильные  изменения.  Хотя  его
архитектура и осталась неизменной - два конвейера  обрабатывают  инструкции,
работающие с 64-битными регистрами, в которых лежат пары вещественных  чисел
одинарной точности, в сам набор команд  было  добавлено  24  новинки.  Новые
операции должны не только позволить увеличить скорость обработки данных,  но
и  позволить  задействовать  технологию  3DNow!  в   таких   областях,   как
распознавание звука и видео, а также интернет :) Кроме этого, по аналогии  с
SSE были добавлены и инструкции для работы с данными, находящимися  в  кеше.
Поддержка обновленного набора 3DNow! уже  встроена  в  Windows  98  SE  и  в
DirectX 6.2.
      Таким образом, в набор 3DNow!  входит  теперь  45  команд,  против  71
инструкции в SSE от  Intel.  Причем,  судя  по  всему,  использование  новых
команд должно дать еще больший  эффект  от  3DNow!  В  доказательство  этого
факта AMD распространила дополнительный DLL для известного теста  3DMark  99
MAX, задействующий новые возможности процессора.
      Специально для оценки эффективности процессора в 3D-играх,  3DMark  99
MAX предлагает индекс CPU 3DМark, просчитывающий 3D-сцены, но  не  выводящий
их не экран.  Таким  образом,  получается  результат,  зависящий  только  от
возможностей процессора по обработке 3D-графики и от пропускной  способности
основной памяти.



Чипсеты

      Прекратив  разрабатывать  процессоры  под  гнездо  Super  7  и   начав
продвигать собственный Slot A и системную шину EV6, AMD  оказалась  отрезана
от всех интеловских наработок на поприще чипсетов и системных  плат.  Теперь
AMD придется самой создавать  необходимую  инфраструктуру,  чтобы  мы  могли
приобрести не только процессор, но и системную плату, оборудованную Slot  A.

      И, судя по первым успехам, ей это удалось. На  первое  время  компания
разработала собственный набор логики AMD 750, имеющий кодовое имя  Irongate,
а  также  собственный  дизайн  системной  платы  -   Fester,   который   был
растиражирован рядом тайваньских производителей.
      Сам чипсет AMD 750  не  представляет  собой  ничего  особенного  -  по
возможностям он аналогичен i440BX. Но большего, в принципе, и не  надо.  AMD
Athlon, как  мы  видели,  и  так  работает  нормально  и  даже  обгоняет  по
производительности конкурирующие продукты.
      AMD 750 имеет традиционую архитектуру и состоит из северного моста AMD
751 и южного AMD 756. Северный мост обеспечивает взаимодействие  посредством
шины EV6 процессора с памятью и шинами PCI и AGP, поддерживая до  768  Мбайт
оперативной памяти PC100 в не более чем трех модулях, AGP 2x  и  6  PCI  bus
maser устройств. Южный мост, осуществляющий интерфейс  со  всей  периферией,
кроме обычных функций, умеет работать с UltraDMA/66 IDE-устройствами.

                        AMD Athlon (Thunderbird) 800
      Итак, взвесив все плюсы и минусы L2-кеша на ядре, AMD, пришла к выводу
о необходимости переноса кеша на  ядро.  Тем  более,  что  оба  завода  AMD,
находящиеся в Дрездене и Остине вполне успешно освоили технологию 0.18  мкм,
по которой, кстати, некоторое время уже выпускались старшие  модели  обычных
AMD  Athlon.  Так  появился  новый  старый  AMD  Athlon  с  кодовым   именем
Thunderbird,  архитектурно   отличающийся   от   старого   Athlon   наличием
интегрированной  кеш-памяти  второго  уровня  размером  256   Кбайт   вместо
внешнего 512-килобайтного L2-кеша. Посмотрим на его спецификацию:
    . Чип, производимый по технологии 0.18 мкм с использованием алюминиевых
      или медных соединений
    . Ядро Thunderbird, основанное на архитектуре Athlon. Содержит 37 млн.
      транзисторов и имеет площадь 120 кв.мм
    . Работает в специальных материнских платах с 462-контактным
      процессорным разъемом Socket A (Slot A версии доступны в ограниченных
      количествах только OEM)
    . Использует высокопроизводительную 100 МГц DDR системную шину EV6
    . Кеш первого уровня 128 Кбайт - по 64 Кбайта на код и на данные
    . Интегрированный кеш второго уровня 256 Кбайт. Работает на полной
      частоте ядра
    . Напряжение питания при частоте до 850МГц - 1.7В, при больших частотах
      - 1.75В
    . Набор SIMD-инструкций 3DNow!
    . Выпускаются версии с частотами 750, 800, 850, 900, 950 и 1000 МГц
      Итак, с точки зрения архитектуры, Thunderbird ничем не  отличается  от
обычного  Athlon,  кроме  встроенного  в  ядро  256-Кбайтного  кеша  второго
уровня. Несмотря на сокращение размера кеша вдвое  по  сравнению  с  обычным
Athlon, быстродействие от этого упасть не должно - ведь новый  кеш  работает
гораздо быстрее старого - на полной частоте ядра процессора. Да и к тому  же
благодаря  более  близкому  его  расположению  к  ядру  латентность  кеша  у
Thunderbird на 45% меньше, чем аналогичная  характеристика  у  кеша  старого
Athlon. В остальном же, архитектурно  и  старые  и  новые  Athlon  ничем  не
отличаются, поэтому подробности о строении ядра этих  CPU  можно  почерпнуть
из обзора AMD Athlon 600. При этом, все же необходимо иметь в виду, что  все
же Thunderbird имеют обновленное и технологически усовершенствованное  ядро,
выпускаемое  по  технологии  0.18  мкм.   В   результате,   например,   даже
получается,  что  ядро  Thunderbird  со  встроенным  L2-кешем   по   площади
ненамного больше, чем ядро K75 (0.18 мкм Athlon) и даже значительно  меньше,
чем старое ядро K7, выполненное по технологии 0.25 мкм.
      Вторым и не менее важным отличием старых и новых Athlon  является  то,
что поскольку необходимость в  процессорной  плате  отпала,  они  используют
новый процессорный разъем типа socket, а не slot - Socket A. Хотя,  конечно,
некоторое время Slot A Thunderbird на рынке присутствовать  будут,  основным
форм-фактором для этих CPU следует считать 462-контактный Socket A.
      AMD выпускает Thunderbird на двух заводах - в Остине и в Дрездене,  по
двум различным технологиям  -  с  использованием  алюминиевых  соединений  и
медных соединений. Тем не менее, обе эти модификации,  похоже,  между  собой
ни чем не отличаются, кроме … цвета.  Дрезденские  Thunderbird  имеют  синий
цвет кристалла, в то время как Остинские - зеленый.
      Что же касается видимых отличий старых и новых Athlon  производимых  в
Slot A варианте, то тут найти отличие будет не так просто, так как  оба  они
имеют одинаковый внешний вид  картриджа  и  что  более  забавно,  одинаковую
цену. Однако отличить их все-таки возможно как по маркировке (старые  Athlon
маркируются как AMD-K7XXX, в то время как новые имеют маркировку  AMD-AXXXX)
так и заглянув внутрь картриджа со стороны процессорного разъема -  у  новых
Athlon отсутствуют микросхемы SRAM, расположенные по обе стороны от ядра,  в
то время как у старых Athlon они есть.
      До сих пор мы восхищались новыми Thunderbird и их интегрированным  L2-
кешем. Теперь пришло время немного огорчить  фанатов  AMD.  Тем  более,  что
сделать это будет нетрудно, если сравнить кеш Thunderbird и Coppermine.
      Единственным преимуществом L2-кеша Thunderbird  с  этой  точки  зрения
может являться его эксклюзивность.  То  есть,  алгоритм  работы  L2  кеша  у
Thunderbird  таков,  что  данные,  хранящиеся  в  L1-кеше,  в   L2-кеше   не
дублируются. Это значит, что суммарный объем  эффективной  кеш-памяти  новых
Athlon равен 128+256 = 384Кбайта. В случае же с Coppermine 32Кбайта  L2-кеша
всегда занято копией содержимого кеш-памяти  первого  уровня  и  эффективный
объем кешей у этого CPU составляет всего 256Кбайт.
      Что же  касается  недостатков,  то  просто  напросто  кеш  Thunderbird
медленнее  чем  кеш  Coppermine.  Причины  этого  кроются  как   в   меньшей
латентности кеша Intel Pentium III так и в том, что инженеры AMD  поленились
переделать шину  соединяющую  ядро  и  L2  кеш,  после  того  как  перенесли
последний внутрь процессорного ядра. В результате, она так  и  осталась  64-
битной, в то время как шина кеша Coppermine в четыре раза шире.
                       AMD Athlon XP 1800+ (1533 MHz)
      Вот мы и дождались. Дождались процессора, который нам обещали довольно
длительное время. А именно - десктопного  варианта  процессора  AMD  Athlon,
построенного на новом ядре Palomino.
      На самом деле, само ядро присутствовало на рынке уже достаточно давно,
но политика компании AMD по выпуску  процессоров  на  его  основе  выглядела
несколько оригинальной. Привычной уже стала  схема,  при  которой  на  новом
ядре выпускается сначала высокоуровневый процессор,  спустя  какое-то  время
выходит его несколько урезанный тем или иным образом  бюджетный  вариант,  а
затем  появляется  мобильный.  Все  логично  и  понятно,  сначала  снимается
максимально возможное количество сливок с high-end сегмента рынка,  а  затем
новинка продвигается в массы.

      В случае же с Palomino все произошло несколько иначе, если не  сказать
'с точностью до наоборот'. AMD начала,  что  называется,  с  конца  цепочки.
Сначала увидел свет мобильный вариант Palomino - Athlon 4, затем AMD  Athlon
MP, рассчитанный на работу в  двухпроцессорных  системах.  Ладно,  пока  что
ситуация забавная, но не экстраординарная. А  вот  затем  AMD  делает  очень
оригинальный шаг - вопреки всем ожиданиям, на рынок  выходит  не  десктопный
Palomino, а AMD Duron, основанный на ядре Morgan. Т.е.,  low-end  процессор!
Причем выходит без особой помпы, тихо и незаметно.  Изначально  вообще  было
не ясно, а Palomino ли это?  Как  оказалось  -  таки  да,  Palomino,  только
называется Morgan и кэш у него поменьше.



      И  лишь  после  этого  на  сцене   появляется   настольный   Palomino,
переименованный  к  этому  времени  в  Athlon   XP   (реверанс   в   сторону
Microsoft?), получивший вместо  привычной  керамической  одежки  пластиковую
(OPGA, Organic Pin Grid Array) и… реанимированный Pentium Rating.
      Если упаковка нового процессора в пластиковый конструктив  шаг  вполне
логичный  и  обоснованный   (керамический   корпус   гораздо   дороже),   то
возвращение  PR,  пусть  и  несколько  изменившегося  -  достаточно  спорное
решение.


Документ первый: QuantiSpeed™ Architecture

      Итак, что же представляет  из  себя  'новая  архитектура'  процессоров
Athlon XP?
      Nine-issue, superscalar, fully pipelined micro-architecture
      Основной упор в описании своего ядра AMD делает на то, что  количество
ступеней конвейера у него меньше, чем  у  Pentium  4  (что  и  обуславливает
меньшую частоту работы ядра при одинаковом техпроцессе), но зато  количество
одновременно исполняемых (за один такт) инструкций - больше.
      Superscalar, fully pipelined Floating Point Unit (FPU)
      Еще один  плюс  своих  процессоров,  который  AMD  решила  показать  в
описании QuantiSpeed Architecture - это их знаменитый FPU. Он  действительно
мощный  -  три  независимых  конвейера  для  исполнения   стандартных   FPU-
инструкций всего семейства x86, плюс инструкции  из  фирменного  набора  AMD
3DNow!, плюс (начиная с ядра Palomino) полная поддержка всего  набора  Intel
SSE (к сожалению, пока еще только 'первого' SSE). Фактически,  ни  для  кого
не секрет, что это похоже действительно  самый  мощный  x86  FPU  -  даже  у
Pentium 4 он слабее. Однако… опять 'плюс на минус' - все это правда, но  все
это было еще даже в ядре K7 (за исключением поддержки SSE).
      Hardware data prefetch
      В  Athlon  XP  используется  механизм  предварительной   (опережающей)
загрузки инструкций в L1 cache. Примечательно следующее: во-первых -  именно
инструкций т.е. только исполняемого кода, а не данных. Во-вторых - именно  в
кэш первого уровня т.е. - минуя L2. В принципе, учитывая размер L1 у  Athlon
XP (128 KB)
      Exclusive and speculative Translation Look-aside Buffers (TLBs)
      TLB  имеют   практически   все   'сложные'   современные   процессоры.
Фактически, это еще один подвид  кэша,  только  кэшируются  в  нем  не  сами
команды и данные, а их адреса. В Thunderbird двухуровневый TLB имел  емкость
24/32 (24 адреса инструкций и 32 данных) и  256/256.  Основное  нововведение
Palomino - расширенный L1 TLB,  который  теперь  может  хранить  40  адресов
данных. Кстати, заметим  -  если  Hardware  Prefetch  оптимизирует  загрузку
команд, то при усовершенствовании TLB AMD большее  внимание  уделила  именно
данным. Кроме того, 'эксклюзивность' кэша (фирменная 'фича' AMD,  когда  кэш
второго уровня не дублирует в себе содержимое кэша  первого  уровня)  теперь
распространяется и на TLB. В общем, нам трудно будет судить насколько  велик
вклад  нового  Translation  Look-aside  Buffer  в  общую  производительность
Athlon XP т.к. нет возможности вычленить именно его вклад, но  плюс  мы  все
же поставим - это нечто действительно новое.

      Processor and Model Number Core Operating Frequency
      На каких частотах работает вся линейка Athlon XP.

|AMD Athlon XP 1500+                        |1.33 GHz         |
|AMD Athlon XP 1600+                        |1.40 GHz         |
|AMD Athlon XP 1700+                        |1.47 GHz         |
|AMD Athlon XP 1800+                        |1.53 GHz         |



      Информационные источники:
      1. http://www.amd.ru
      2. http://www.ixbt.com.video.shtml