Вычислительная мощность современных суперкомпьютеров. Производительность суперкомпьютеров


Вычислительная мощность суперкомпьютеров

homepage Вычислительная мощность суперкомпьютераТоп 500Топ 50

Вычислительная мощность суперкомпьютера

      Вычислительная мощность суперкомпьютера (производительность суперкомпьютера) - это количественная характеристика скорости выполнения определённых операций на суперкомпьютере. Чаще всего вычислительная мощность измеряется в флопсах (количество операций с плавающей точкой в секунду), а также производными от неё.

      Неоднозначность определения

      Существует несколько сложностей при определении вычислительной мощности суперкомпьютера. Во-первых, следует иметь ввиду, что производительность системы может сильно зависеть от типа выполняемой задачи. В частности, отрицательно сказывается на вычислительной мощности необходимость частого обмена данных между составляющими компьютерной системы, а также частое обращение к памяти. В связи с этим выделяют пиковую вычислительную мощность - гипотетически максимально возможное количество операций над числами с плавающей запятой в секунду, которое способен произвести данный суперкомпьютер.       Важную роль играет также разрядность значений, обрабатываемых программой (обычно имеется в виду формат чисел с плавающей запятой). Так, например, для графических карточек NVIDIA Tesla (2 ранних поколений) максимальная производительность в режиме 32 бит составляет порядка 1 Терафлопс, однако при проведении вычислений с двойной точностью (64 бит) она ниже примерно в 10 раз

      Измерение производительности

      Оценка реальной вычислительной мощности производится путём прохождени специальных тестов - набора программ специально предназначенных для проведения вычислений и измерения времени их выполнения. Обычно оценивается скорость решения системой большой системы линейных алгебраических уравнений, что обусловливается, в первую очередь, хорошей масштабируемостью этой задачи.       Наиболее популярным тестом производительности является Linpack benchmark. В частности, HPL (альтернативная реализация Linpack) используется для составлении Топ 500 листа суперкомпьютеров в мире. Другими популярными программами для проведения тестирования являются NAMD[4] (решение задач молекулярной динамики), HPCC (HPC Challenge Benchmark), NAS Parallel Benchmarks. Подробнее о тестах вы можете прочитать в статье "Обзор некоторых пакетов измерения производительности кластерных систем" или на сайте (parallel.ru/computers/benchmarks).

      FLOPS (или flops или flop/s)(акроним от англ. Floating point Operations Per Second, произносится как флопс) - величина, используемая для измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой в секунду выполняет данная вычислительная система.       Поскольку современные компьютеры обладают высоким уровнем производительности, более распространены производные величины от FLOPS, образуемые путём использования стандартных приставок системы СИ. Кило - 103. Мега - 106. Гига - 109. Тера - 1012. Пета - 1015. Экса - 1018.       Одним из важнейших достоинств показателя флопс является то, что он до некоторых пределов может быть истолкован как абсолютная величина и вычислен теоретически, в то время как большинство других популярных мер являются относительными и позволяют оценить испытуемую систему лишь в сравнении с рядом других. Эта особенность даёт возможность использовать для оценки результаты работы различных алгоритмов, а также оценить производительность вычислительных систем, которые ещё не существуют или находятся в разработке.       Несмотря на кажущуюся однозначность, в реальности флопс является достаточно плохой мерой производительности, поскольку неоднозначным является уже само его определение. Под "операцией с плавающей запятой" может скрываться масса разных понятий, не говоря уже о том, что существенную роль в данных вычислениях играет разрядность операндов, которая также нигде не оговаривается. Кроме того, величина флопс подвержена влиянию очень многих факторов, напрямую не связанных с производительностью вычислительного модуля, таких как: пропускная способность каналов связи с окружением процессора, производительность основной памяти и синхронность работы кэш-памяти разных уровней.       Всё это, в конечном итоге, приводит к тому, что результаты, полученные на одном и том же компьютере при помощи разных программ, могут существенным образом отличаться, более того, с каждым новым испытанием разные результаты можно получить при использовании одного алгоритма. Отчасти эта проблема решается соглашением об использовании единообразных тестовых программ (той же LINPACK) с усреднением результатов, но со временем возможности компьютеров "перерастают" рамки принятого теста и он начинает давать искусственно заниженные результаты, поскольку не задействует новейшие возможности вычислительных устройств. А к некоторым системам общепринятые тесты вообще не могут быть применены, в результате чего вопрос об их производительности остаётся открытым.

Топ 500

(www.top500.org)

      TOP500 - проект по составлению рейтинга и описаний 500 самых мощных общественно известных компьютерных систем мира. Проект был запущен в 1993 году и публикует обновлённый список суперкомпьютеров дважды в год(1-Июнь,2-Ноябрь). Этот проект направлен на обеспечение надёжной основы для выявления и отслеживания тенденций в области высокопроизводительных вычислений. Россия по данным на ноябрь 2009 года занимает 8-10 место по числу установленных систем наряду с Австрией и Новой Зеландией. Лидируют по этому показателю США.

      История проекта

      В начале 1990-х годов возникла необходимость получения сравнительных характеристик и метрик суперкомпьютеров. После экспериментов 1992 года с метриками, основанными на количестве процессоров, в университете Мангейма возникла идея сравнивать все подсистемы суперкомпьютеров. В начале 1993 года Джек Донгарра был убеждён принять участие в этом проекте со своим тестом Linpack. Первая версия теста была готова в мае 1993 года. Она частично была основана на данных доступных в сети, включая данные источники:

      Системы № 1 начиная с 1993 года Cray Jaguar (с 2009.11) IBM Roadrunner (с 2008.06-2009.11) IBM Blue Gene/L (2004.11-2008.06) NEC Earth Simulator (2002.06 - 2004.11) IBM ASCI White (2000.11 - 2002.06) Intel ASCI Red (1997.06 - 2000.11) Hitachi CP-PACS (1996.11 - 1997.06) Hitachi SR2201 (1996.06 - 1996.11) Fujitsu Numerical Wind Tunnel (1994.11 - 1996.06) Intel Paragon XP/S140 (1994.06 - 1994.11) Fujitsu Numerical Wind Tunnel (1993.11 - 1994.06) TMC CM-5 (1993.06 - 1993.11)

Список 500 самых мощных компьютеров мира. 34-ая редакция (ноябрь 2009 год)       (Информацию по остальным годам вы можете посмотреть на официальном сайте top500.org, или на сайте http://parallel.ru/computers/#top500)

      Общая вычислительная мощность 500 наиболее мощных компьютерных систем в мире с 1993 по 2008 год.

      Распределение вычислительной мощности по странам в соответствии с данными Top 500 в ноябре 2008 года.

Топ 50

      Существует мнение, что рейтинг Top500 не с достоверно отображает действительное положение вещей на российском рынке. Выход был найден российской компанией "Т-Платформы", МСЦ Российской Академии наук и Научно-исследовательским вычислительным центром (НИВЦ) МГУ им. М.В. Ломоносова. Соединив свои усилия, они создали рейтинг самых мощных суперкомпьютеров России и СНГ, который также обновляется каждые полгода и основывается на все том же тесте LinPack, отражающем скорость решения громоздкой системы линейных уравнений. Этот рейтинг содержит 50 самых производительных (с точки зрения решения линейных уравнений) систем в России и помогает оценить развитие отрасли высокопроизводительных вычислений в нашей стране. Ознакомиться с этим рейтингом детально можно на сайте www.supercomputers.ru.

     ТОП50 - 11-ая редакция от 22.09.2009)

Hosted by uCoz

elanina.narod.ru

Производительность суперкомпьютеров

Название

Год создания

Flop/s

Флоп

1941

100

Килофлоп

1949

103

Мегафлоп

1964

106

Гигафлоп

1987

109

Терафлоп

1997

1012

Петафлоп

2008

1015

Эксафлоп

1018

Зеттафлоп

1021

Йоттафлоп

1024

Ксерафлоп

1027

Среди ведущих учёных и специалистов, которые в настоящее время вносят существенный вклад в развитие высокопроизводительных вычислительных систем можно отметить:

- Калин С. В. – директор ИТМиВТ – проектирование и создание современных суперЭВМ и систем;

- Эйсымонт Л. К. – зам. главного конструктора суперкомпьютеров стратегического назначения (СКСН) «Ангара» ОАО «НИЦЭВТ»;

- Кима А. К. – генеральный директор ОАО «ИНУЭМ» – создание МВК «Эльбрус-3», в которой заложены знаменитые разработки ИТМиВТ «Эльбрус 1, 2»;

- Петричкович Я. Я. – директор ГУП «Элвис» - реализация принципа сквозного иерархического параллелизма в СБИС серии «Мультикор»;

- Научно-техническая школа научно-исследовательского института многопроцессорных вычислительных систем (НИИ МВС), кафедры вычислительной техники (ВТ) и других научно-учебных подразделений Таганрогского технологического института (ТТИ ЮФУ) – разработка и создание МВС с динамически реконфигурируемой (перестраиваемой, программируемой) архитектурой на основе ПЛИС и их математического обеспечения с использованием Языков высокого уровня.

С 1966 года в Таганрогском государственном радиотехническом университете (ТРТУ) под руководством профессора А.В. Каляева получило серьезное развитие одно из направлений в рамках общей теории вычислительных систем с программируемой архитектурой – теория однородных цифровых интегрирующих структур (ОЦИС) и однородных вычислительных структур (ОВС) [36, 77, 85, 86].

Предложена идея построения микропроцессоров ОВС с программируемой (перестраиваемой) структурой, коммутацией и процессом, которые настраиваются на выполнение ограниченного набора крупных операций, а не на большое число мелких элементарных команд, как это делается в классических микропроцессорах. Такой подход к синтезу микропроцессоров и построению на их основе ОВС позволяет приблизить язык микропроцессоров к внешнему языку высокого уровня, увеличить скорость выполнения операций в микропроцессоре, облегчить распределение задач между параллельно работающими микропроцессорами в мультипроцессорной ОВС.

Начиная с 1972 года, профессором В.Ф. Гузиком совместно с сотрудниками кафедры вычислительной техники Таганрогского государственного радиотехнического университета развивается идея макроблочных ОЦИС с точки зрения построения модульных ОЦИС, в которых архитектурной единицей становятся функциональные модули (ФМ) – специализированные микропроцессоры (СМП), состоящие из определенного количества универсальных решающих блоков (УРБ) ОЦИС, коммутируемых между собой по функциональным признакам и реализующих базисные операторы, а математическое обеспечение строится на универсальном уровне отображения задач в модульную ОЦИС с помощью интерпретирующих или компилирующих трансляторов [14, 24, 25, 28 − 37, 39, 88]. Такого рода ОЦИС, являясь специализированными однородными вычислительными структурами, названы интегрирующими вычислительными структурами (ИВС).

В основу функционирования модульных ИВС положен тот же принцип представления информации (в виде приращений) и тот же способ ее переработки (численное интегрирование систем дифференциальных уравнений Шеннона), как и в ОЦИС. Поэтому с этой точки зрения модульные ИВС являются специализированным в отношении классов решаемых задач вычислительным устройством.

Интегрирующая вычислительная структура – это автомат с программируемой структурой, представляющий собой коммутируемую совокупность микропроцессоров, характеризующихся: специальным способом переработки информации; изменяемостью внутренней конфигурации; глобальностью распараллеливания вычислительного процесса; возможностью наращивания вычислительной мощности под воздействием базовой машины ИВС [1], которая объединяет в себе обрабатывающие и управляющие программы; конструктивно-технологической выполняемостью на больших интегральных схемах.

По мнению многих специалистов, будущие вычислительные машины и суперЭВМ должны быть модульными, расширяемыми и перестраиваемыми [36, 86, 96]. Модульность и перестраиваемость упрощают проектирование и создание систем и позволяют адаптировать систему к структурам решаемых задач, ресурсным возможностям и специфики областей применения.

Несмотря на то, что, как в нашей стране, так и за рубежом, достаточно широкое распространение получили цифровые специализированные вычислительные устройства, в настоящее время нельзя считать решенной задачу создания общей теории специализированных вычислительных структур, которая позволила бы разработчикам синтезировать на ее основе с минимальными затратами системы с требуемыми характеристиками с учетом специальных требований, определяемых условиями практического использования. Поэтому разработка вопросов общей теории организации структур и вычислительных процессов цифровых специализированных вычислительных систем на сегодняшний день является актуальной и требует серьёзного решения [36, 39, 40, 44, 46, 86].

В последние годы в цифровой вычислительной технике наибольшее развитие получили персональные компьютеры и проблемно – ориентированные системы. Как в первом и особенно во втором случае при проектировании вычислительных систем основное внимание уделяется достижению их максимальной производительности. Среди методов обработки данных наиболее высокопроизводительными считаются методы, которые ориентированы на параллельно-конвейерное выполнение вычислительных операций. В настоящее время разработаны и выпускаются несколько типов программируемых логических матриц, позволяющих создать параллельно-конвейерные вычислители. Задачей проектирования является выбор элементной базы и определение перечня базовых операций, реализация которых целесообразна на ПЛИС.

Процесс проектирования вычислительной части проблемно-ориентированной системы (ПОВС) включает следующие этапы.

На этапе постановки задачи определяется проблемная ориентация системы. Для этого рассматривается весь набор задач, подлежащий обработке, и выбирается круг наиболее близких по алгоритмической реализации задач. Рассматриваемый шаг необходим для ограничения круга базовых операций, которые реализуются аппаратно в ПЛИС или в системе.

При решении этих вопросов необходимо учитывать специфику конкретной области применения создаваемой системы. Основным критерием при выборе тех или иных решений является уровень производительности, который достигается системой обработки либо отдельным ее блоком, реализованным на основе заданной технологии.

Рассмотрим с этих позиций некоторые, наиболее характерные области применения методов цифровой обработки сигналов.

Обработка звуковых сигналов включает анализ, распознавание и синтез речи, телекоммуникацию, сжатие данных при их передаче по каналам связи. В большинстве случаев удовлетворительные результаты обеспечивает формат данных с фиксированной запятой и длиной слова 16 бит. При повышенных требованиях к качеству обработки возможен переход к 32-разрядному формату с плавающей запятой. Диапазон частот входных сигналов для задач обработки речи составляет 100 Гц – 4 кГц, поэтому частота дискретизации во многих случаях выбирается порядка 8 кГц. При обработке и передаче звуковых сигналов вообще, в том числе музыки, верхняя граница диапазона частот расширяется до 20 – 40 кГц. Частота дискретизации достигает в таких случаях 112 кГц и более. Используемые алгоритмы включают цифровую фильтрацию, спектральный анализ сигналов (вычисление дискретного (ДПФ) или быстрого (БПФ) преобразований Фурье), корреляционный анализ, обратную свертку, а также специальные алгоритмы типа линейного предсказания, динамического программирования для задач распознавания и т. д. Если реализуются блочные алгоритмы обработки данных, то размер блоков составляет от 128 до 256 выборок. Требуемая производительность в задачах обработки звуковых сигналов может достигать 6105 – 6106 умн./с.

Целями обработки изображений являются улучшение изображений, содержащих шумы, сжатие информации для передачи и хранения, распознавание образцов. Восстановление и улучшение изображений осуществляются фильтрацией с помощью инверсной свертки. Поскольку размеры обрабатываемых данных в этом случае достаточно велики (типовые значения 256х256 отсчетов и 512x512 отсчетов), то для решения задач линейной фильтрации изображений широко используются алгоритмы БПФ. При обработке изображений алгоритмы фильтрации, вычисления свертки и БПФ являются двумерными. Важный класс задач, связанных с восстановлением и улучшением изображений, возникает при анализе объектов различной природы методами проникающего излучения. Восстановление трехмерной структуры объекта по его проекциям осуществляется путем вычисления преобразований Фурье от проекций, формирования набора сечений объекта и вычисления обратного преобразования Фурье. Для улучшения качества таких изображений применяются методы пространственно - частотной фильтрации. Другой класс алгоритмов улучшения изображения образуют точечные операции, в том числе преобразование контрастности, выделение контуров, методы статистической обработки изображений.

Для сжатия информации при передаче и хранении изображений используются различного рода преобразования. Наиболее эффективным в статистическом смысле является преобразование Карунена-Лоэва, однако оно требует больших объемов вычислительных операций и не имеет быстрых алгоритмов выполнения. В отличие от преобразования Карунена-Лоэва ортогональные преобразования типа преобразования Фурье, Адамара, Уолша допускают быструю реализацию и обеспечивают достаточно эффективное сжатие исходных изображений, что является причиной их широкого распространения для решения таких задач.

Задачи распознавания образов для обработки изображений решаются теми же способами, что и для распознавания речи, однако объемы массивов данных при этом значительно возрастают и достигают 105 – 106 отсчетов. Разрядность данных, как правило, невелика и составляет 4 – 8 бит. Требуемая производительность оценивается цифрами 109 – 1012 оп./с.

Системы радиолокации выполняют поиск и обнаружение объектов в пространстве, определение координат и динамических параметров этих объектов и их классификацию. На основе полученных данных осуществляется принятие решения и управление соответствующими комплексами. Основным содержанием обработки данных в радиолокационной системе (РЛС) является согласованная фильтрация сигналов, поступающих от датчика-антенны. Диапазон частот входных сигналов составляет 10 МГц – 10 ГГц. Во многих случаях фильтрация осуществляется в частотной области на основе алгоритмов БПФ. Размеры преобразований могут достигать 214 комплексных точек, однако существуют задачи, в которых массивы данных имеют умеренные размеры: 1024, 512 и менее точек. В системах с фазированной антенной решеткой (ФАР) для формирования диаграммы направленности используется макрооперация скалярного произведения векторов (иногда называемая весовым суммированием). Разрядность входных данных в настоящее время составляет 6 – 8 бит, однако существует тенденция к ее увеличению до 10 – 12 бит и более. Требования по быстродействию оцениваются цифрами порядка 108 – 1010 умн./с.

Задачи гидролокации включают в основном те же операции, что и задачи радиолокации, т. е. формирование диаграммы направленности, спектральный анализ, корреляционный анализ и свертку, вторичную обработку сигналов для вывода информации на устройства отображения и решения задач управления. Соответственно используются такие алгоритмы, как скалярное произведение вещественных и комплексных векторов, одномерные прямые БПФ и обратные БПФ, двумерные (пространственно-временные) БПФ, вычисление корреляционных функций, одномерная и двумерная свертки и матричные операции, включая умножение матриц, обращение матриц и решение систем линейных уравнений. Особенностью гидроакустических сигналов является их более низкочастотной диапазон (2 – 40 кГц). С другой стороны, высокая зашумленность этих сигналов требует построения многоканальных систем с автоматической регулировкой усиления (АРУ), поэтому в современных гидролокационных системах объем вычислительных операций имеет такой же порядок, как и в РЛС (106 – 108 оп./с). Анализ изложенных выше требований по функциональным возможностям аппаратуры ЦОС, форматам данных, производительности позволяет выделить следующие основные моменты, которые встречаются часто и реализация которых представляется необходимой на первом этапе работ.

Используемые алгоритмы: фильтрация, вычисление свертки, БПФ. Форматы данных: 8 и 16 бит с фиксированной запятой. Производительность 108 – 1010 оп./с типа сложение – умножение.

После выбора круга задач, определяющих проблемную ориентацию системы, переходят к формирования технических требований к системе, другими словами – к формулировке технического задания на систему. В техническом задании задаются предельные тактико-технические характеристики системы. Эти характеристики системы являются рамочными, и это есть следствие компромисса между "желаемым" и "возможным". И он достигается в ходе дискуссии между заказчиком и исполнителем. Заказчик формулирует пожелания и требования к системе, особенностям ее организации, платит за изделие и принимает его. Исполнитель оценивает исходные данные, обосновывает возможность их воплощения и необходимые затраты на разработку и воплощение.

Когда компромисс найден и техническое задание сформулировано, приступают к этапу проектирования – этапу выбора методов решения задачи.

Использование методов цифровой обработки сигналов позволяет относительно легко обеспечить высокую помехоустойчивость систем обработки данных, необходимую точность и разрешающую способность, простое сопряжение подсистемы обработки сигналов с управляющей машиной, стабильность параметров тракта обработки данных и ряд других преимуществ. Поэтому за последние 20 – 25 лет процессоры ЦОС в том или ином виде стали неотъемлемой составной частью вычислительных комплексов, предназначенных для научных исследований или решения задач управления.

В книге [62] представлены результаты разработки специализированной элементной базы для параллельно-конвейерных систем, которая позволяет практически решать вопросы эффективной реализации систем такого типа с приемлемыми параметрами по габаритным размерам и потребляемой мощности.

В дальнейшем при описании процесса проектирования конкретных проблемно-ориентированных систем перечисленные этапы проектирования будут рассмотрены подробно.

studfiles.net

Оценка производительности суперкомпьютеров | Открытые системы. СУБД

17.06.1995 Д. Французов, Стиплер, Москва

Проблема выбора Тест NAS Тест ЕР Заключение Литература

Во многих исследовательских центрах решение наиболее "емких" вычислительных задач, например задач численного аэродинамического моделирования, связывается с многопроцессорными архитектурами, обеспечивающими максимальную степень параллелизма. Уже готовы использовать суперкомпьютеры в своих приложениях и коммерческие организации, однако при этом возникает весьма непростой вопрос о выборе конкретной архитектуры и об оценке адекватности ее соответствия решаемым задачам. Дело в том, что, как отмечают многие исследовательские центры, традиционные тесты SPEC, ТРС и LINPACK, применяемые в настоящее время, не всегда адекватно отражают возможности многопроцессорных архитектур. В исследовательском центре NASA Ames Research Center в рамках программы lVAS по численному моделированию в аэродинамике был недавно разработан комплекс тестов, позволяющих оценивать производительность суперкомпьютерных архитектур.

На рынке компьютерных технологий сейчас широко представлены и активно продолжают разрабатываться различные суперпроизводительные процессоры: Alpha, MIPS, PowerPC/POWER2, HP7200/8000, Pentium Pro, превосходящие на различных тестах многие вычислительные системы, построенные на процессорах предыдущего поколения. Однако, несмотря на впечатляющие успехи микропроцессорных технологий чипов, разработчики по-прежнему продолжают уделять большое внимание новым архитектурным решениям, обеспечивающим более существенный рост производительности за счет различных способов организации работы. многих микропроцессоров. Архитектуры SMP, МРР, кластеры снова стали в центре внимания компьютерной общественности.

Во многих исследовательских центрах решение наиболее "емких" вычислительных задач, например задач численного аэродинамического моделирования, связывается именно с суперкомпьютерными архитектурами, обеспечивающими максимальную степень параллелизма. Так, например, NASA Ames Research Center, определяя требуемые вычислительные мощности на уровне их тысячекратного увеличения, активно ведет различные исследовательские работы именно по суперпараллельным архитектурам.

Если исследования и реальное использование крупнейшими исследовательскими центрами (Cornell University, NASA, Air Force High Performance Computing Center) систем массового параллелизма не является чем-то неожиданным, то практическое использование этих систем для бизнес-приложений уже само по себе является несколько неожиданным и, кроме того, имеет целый ряд особенностей.

Специфика коммерчееких приложений требует повышения производительности прежде всего для задач. И сегодня ведущие поставщики уже разработали и поставляют на рынок коммерческих приложений вычислительные системы с архитектурой массового параллелизма IBM SP2, SNI RM1000, CRAY T916 Intel/Paragon и другие. Фактически это позволяет говорить о завершении этапа исследовательских работ по новым вычислительным архитектурам и программному обеспечению, включающему вычислительные методы, ОС, мониторы параллельной обработки транзакций, библиотеки параллельных вычислений и т.п.

Многими аналитиками отмечается необычайно быстрый переход от стадии исследовательских работ к внедрению и применению суперкомпьютерных вычислительных систем в коммерческих компаниях. Отмечается также "агрессивная" программа внедрения новых технологий в сферу коммерческих приложений, согласованная фирмами производителями и исследовательскими центрами. Более того, сами производители, участвуя в перепроектировании и оптимизации существующих приложений под конкретную Mpp-архитектуру, подвигают потребителей к выбору этих систем. Так, например, двадцатимесячная комплексная программа продвижения системы массового параллелизма SP2 компанией IBM привела к тому, что более чем половина заказов на эту систему именно от коммерческих организаций для бизнес-приложений.

Проблема выбора

Компании, которые решили перейти на суперкомпьютерные системы, оказываются перед проблемой оценки конкретной архитектуры и конфигурации на основе критериев и тестов, адекватно отражающих возможности компьютера. По сообщению многих исследовательских центров, широко используемые системы benchmark SPEC, ТРС и LINPACK, применяемые сегодня для традиционных архитектур, неприемлемы для MPP-архитектур. Например, тесты SPEC позволяют определить лишь производительность самих процессоров, ТРС и LINPACK, хотя и учитывают текущую конфигурацию вычислительной системы в целом и позволяют сделать оценку для задач класса 0LTP и DSS, все же недостаточны для многопроцессорных архитектур. Все эти тесты не учитывают всех архитектурных особенностей и преимуществ конкретных систем МРР, вычислительных алгоритмов и программного обеспечения. К тому же объемы используемых в этих тестах данных (даже для теста LINPACK TPP - матрица размером 1000x1000) не позволяют полностью загрузить вычислительные ресурсы для получения реальных оценок.

По мнению специалистов из исследовательского центра NASA Ames Research Center, сегодня фактически отсутствует стратегия для разработки систем тестирования для многопроцессорных суперкомпьютерных архитектур. В этом центре были сформулированы основополагающие требования, которым должны удовлетворять тестовые методики оценки производительности суперкомпьютерных многопроцессорных систем, особенно MPP:

  • системы с массовым параллелизмом часто требуют новых алгоритмических и программных решений, а их конкретные реализации могут существенно зависеть от архитектуры компьютера и, как следствие, соответственно отличаться друг от друга;
  • тестовые "смеси" должны носить "общий" характер и не следовать какой-либо конкретной архитектуре, что исключает использование архитектурно-зависимого кода, например "message passing code",
  • корректность результатов должна быть легко проверяема, т.е. должны быть точно описаны входные и выходные данные и природа вычислений;
  • используемая память и вычислительные ресурсы должны быть масштабируемыми для повышения производительности;
  • тексты и спецификации используемых тестов должны быть доступны и подтверждаться повторной реализацией.
  • По мнению специалистов NASA, существует единственный подход, удовлетворяющий этим требованиям, а именно: технология "бумага и карандаш", при которой выбор конкретных структур данных, алгоритмов распределения процессоров и выделения памяти, оставляется на усмотрение разработчика и решается в конкретной реализации тестов. Тем не менее, NASA определяет некоторые правила, в рамках которых может разрабатываться система тестирования:

  • все операции с плавающей арифметикой должны быть выполнены с использованием 64-разрядной арифметики;
  • все тесты должны быть запрограммированы на Fortran 90 и Си;
  • не допускается смешение кодов этих языков;
  • возможно использование компилятора High Performance Fortran (HPF) версии от 01.92 или более поздней;
  • все используемые расширения языка и библиотеки должны официально поставляться фирмой-производителем;
  • библиотечные подпрограммы, за исключением оговоренного списка, должны быть написаны на одном из указанных языков.
  • Использование языков Си и Fortran обусловлено их распространенностью для подобного класса вычислительных систем. При этом важен запрет на использование ассемблерного кода, для того чтобы "уравнять" разрабатываемые тесты программ.

    Тест NAS

    В исследовательском центре NASA Ames Research Center был разработан комплекс тестов, позволяющий оценивать производительность суперкомпьютеров и отвечающий перечисленным требованиям. Целью программы NAS, в рамках которой был разработан тест, является достижение к 2000 году возможности проведения за несколько часов полномасштабного численного моделирования полета космического аппарата. Возможно, первой компьютерной системой, способной справиться с этой задачей, будет архитектура МРР.

    Комплекс тестов NAS состоит из пяти тестов NAS kernel benchmark и трех тестов, основанных на реальных задачах гидро- и аэродинамического моделирования. Этот круг задач не покрывает всего спектра возможных приложений, однако на сегодняшний день NAS Benchmarks является лучшим общепризнанным комплексом тестов для оценки параллельных многопроцессорных систем, что собственно и подтверждается практическими наблюдениями - результатами ТОР500.

    Специалисты центра NASA выделяют именно последние три теста как наиболее перспективные для определения производительности систем МРР. Все требования к тестам описаны исключительно на уровне наиболее общего алгоритма, что позволяет производителям компьютеров выбрать наиболее приемлемые с их точки зрения методы решения задачи, структуры данных, дисциплину распределения заданий между процессорами и т.п. Тесты NAS призваны в первую очередь оценить вычислительные возможности компьютерной системы и скорость передачи данных между процессорами в параллельных системах - производительность при выполнении операций ввода/вывода или различных пре- и постпроцессорных функций в данном тесте не оценивается.

    При выполнении каждого теста замеряется время в секундах, необходимое задаче, имеющей конкретный размер. Для более наглядной оценки потенциальных возможностей тестируемой конфигурации вычисляется относительная производительность по сравнению с показателями традиционного векторного суперкомпьютера, в качестве которого обычно выступает одна из моделей Cray. Для NAS kernel benchmark определяются два класса тестов: класс А и класс В, которые фактически отличаются "размерностью" вычислений. Размер задач из класса В превосходит размер задач из класса А примерно в четыре раза. Результаты тестирования в классе А нормируются на производительность однопроцессорного компьютера Cray Y-MP, а класса В - на однопроцессорный Cray C90. По мнению специалистов NASA Ames, тесты класса А адекватно отражают производительность масштабируемых систем с числом процессорных узлов менее 128. При оценке систем с количеством узлов до 512 следует использовать тесты класса В.

    Комплекс тестов NAS Benchmarks kernel включает следующие расчетные задачи:

    1. ЕР (Embarrasinghly Parallel). Вычисление интеграла методом Монте-Карло - тест "усложненного параллелизма" для измерения первичной вычислительной производительности плавающей арифметики. Этот тест минимального межпроцессорного взаимодействия и фактически определяет "чисто" вычислительные характеристика узла при работе с вещественной арифметикой.

    2. MG (3D Multigrid). Тест по решению уравнения Пуассона ("трехмерная решетка") в частных производных - требует высокоструктурированной организации взаимодействия процессоров. Тестирует возможности системы выполнять как дальние, так и короткие передачи данных.

    3. CG (Conjugate Gradient). Вычисление наименьшего собственного значения больших, разреженных матриц методом сопряженных градиентов. Это типичное неструктурированное вычисление на решетке, и поэтому тест применяется для оценки скорости передачи данных на длинные расстояния при отсутствии какой-либо регулярности.

    4. FT (fast Fourier Tranformation). Вычисление методом быстрого преобразования Фурье трехмерного уравнения в частных производных. Данная задача используется как "серьезный" тест для оценки эффективности взаимодействия по передаче данных между удаленными процессорами. При создании программы, реализующей данный тест, могут использоваться библиотечные модули преобразования Фурье различной размерности.

    5. IS (Integer Sort). Тест выполняет сортировку целых чисел и используется как для оценки возможностей работы системы с целочисленной арифметикой (главным образом одного узла), так и для выявления потенциала компьютера по выполнению межпроцессорного взаимодействия.

    Комплекс тестов NAS Benchmarks по модельным задачам включает следующие модули:

    1. LU (LU Solver). Тест выполняет вычисления, связанные с определенным классом алгоритмов (INS3D-LU по классификации центра NASA Ames), в которых решается система уравнений с равномерно разреженной блочной треугольной матрицей 5х5.

    2. SP (Scalar Pentadiagonal). Тест выполняет решение нескольких независимых систем скалярных уравнений - пентадиагональные матрицы с преобладанием недиагональных членов.

    3. ВТ (Block Tridiagonal). Решение серии независимых систем уравнений - блочные трехдиагональные матрицы 5х5 с преобладанием недиагональных элементов.

    Тест ЕР

    Чтобы понять принципы построения тестов NAS и особенности их реализации на конкретных суперкомпьютерных архитектурах, рассмотрим несколько подробнее тест ЕР. Данный тест формулируется следующим образом: формирование двухмерной статистики из большого числа случайно распределенных по Гауссу чисел, которые генерируются наилучшим (оптимальным) образом для каждой конкретной вычислительной архитектуры. Эта постановка является типичной для большинства приложений, использующих метод Монте-Карло. Как и все остальные тесты ядра NAS kernel, данный тест имеет два класса, определяемые в данном случае числом сгенерированных и обработанных случайных чисел: первый 2^28, второй - в четыре раза больше.

    Приведем точную формулировку теста. Пусть n = 230, a = 513 и s = 271828183. Генерируются псевдослучайные вещественные числа rj в интервале (0,1) для 1 i= 2r2j-1-1, yi=2r2j-1 мы получаем произвольно распределенные в интервале (-1,1) пары чисел хi, уi. Далее положим k = 0, и, начиная с j = l будем проверять выполнение условия tj = хj2 + yj2 k = xjSQRT((-2log tj)/ti) и Yk = уjSQRT((-2log tj)/tj). Таким образом, мы получаем независимые нормально распределенные значения с нулевым основанием и существенным (хорошим) расхождением. Приблизительно n*pi/4 пар должны быть распределены таким образом. И, наконец, для 0 1, У1) и отберем только те пары, которые удовлетворяют условию 1= k|,|Yk|). Для данного теста интерес представляют первые 10 пар.

    На многопроцессорной архитектуре, состоящей из р-процессоров, каждый из них независимо генерирует статистику для множества из n/p пар. Так как генерация статистик происходит параллельно на каждом процессоре, то фактически не требуется межпроцессорного взаимодействия. И только лишь 10 пар от каждого процессора аккумулируются - пересылаются в один узел, чем, однако, можно пренебречь. Таким образом, ключевым моментом для данного теста является только оптимизация вычислений на узле, что позволяет оценивать вычислительные возможности системы по работе с вещественными числами.

    Для каждой конкретной архитектуры подробное описание особенностей реализации тестов (а следовательно, в определенном смысле, и самой архитектуры) приводится, как правило, разработчиком теста и представляется в литературе. Официально предложенные реализации тестов утверждаются в центре NASA - напомним, что одно из требований системы тестов NAS состоит в возможности их повторения независимой "командой". Отметим еще раз, что фирма-разработчик, имея достаточную свободу при реализации тестов, может максимально эффективно использовать все особенности архитектуры своей системы и достичь, таким образом, максимальных результатов для комплекта NAS. Так, например, для архитектуры SP2 фирмой IBM используются следующие аппаратные особенности процессора, обеспечивающие повышение производительности на данном тесте: совмещенная операция умножения и сложения массивов, использование некоторых особенностей представления чисел, обеспечивающее оптимальное преобразование чисел в формате с плавающей запятой в целое, применяемое для определения индекса в алгоритме генерации случайных чисел. Примерно аналогичным образом обстоит дело и для теста IS.

    Для приоритетного определения "коммуникационных показателей" системы с массовым параллелизмом используются три оставшиеся теста, в основе которых - алгоритмы численных методов на решетке. Основная идея реализации этих алгоритмов, в частности для теста MG, заключается в том, что на процессорах строится логическая модель трехмерной решетки. Это предполагает создание подобластей, в узлах которых параллельно происходят вычисления. Однако при этом существенным моментом является вычисление граничных условий для каждой подобласти, что требует интенсивного взаимодействия между процессорами. Кроме того, не менее существенным моментом, влияющим на эффективность реализации теста, является репликация данных при переходе вычислительного процесса на новые слои решетки, что также определяется эффективностью реализации межпроцессорного взаимодействия.

    Компьютерные системы Дата получения Число процессоров Класс А Класс В
    Время в секундах Сообщения с CRAY Y-MP/1 Время в секундах Сообщения с CRAY C90/1
    CRAY J916 фев 95 124816 10.78 11.70 675.71340.13170.1585.4943.16 0.220.430.861.713.39
    CRAY T916 июль 95 1248 18.569.544.772.42 6.8013.2326.4552.14 76.1338.1119.129.65 1.923.847.6615.17
    DEC AlphaServer 8400 5/300 окт 95 1248 155.6077.9739.1019.71 0.811.613.236.40 622.22311.90156.6978.43 0.240.470.931.87
    NEC SX-4/32 окт 95 12481632 - - 102.2151.2325.6612.856.483.31 1.432.865.7111.3922.5944.23
    SGI Power Challenge (90 MHz) май 95 124816 169.1087.4643.8721.9811.05 0.751.442.885.7411.42 676.78352.31176.5287.8044.22 0.220.420.831.673.31
    Компьютерные системы Дата получения Число процессоров Класс А Класс В
    Время в секундах Сообщения с CRAY Y-MP/1 Время в секундах Сообщения с CRAY C90/1
    CRAY J916 фев 95 124816 5.883.82 3.782.06 184.8894.7148.6926.6016.12 0.180.360.691.272.10
    CRAY T916 июль 95 1248 4.432.281.270.99 5.029.7517.5022.44 20.3010.505.544.06 1.663.226.108.32
    SGI Power Challenge (90 MHz) окт 95 124816 37.9720.0310.636.555.71 0.511.112.093.393.89 176.2293.3049.4530.4326.30 0.190.360.681.111.28
    Компьютерные системы Дата получения Число процессоров Класс А Класс В
    Время в секундах Сообщения с CRAY Y-MP/1 Время в секундах Сообщения с CRAY C90/1
    CRAY J916 фев 95 124816 1.68 7.10 532.03293.24150.9280.6742.86 0.230.420.811.522.87
    CRAY T916 июль 95 1248 1.951.100.580.38 6.1110.8420.5531.37 73.9837.7919.6511.43 73.9837.7919.6511.43
    SGI Power Challenge (90 MHz) май 95

    окт 95

    124816 35.1419.588.794.032.54 0.340.611.352.964.69 - -

    Заключение

    Приведенные выше таблицы с недавно полученными результатами тестирования некоторых известных вычислительных систем позволяют сформировать более ясное представление о тесте NAS. Эти данные заслуживают серьезного внимания, прежде всего со стороны тех, кто реально стоит перед проблемой перехода на системы массового параллелизма, тем более, что данные о практическом использовании тестируемых методом NAS систем весьма точно подтверждаются списком используемых во всем мире суперкомпьютеров - ТОР500. Системы, приводимые в данном списке, располагаются именно в том порядке, какой был предсказан при тестировании NAS.

    Весьма информативным дополнением приведенных фрагментов является таблица, содержащая оценки производительности суперкомпьютера на каждый вложенный доллар.

    Таблица 1.Фрагмент недавнего отчета NASA AMES.

    Система Np Память R:C90/1 Цена Пр./Ц
    Convex SPP1000 16 8 3.03 2.5 1.21
    Cray T916 16 2 15.98 15.0 1.07
    DEC 8400 5/300 12 2 2.23 0.718 3.11
    Fujitsu VPP500 51 256* 81.16 31.0 2.62
    IBM RS/6000 SP 64 128* 9.73 5.74 1.70
    SGI PowerChallenge 16 2 2.61 1.02 2.56
    Обозначения: NP - число процессоров; Память (Гбайт), используемая в тестируемой конфигурации; R:C90/1 производительность относительно Cray C90/1; Цена в млн. долл.; ПР./Ц - соотношение производительности к цене; * - объем памяти (Мбайт) на процессорный элемент.

    Сегодня даже самые "зажиточные" суперкомпьютерные центры, выполняющие заказы по расчету научных, коммерческих и промышленных задач, весьма ревниво следят за эффективностью вложенных средств, чему способствуют таблицы, из которых следует, что даже самая быстродействующая система VPP500 по соотношению цена/производительность уступает или сравнима с намного более дешевым сервером DEC 8400, суперкомпьютером SGI Power Challenge или RS/6000 SP.

    Несмотря на то, что тест NAS относительно молод, по признанию многочисленных экспертов, он имеет много шансов стать таким же распространенным, как и популярный тест LINPACK, и таким же информативным, как AIM.

    Подробное описание тестов и их реализаций для конкретных архитектур вычислительных систем с массовым параллелизмом содержится в литературе, список которой приведен ниже. Результаты последних оценок суперкомпьютерных платформ можно найти на WWW-сервере NAS www.nas.nasa.gov/NAS/NPB.

    Автор выражает благодарность Наталье Железняк, сотруднику фирмы IBM, за помощь в подготовке статьи.

    Литература

    [1] D.BAilay, E.Barszcz, L.Dagum, H.Simon. "NAS parallel Benchmark Result 3-94", Report RNR-94-006, NASA Ames Research Center (March, 1994).

    [2] V.K. Naik. "Performunce of NAS Parallel Application - Benchmarks on IBM SP1", Proceedings of the Scalable High Performance Computing Conference, IEEE (1994), рр. 121-128.

    [3] R.C. Agarwal, В. Alpern, L.Carter. "High-performance parallel implementation of the NAS kernel benchmarks on IBM SP2, IBM System Journal, Vol. 34, #2, 1995.

    www.osp.ru

    Производительность суперкомпьютеров

    Название

    Год создания

    Flop/s

    Флоп

    1941

    100

    Килофлоп

    1949

    103

    Мегафлоп

    1964

    106

    Гигафлоп

    1987

    109

    Терафлоп

    1997

    1012

    Петафлоп

    2008

    1015

    Эксафлоп

    1018

    Зеттафлоп

    1021

    Йоттафлоп

    1024

    Ксерафлоп

    1027

    Среди ведущих учёных и специалистов, которые в настоящее время вносят существенный вклад в развитие высокопроизводительных вычислительных систем можно отметить:

    - Калин С. В. – директор ИТМиВТ – проектирование и создание современных суперЭВМ и систем;

    - Эйсымонт Л. К. – зам. главного конструктора суперкомпьютеров стратегического назначения (СКСН) «Ангара» ОАО «НИЦЭВТ»;

    - Кима А. К. – генеральный директор ОАО «ИНУЭМ» – создание МВК «Эльбрус-3», в которой заложены знаменитые разработки ИТМиВТ «Эльбрус 1, 2»;

    - Петричкович Я. Я. – директор ГУП «Элвис» - реализация принципа сквозного иерархического параллелизма в СБИС серии «Мультикор»;

    - Научно-техническая школа научно-исследовательского института многопроцессорных вычислительных систем (НИИ МВС), кафедры вычислительной техники (ВТ) и других научно-учебных подразделений Таганрогского технологического института (ТТИ ЮФУ) – разработка и создание МВС с динамически реконфигурируемой (перестраиваемой, программируемой) архитектурой на основе ПЛИС и их математического обеспечения с использованием Языков высокого уровня.

    С 1966 года в Таганрогском государственном радиотехническом университете (ТРТУ) под руководством профессора А.В. Каляева получило серьезное развитие одно из направлений в рамках общей теории вычислительных систем с программируемой архитектурой – теория однородных цифровых интегрирующих структур (ОЦИС) и однородных вычислительных структур (ОВС) [36, 77, 85, 86].

    Предложена идея построения микропроцессоров ОВС с программируемой (перестраиваемой) структурой, коммутацией и процессом, которые настраиваются на выполнение ограниченного набора крупных операций, а не на большое число мелких элементарных команд, как это делается в классических микропроцессорах. Такой подход к синтезу микропроцессоров и построению на их основе ОВС позволяет приблизить язык микропроцессоров к внешнему языку высокого уровня, увеличить скорость выполнения операций в микропроцессоре, облегчить распределение задач между параллельно работающими микропроцессорами в мультипроцессорной ОВС.

    Начиная с 1972 года, профессором В.Ф. Гузиком совместно с сотрудниками кафедры вычислительной техники Таганрогского государственного радиотехнического университета развивается идея макроблочных ОЦИС с точки зрения построения модульных ОЦИС, в которых архитектурной единицей становятся функциональные модули (ФМ) – специализированные микропроцессоры (СМП), состоящие из определенного количества универсальных решающих блоков (УРБ) ОЦИС, коммутируемых между собой по функциональным признакам и реализующих базисные операторы, а математическое обеспечение строится на универсальном уровне отображения задач в модульную ОЦИС с помощью интерпретирующих или компилирующих трансляторов [14, 24, 25, 28 − 37, 39, 88]. Такого рода ОЦИС, являясь специализированными однородными вычислительными структурами, названы интегрирующими вычислительными структурами (ИВС).

    В основу функционирования модульных ИВС положен тот же принцип представления информации (в виде приращений) и тот же способ ее переработки (численное интегрирование систем дифференциальных уравнений Шеннона), как и в ОЦИС. Поэтому с этой точки зрения модульные ИВС являются специализированным в отношении классов решаемых задач вычислительным устройством.

    Интегрирующая вычислительная структура – это автомат с программируемой структурой, представляющий собой коммутируемую совокупность микропроцессоров, характеризующихся: специальным способом переработки информации; изменяемостью внутренней конфигурации; глобальностью распараллеливания вычислительного процесса; возможностью наращивания вычислительной мощности под воздействием базовой машины ИВС [1], которая объединяет в себе обрабатывающие и управляющие программы; конструктивно-технологической выполняемостью на больших интегральных схемах.

    По мнению многих специалистов, будущие вычислительные машины и суперЭВМ должны быть модульными, расширяемыми и перестраиваемыми [36, 86, 96]. Модульность и перестраиваемость упрощают проектирование и создание систем и позволяют адаптировать систему к структурам решаемых задач, ресурсным возможностям и специфики областей применения.

    Несмотря на то, что, как в нашей стране, так и за рубежом, достаточно широкое распространение получили цифровые специализированные вычислительные устройства, в настоящее время нельзя считать решенной задачу создания общей теории специализированных вычислительных структур, которая позволила бы разработчикам синтезировать на ее основе с минимальными затратами системы с требуемыми характеристиками с учетом специальных требований, определяемых условиями практического использования. Поэтому разработка вопросов общей теории организации структур и вычислительных процессов цифровых специализированных вычислительных систем на сегодняшний день является актуальной и требует серьёзного решения [36, 39, 40, 44, 46, 86].

    В последние годы в цифровой вычислительной технике наибольшее развитие получили персональные компьютеры и проблемно – ориентированные системы. Как в первом и особенно во втором случае при проектировании вычислительных систем основное внимание уделяется достижению их максимальной производительности. Среди методов обработки данных наиболее высокопроизводительными считаются методы, которые ориентированы на параллельно-конвейерное выполнение вычислительных операций. В настоящее время разработаны и выпускаются несколько типов программируемых логических матриц, позволяющих создать параллельно-конвейерные вычислители. Задачей проектирования является выбор элементной базы и определение перечня базовых операций, реализация которых целесообразна на ПЛИС.

    Процесс проектирования вычислительной части проблемно-ориентированной системы (ПОВС) включает следующие этапы.

    На этапе постановки задачи определяется проблемная ориентация системы. Для этого рассматривается весь набор задач, подлежащий обработке, и выбирается круг наиболее близких по алгоритмической реализации задач. Рассматриваемый шаг необходим для ограничения круга базовых операций, которые реализуются аппаратно в ПЛИС или в системе.

    При решении этих вопросов необходимо учитывать специфику конкретной области применения создаваемой системы. Основным критерием при выборе тех или иных решений является уровень производительности, который достигается системой обработки либо отдельным ее блоком, реализованным на основе заданной технологии.

    Рассмотрим с этих позиций некоторые, наиболее характерные области применения методов цифровой обработки сигналов.

    Обработка звуковых сигналов включает анализ, распознавание и синтез речи, телекоммуникацию, сжатие данных при их передаче по каналам связи. В большинстве случаев удовлетворительные результаты обеспечивает формат данных с фиксированной запятой и длиной слова 16 бит. При повышенных требованиях к качеству обработки возможен переход к 32-разрядному формату с плавающей запятой. Диапазон частот входных сигналов для задач обработки речи составляет 100 Гц – 4 кГц, поэтому частота дискретизации во многих случаях выбирается порядка 8 кГц. При обработке и передаче звуковых сигналов вообще, в том числе музыки, верхняя граница диапазона частот расширяется до 20 – 40 кГц. Частота дискретизации достигает в таких случаях 112 кГц и более. Используемые алгоритмы включают цифровую фильтрацию, спектральный анализ сигналов (вычисление дискретного (ДПФ) или быстрого (БПФ) преобразований Фурье), корреляционный анализ, обратную свертку, а также специальные алгоритмы типа линейного предсказания, динамического программирования для задач распознавания и т. д. Если реализуются блочные алгоритмы обработки данных, то размер блоков составляет от 128 до 256 выборок. Требуемая производительность в задачах обработки звуковых сигналов может достигать 6105 – 6106 умн./с.

    Целями обработки изображений являются улучшение изображений, содержащих шумы, сжатие информации для передачи и хранения, распознавание образцов. Восстановление и улучшение изображений осуществляются фильтрацией с помощью инверсной свертки. Поскольку размеры обрабатываемых данных в этом случае достаточно велики (типовые значения 256х256 отсчетов и 512x512 отсчетов), то для решения задач линейной фильтрации изображений широко используются алгоритмы БПФ. При обработке изображений алгоритмы фильтрации, вычисления свертки и БПФ являются двумерными. Важный класс задач, связанных с восстановлением и улучшением изображений, возникает при анализе объектов различной природы методами проникающего излучения. Восстановление трехмерной структуры объекта по его проекциям осуществляется путем вычисления преобразований Фурье от проекций, формирования набора сечений объекта и вычисления обратного преобразования Фурье. Для улучшения качества таких изображений применяются методы пространственно - частотной фильтрации. Другой класс алгоритмов улучшения изображения образуют точечные операции, в том числе преобразование контрастности, выделение контуров, методы статистической обработки изображений.

    Для сжатия информации при передаче и хранении изображений используются различного рода преобразования. Наиболее эффективным в статистическом смысле является преобразование Карунена-Лоэва, однако оно требует больших объемов вычислительных операций и не имеет быстрых алгоритмов выполнения. В отличие от преобразования Карунена-Лоэва ортогональные преобразования типа преобразования Фурье, Адамара, Уолша допускают быструю реализацию и обеспечивают достаточно эффективное сжатие исходных изображений, что является причиной их широкого распространения для решения таких задач.

    Задачи распознавания образов для обработки изображений решаются теми же способами, что и для распознавания речи, однако объемы массивов данных при этом значительно возрастают и достигают 105 – 106 отсчетов. Разрядность данных, как правило, невелика и составляет 4 – 8 бит. Требуемая производительность оценивается цифрами 109 – 1012 оп./с.

    Системы радиолокации выполняют поиск и обнаружение объектов в пространстве, определение координат и динамических параметров этих объектов и их классификацию. На основе полученных данных осуществляется принятие решения и управление соответствующими комплексами. Основным содержанием обработки данных в радиолокационной системе (РЛС) является согласованная фильтрация сигналов, поступающих от датчика-антенны. Диапазон частот входных сигналов составляет 10 МГц – 10 ГГц. Во многих случаях фильтрация осуществляется в частотной области на основе алгоритмов БПФ. Размеры преобразований могут достигать 214 комплексных точек, однако существуют задачи, в которых массивы данных имеют умеренные размеры: 1024, 512 и менее точек. В системах с фазированной антенной решеткой (ФАР) для формирования диаграммы направленности используется макрооперация скалярного произведения векторов (иногда называемая весовым суммированием). Разрядность входных данных в настоящее время составляет 6 – 8 бит, однако существует тенденция к ее увеличению до 10 – 12 бит и более. Требования по быстродействию оцениваются цифрами порядка 108 – 1010 умн./с.

    Задачи гидролокации включают в основном те же операции, что и задачи радиолокации, т. е. формирование диаграммы направленности, спектральный анализ, корреляционный анализ и свертку, вторичную обработку сигналов для вывода информации на устройства отображения и решения задач управления. Соответственно используются такие алгоритмы, как скалярное произведение вещественных и комплексных векторов, одномерные прямые БПФ и обратные БПФ, двумерные (пространственно-временные) БПФ, вычисление корреляционных функций, одномерная и двумерная свертки и матричные операции, включая умножение матриц, обращение матриц и решение систем линейных уравнений. Особенностью гидроакустических сигналов является их более низкочастотной диапазон (2 – 40 кГц). С другой стороны, высокая зашумленность этих сигналов требует построения многоканальных систем с автоматической регулировкой усиления (АРУ), поэтому в современных гидролокационных системах объем вычислительных операций имеет такой же порядок, как и в РЛС (106 – 108 оп./с). Анализ изложенных выше требований по функциональным возможностям аппаратуры ЦОС, форматам данных, производительности позволяет выделить следующие основные моменты, которые встречаются часто и реализация которых представляется необходимой на первом этапе работ.

    Используемые алгоритмы: фильтрация, вычисление свертки, БПФ. Форматы данных: 8 и 16 бит с фиксированной запятой. Производительность 108 – 1010 оп./с типа сложение – умножение.

    После выбора круга задач, определяющих проблемную ориентацию системы, переходят к формирования технических требований к системе, другими словами – к формулировке технического задания на систему. В техническом задании задаются предельные тактико-технические характеристики системы. Эти характеристики системы являются рамочными, и это есть следствие компромисса между "желаемым" и "возможным". И он достигается в ходе дискуссии между заказчиком и исполнителем. Заказчик формулирует пожелания и требования к системе, особенностям ее организации, платит за изделие и принимает его. Исполнитель оценивает исходные данные, обосновывает возможность их воплощения и необходимые затраты на разработку и воплощение.

    Когда компромисс найден и техническое задание сформулировано, приступают к этапу проектирования – этапу выбора методов решения задачи.

    Использование методов цифровой обработки сигналов позволяет относительно легко обеспечить высокую помехоустойчивость систем обработки данных, необходимую точность и разрешающую способность, простое сопряжение подсистемы обработки сигналов с управляющей машиной, стабильность параметров тракта обработки данных и ряд других преимуществ. Поэтому за последние 20 – 25 лет процессоры ЦОС в том или ином виде стали неотъемлемой составной частью вычислительных комплексов, предназначенных для научных исследований или решения задач управления.

    В книге [62] представлены результаты разработки специализированной элементной базы для параллельно-конвейерных систем, которая позволяет практически решать вопросы эффективной реализации систем такого типа с приемлемыми параметрами по габаритным размерам и потребляемой мощности.

    В дальнейшем при описании процесса проектирования конкретных проблемно-ориентированных систем перечисленные этапы проектирования будут рассмотрены подробно.

    studfiles.net

    Оценка производительности суперкомпьютеров | Открытые системы. СУБД

    17.06.1995 Д. Французов, Стиплер, Москва

    Проблема выбора Тест NAS Тест ЕР Заключение Литература

    Во многих исследовательских центрах решение наиболее "емких" вычислительных задач, например задач численного аэродинамического моделирования, связывается с многопроцессорными архитектурами, обеспечивающими максимальную степень параллелизма. Уже готовы использовать суперкомпьютеры в своих приложениях и коммерческие организации, однако при этом возникает весьма непростой вопрос о выборе конкретной архитектуры и об оценке адекватности ее соответствия решаемым задачам. Дело в том, что, как отмечают многие исследовательские центры, традиционные тесты SPEC, ТРС и LINPACK, применяемые в настоящее время, не всегда адекватно отражают возможности многопроцессорных архитектур. В исследовательском центре NASA Ames Research Center в рамках программы lVAS по численному моделированию в аэродинамике был недавно разработан комплекс тестов, позволяющих оценивать производительность суперкомпьютерных архитектур.

    На рынке компьютерных технологий сейчас широко представлены и активно продолжают разрабатываться различные суперпроизводительные процессоры: Alpha, MIPS, PowerPC/POWER2, HP7200/8000, Pentium Pro, превосходящие на различных тестах многие вычислительные системы, построенные на процессорах предыдущего поколения. Однако, несмотря на впечатляющие успехи микропроцессорных технологий чипов, разработчики по-прежнему продолжают уделять большое внимание новым архитектурным решениям, обеспечивающим более существенный рост производительности за счет различных способов организации работы. многих микропроцессоров. Архитектуры SMP, МРР, кластеры снова стали в центре внимания компьютерной общественности.

    Во многих исследовательских центрах решение наиболее "емких" вычислительных задач, например задач численного аэродинамического моделирования, связывается именно с суперкомпьютерными архитектурами, обеспечивающими максимальную степень параллелизма. Так, например, NASA Ames Research Center, определяя требуемые вычислительные мощности на уровне их тысячекратного увеличения, активно ведет различные исследовательские работы именно по суперпараллельным архитектурам.

    Если исследования и реальное использование крупнейшими исследовательскими центрами (Cornell University, NASA, Air Force High Performance Computing Center) систем массового параллелизма не является чем-то неожиданным, то практическое использование этих систем для бизнес-приложений уже само по себе является несколько неожиданным и, кроме того, имеет целый ряд особенностей.

    Специфика коммерчееких приложений требует повышения производительности прежде всего для задач. И сегодня ведущие поставщики уже разработали и поставляют на рынок коммерческих приложений вычислительные системы с архитектурой массового параллелизма IBM SP2, SNI RM1000, CRAY T916 Intel/Paragon и другие. Фактически это позволяет говорить о завершении этапа исследовательских работ по новым вычислительным архитектурам и программному обеспечению, включающему вычислительные методы, ОС, мониторы параллельной обработки транзакций, библиотеки параллельных вычислений и т.п.

    Многими аналитиками отмечается необычайно быстрый переход от стадии исследовательских работ к внедрению и применению суперкомпьютерных вычислительных систем в коммерческих компаниях. Отмечается также "агрессивная" программа внедрения новых технологий в сферу коммерческих приложений, согласованная фирмами производителями и исследовательскими центрами. Более того, сами производители, участвуя в перепроектировании и оптимизации существующих приложений под конкретную Mpp-архитектуру, подвигают потребителей к выбору этих систем. Так, например, двадцатимесячная комплексная программа продвижения системы массового параллелизма SP2 компанией IBM привела к тому, что более чем половина заказов на эту систему именно от коммерческих организаций для бизнес-приложений.

    Проблема выбора

    Компании, которые решили перейти на суперкомпьютерные системы, оказываются перед проблемой оценки конкретной архитектуры и конфигурации на основе критериев и тестов, адекватно отражающих возможности компьютера. По сообщению многих исследовательских центров, широко используемые системы benchmark SPEC, ТРС и LINPACK, применяемые сегодня для традиционных архитектур, неприемлемы для MPP-архитектур. Например, тесты SPEC позволяют определить лишь производительность самих процессоров, ТРС и LINPACK, хотя и учитывают текущую конфигурацию вычислительной системы в целом и позволяют сделать оценку для задач класса 0LTP и DSS, все же недостаточны для многопроцессорных архитектур. Все эти тесты не учитывают всех архитектурных особенностей и преимуществ конкретных систем МРР, вычислительных алгоритмов и программного обеспечения. К тому же объемы используемых в этих тестах данных (даже для теста LINPACK TPP - матрица размером 1000x1000) не позволяют полностью загрузить вычислительные ресурсы для получения реальных оценок.

    По мнению специалистов из исследовательского центра NASA Ames Research Center, сегодня фактически отсутствует стратегия для разработки систем тестирования для многопроцессорных суперкомпьютерных архитектур. В этом центре были сформулированы основополагающие требования, которым должны удовлетворять тестовые методики оценки производительности суперкомпьютерных многопроцессорных систем, особенно MPP:

  • системы с массовым параллелизмом часто требуют новых алгоритмических и программных решений, а их конкретные реализации могут существенно зависеть от архитектуры компьютера и, как следствие, соответственно отличаться друг от друга;
  • тестовые "смеси" должны носить "общий" характер и не следовать какой-либо конкретной архитектуре, что исключает использование архитектурно-зависимого кода, например "message passing code",
  • корректность результатов должна быть легко проверяема, т.е. должны быть точно описаны входные и выходные данные и природа вычислений;
  • используемая память и вычислительные ресурсы должны быть масштабируемыми для повышения производительности;
  • тексты и спецификации используемых тестов должны быть доступны и подтверждаться повторной реализацией.
  • По мнению специалистов NASA, существует единственный подход, удовлетворяющий этим требованиям, а именно: технология "бумага и карандаш", при которой выбор конкретных структур данных, алгоритмов распределения процессоров и выделения памяти, оставляется на усмотрение разработчика и решается в конкретной реализации тестов. Тем не менее, NASA определяет некоторые правила, в рамках которых может разрабатываться система тестирования:

  • все операции с плавающей арифметикой должны быть выполнены с использованием 64-разрядной арифметики;
  • все тесты должны быть запрограммированы на Fortran 90 и Си;
  • не допускается смешение кодов этих языков;
  • возможно использование компилятора High Performance Fortran (HPF) версии от 01.92 или более поздней;
  • все используемые расширения языка и библиотеки должны официально поставляться фирмой-производителем;
  • библиотечные подпрограммы, за исключением оговоренного списка, должны быть написаны на одном из указанных языков.
  • Использование языков Си и Fortran обусловлено их распространенностью для подобного класса вычислительных систем. При этом важен запрет на использование ассемблерного кода, для того чтобы "уравнять" разрабатываемые тесты программ.

    Тест NAS

    В исследовательском центре NASA Ames Research Center был разработан комплекс тестов, позволяющий оценивать производительность суперкомпьютеров и отвечающий перечисленным требованиям. Целью программы NAS, в рамках которой был разработан тест, является достижение к 2000 году возможности проведения за несколько часов полномасштабного численного моделирования полета космического аппарата. Возможно, первой компьютерной системой, способной справиться с этой задачей, будет архитектура МРР.

    Комплекс тестов NAS состоит из пяти тестов NAS kernel benchmark и трех тестов, основанных на реальных задачах гидро- и аэродинамического моделирования. Этот круг задач не покрывает всего спектра возможных приложений, однако на сегодняшний день NAS Benchmarks является лучшим общепризнанным комплексом тестов для оценки параллельных многопроцессорных систем, что собственно и подтверждается практическими наблюдениями - результатами ТОР500.

    Специалисты центра NASA выделяют именно последние три теста как наиболее перспективные для определения производительности систем МРР. Все требования к тестам описаны исключительно на уровне наиболее общего алгоритма, что позволяет производителям компьютеров выбрать наиболее приемлемые с их точки зрения методы решения задачи, структуры данных, дисциплину распределения заданий между процессорами и т.п. Тесты NAS призваны в первую очередь оценить вычислительные возможности компьютерной системы и скорость передачи данных между процессорами в параллельных системах - производительность при выполнении операций ввода/вывода или различных пре- и постпроцессорных функций в данном тесте не оценивается.

    При выполнении каждого теста замеряется время в секундах, необходимое задаче, имеющей конкретный размер. Для более наглядной оценки потенциальных возможностей тестируемой конфигурации вычисляется относительная производительность по сравнению с показателями традиционного векторного суперкомпьютера, в качестве которого обычно выступает одна из моделей Cray. Для NAS kernel benchmark определяются два класса тестов: класс А и класс В, которые фактически отличаются "размерностью" вычислений. Размер задач из класса В превосходит размер задач из класса А примерно в четыре раза. Результаты тестирования в классе А нормируются на производительность однопроцессорного компьютера Cray Y-MP, а класса В - на однопроцессорный Cray C90. По мнению специалистов NASA Ames, тесты класса А адекватно отражают производительность масштабируемых систем с числом процессорных узлов менее 128. При оценке систем с количеством узлов до 512 следует использовать тесты класса В.

    Комплекс тестов NAS Benchmarks kernel включает следующие расчетные задачи:

    1. ЕР (Embarrasinghly Parallel). Вычисление интеграла методом Монте-Карло - тест "усложненного параллелизма" для измерения первичной вычислительной производительности плавающей арифметики. Этот тест минимального межпроцессорного взаимодействия и фактически определяет "чисто" вычислительные характеристика узла при работе с вещественной арифметикой.

    2. MG (3D Multigrid). Тест по решению уравнения Пуассона ("трехмерная решетка") в частных производных - требует высокоструктурированной организации взаимодействия процессоров. Тестирует возможности системы выполнять как дальние, так и короткие передачи данных.

    3. CG (Conjugate Gradient). Вычисление наименьшего собственного значения больших, разреженных матриц методом сопряженных градиентов. Это типичное неструктурированное вычисление на решетке, и поэтому тест применяется для оценки скорости передачи данных на длинные расстояния при отсутствии какой-либо регулярности.

    4. FT (fast Fourier Tranformation). Вычисление методом быстрого преобразования Фурье трехмерного уравнения в частных производных. Данная задача используется как "серьезный" тест для оценки эффективности взаимодействия по передаче данных между удаленными процессорами. При создании программы, реализующей данный тест, могут использоваться библиотечные модули преобразования Фурье различной размерности.

    5. IS (Integer Sort). Тест выполняет сортировку целых чисел и используется как для оценки возможностей работы системы с целочисленной арифметикой (главным образом одного узла), так и для выявления потенциала компьютера по выполнению межпроцессорного взаимодействия.

    Комплекс тестов NAS Benchmarks по модельным задачам включает следующие модули:

    1. LU (LU Solver). Тест выполняет вычисления, связанные с определенным классом алгоритмов (INS3D-LU по классификации центра NASA Ames), в которых решается система уравнений с равномерно разреженной блочной треугольной матрицей 5х5.

    2. SP (Scalar Pentadiagonal). Тест выполняет решение нескольких независимых систем скалярных уравнений - пентадиагональные матрицы с преобладанием недиагональных членов.

    3. ВТ (Block Tridiagonal). Решение серии независимых систем уравнений - блочные трехдиагональные матрицы 5х5 с преобладанием недиагональных элементов.

    Тест ЕР

    Чтобы понять принципы построения тестов NAS и особенности их реализации на конкретных суперкомпьютерных архитектурах, рассмотрим несколько подробнее тест ЕР. Данный тест формулируется следующим образом: формирование двухмерной статистики из большого числа случайно распределенных по Гауссу чисел, которые генерируются наилучшим (оптимальным) образом для каждой конкретной вычислительной архитектуры. Эта постановка является типичной для большинства приложений, использующих метод Монте-Карло. Как и все остальные тесты ядра NAS kernel, данный тест имеет два класса, определяемые в данном случае числом сгенерированных и обработанных случайных чисел: первый 2^28, второй - в четыре раза больше.

    Приведем точную формулировку теста. Пусть n = 230, a = 513 и s = 271828183. Генерируются псевдослучайные вещественные числа rj в интервале (0,1) для 1 i= 2r2j-1-1, yi=2r2j-1 мы получаем произвольно распределенные в интервале (-1,1) пары чисел хi, уi. Далее положим k = 0, и, начиная с j = l будем проверять выполнение условия tj = хj2 + yj2 k = xjSQRT((-2log tj)/ti) и Yk = уjSQRT((-2log tj)/tj). Таким образом, мы получаем независимые нормально распределенные значения с нулевым основанием и существенным (хорошим) расхождением. Приблизительно n*pi/4 пар должны быть распределены таким образом. И, наконец, для 0 1, У1) и отберем только те пары, которые удовлетворяют условию 1= k|,|Yk|). Для данного теста интерес представляют первые 10 пар.

    На многопроцессорной архитектуре, состоящей из р-процессоров, каждый из них независимо генерирует статистику для множества из n/p пар. Так как генерация статистик происходит параллельно на каждом процессоре, то фактически не требуется межпроцессорного взаимодействия. И только лишь 10 пар от каждого процессора аккумулируются - пересылаются в один узел, чем, однако, можно пренебречь. Таким образом, ключевым моментом для данного теста является только оптимизация вычислений на узле, что позволяет оценивать вычислительные возможности системы по работе с вещественными числами.

    Для каждой конкретной архитектуры подробное описание особенностей реализации тестов (а следовательно, в определенном смысле, и самой архитектуры) приводится, как правило, разработчиком теста и представляется в литературе. Официально предложенные реализации тестов утверждаются в центре NASA - напомним, что одно из требований системы тестов NAS состоит в возможности их повторения независимой "командой". Отметим еще раз, что фирма-разработчик, имея достаточную свободу при реализации тестов, может максимально эффективно использовать все особенности архитектуры своей системы и достичь, таким образом, максимальных результатов для комплекта NAS. Так, например, для архитектуры SP2 фирмой IBM используются следующие аппаратные особенности процессора, обеспечивающие повышение производительности на данном тесте: совмещенная операция умножения и сложения массивов, использование некоторых особенностей представления чисел, обеспечивающее оптимальное преобразование чисел в формате с плавающей запятой в целое, применяемое для определения индекса в алгоритме генерации случайных чисел. Примерно аналогичным образом обстоит дело и для теста IS.

    Для приоритетного определения "коммуникационных показателей" системы с массовым параллелизмом используются три оставшиеся теста, в основе которых - алгоритмы численных методов на решетке. Основная идея реализации этих алгоритмов, в частности для теста MG, заключается в том, что на процессорах строится логическая модель трехмерной решетки. Это предполагает создание подобластей, в узлах которых параллельно происходят вычисления. Однако при этом существенным моментом является вычисление граничных условий для каждой подобласти, что требует интенсивного взаимодействия между процессорами. Кроме того, не менее существенным моментом, влияющим на эффективность реализации теста, является репликация данных при переходе вычислительного процесса на новые слои решетки, что также определяется эффективностью реализации межпроцессорного взаимодействия.

    Компьютерные системы Дата получения Число процессоров Класс А Класс В
    Время в секундах Сообщения с CRAY Y-MP/1 Время в секундах Сообщения с CRAY C90/1
    CRAY J916 фев 95 124816 10.78 11.70 675.71340.13170.1585.4943.16 0.220.430.861.713.39
    CRAY T916 июль 95 1248 18.569.544.772.42 6.8013.2326.4552.14 76.1338.1119.129.65 1.923.847.6615.17
    DEC AlphaServer 8400 5/300 окт 95 1248 155.6077.9739.1019.71 0.811.613.236.40 622.22311.90156.6978.43 0.240.470.931.87
    NEC SX-4/32 окт 95 12481632 - - 102.2151.2325.6612.856.483.31 1.432.865.7111.3922.5944.23
    SGI Power Challenge (90 MHz) май 95 124816 169.1087.4643.8721.9811.05 0.751.442.885.7411.42 676.78352.31176.5287.8044.22 0.220.420.831.673.31
    Компьютерные системы Дата получения Число процессоров Класс А Класс В
    Время в секундах Сообщения с CRAY Y-MP/1 Время в секундах Сообщения с CRAY C90/1
    CRAY J916 фев 95 124816 5.883.82 3.782.06 184.8894.7148.6926.6016.12 0.180.360.691.272.10
    CRAY T916 июль 95 1248 4.432.281.270.99 5.029.7517.5022.44 20.3010.505.544.06 1.663.226.108.32
    SGI Power Challenge (90 MHz) окт 95 124816 37.9720.0310.636.555.71 0.511.112.093.393.89 176.2293.3049.4530.4326.30 0.190.360.681.111.28
    Компьютерные системы Дата получения Число процессоров Класс А Класс В
    Время в секундах Сообщения с CRAY Y-MP/1 Время в секундах Сообщения с CRAY C90/1
    CRAY J916 фев 95 124816 1.68 7.10 532.03293.24150.9280.6742.86 0.230.420.811.522.87
    CRAY T916 июль 95 1248 1.951.100.580.38 6.1110.8420.5531.37 73.9837.7919.6511.43 73.9837.7919.6511.43
    SGI Power Challenge (90 MHz) май 95

    окт 95

    124816 35.1419.588.794.032.54 0.340.611.352.964.69 - -

    Заключение

    Приведенные выше таблицы с недавно полученными результатами тестирования некоторых известных вычислительных систем позволяют сформировать более ясное представление о тесте NAS. Эти данные заслуживают серьезного внимания, прежде всего со стороны тех, кто реально стоит перед проблемой перехода на системы массового параллелизма, тем более, что данные о практическом использовании тестируемых методом NAS систем весьма точно подтверждаются списком используемых во всем мире суперкомпьютеров - ТОР500. Системы, приводимые в данном списке, располагаются именно в том порядке, какой был предсказан при тестировании NAS.

    Весьма информативным дополнением приведенных фрагментов является таблица, содержащая оценки производительности суперкомпьютера на каждый вложенный доллар.

    Таблица 1.Фрагмент недавнего отчета NASA AMES.

    Система Np Память R:C90/1 Цена Пр./Ц
    Convex SPP1000 16 8 3.03 2.5 1.21
    Cray T916 16 2 15.98 15.0 1.07
    DEC 8400 5/300 12 2 2.23 0.718 3.11
    Fujitsu VPP500 51 256* 81.16 31.0 2.62
    IBM RS/6000 SP 64 128* 9.73 5.74 1.70
    SGI PowerChallenge 16 2 2.61 1.02 2.56
    Обозначения: NP - число процессоров; Память (Гбайт), используемая в тестируемой конфигурации; R:C90/1 производительность относительно Cray C90/1; Цена в млн. долл.; ПР./Ц - соотношение производительности к цене; * - объем памяти (Мбайт) на процессорный элемент.

    Сегодня даже самые "зажиточные" суперкомпьютерные центры, выполняющие заказы по расчету научных, коммерческих и промышленных задач, весьма ревниво следят за эффективностью вложенных средств, чему способствуют таблицы, из которых следует, что даже самая быстродействующая система VPP500 по соотношению цена/производительность уступает или сравнима с намного более дешевым сервером DEC 8400, суперкомпьютером SGI Power Challenge или RS/6000 SP.

    Несмотря на то, что тест NAS относительно молод, по признанию многочисленных экспертов, он имеет много шансов стать таким же распространенным, как и популярный тест LINPACK, и таким же информативным, как AIM.

    Подробное описание тестов и их реализаций для конкретных архитектур вычислительных систем с массовым параллелизмом содержится в литературе, список которой приведен ниже. Результаты последних оценок суперкомпьютерных платформ можно найти на WWW-сервере NAS www.nas.nasa.gov/NAS/NPB.

    Автор выражает благодарность Наталье Железняк, сотруднику фирмы IBM, за помощь в подготовке статьи.

    Литература

    [1] D.BAilay, E.Barszcz, L.Dagum, H.Simon. "NAS parallel Benchmark Result 3-94", Report RNR-94-006, NASA Ames Research Center (March, 1994).

    [2] V.K. Naik. "Performunce of NAS Parallel Application - Benchmarks on IBM SP1", Proceedings of the Scalable High Performance Computing Conference, IEEE (1994), рр. 121-128.

    [3] R.C. Agarwal, В. Alpern, L.Carter. "High-performance parallel implementation of the NAS kernel benchmarks on IBM SP2, IBM System Journal, Vol. 34, #2, 1995.

    www.osp.ru

    Вычислительная мощность суперкомпьютера - это... Что такое Вычислительная мощность суперкомпьютера?

    Вычислительная мощность суперкомпьютера (производительность суперкомпьютера) — это количественная характеристика скорости выполнения определённых операций на суперкомпьютере. Чаще всего вычислительная мощность измеряется в флопсах (количество операций с плавающей точкой в секунду), а также производными от неё. На данный момент принято причислять к суперкомпьютерам системы с вычислительной мощностью более 10 Терафлопс (1013 или десять триллионов флопс; для сравнения среднестатистический современный настольный компьютер имеет производительность порядка 0.1 Терафлопс). Наиболее мощные из существующих компьютерных систем — Jaguar и Roadrunner — имеет производительность, превышающую, 1 Петафлопс[1].

    Неоднозначность определения

    Существует несколько сложностей при определении вычислительной мощности суперкомпьютера.

    Во-первых, следует иметь ввиду, что производительность системы может сильно зависеть от типа выполняемой задачи. В частности, отрицательно сказывается на вычислительной мощности необходимость частого обмена данных между составляющими компьютерной системы, а также частое обращение к памяти. В связи с этим выделяют пиковую вычислительную мощность — гипотетически максимально возможное количество операций над числами с плавающей запятой в секунду, которое способен произвести данный суперкомпьютер.

    Важную роль играет также разрядность значений, обрабатываемых программой (обычно имеется в виду формат чисел с плавающей запятой). Так, например, для графических карточек NVIDIA Tesla (2 ранних поколений) максимальная производительность в режиме 32 бит составляет порядка 1 Терафлопс, однако при проведении вычислений с двойной точностью (64 бит) она ниже примерно в 10 раз.

    Измерение производительности

    Оценка реальной вычислительной мощности производится путём прохождени специальных тестов — набора программ специально предназначенных для проведения вычислений и измерения времени их выполнения. Обычно оценивается скорость решения системой большой системы линейных алгебраических уравнений, что обусловливается, в первую очередь, хорошей масштабируемостью этой задачи.

    Наиболее популярным тестом производительности является Linpack benchmark. В частности, HPL (альтернативная реализация Linpack)[2] используется для составлении Топ 500 листа суперкомпьютеров в мире[3].

    Другими популярными программами для проведения тестирования являются NAMD[4] (решение задач молекулярной динамики), HPCC (HPC Challenge Benchmark), NAS Parallel Benchmarks[2].

    Наиболее мощные суперкомпьютеры

    Основная статья: TOP500

    По состоянию на ноябрь 2009 года наиболее мощными суперкомпьютерами являются[1]:

    • Jaguar — располагается в США в национальной лаборатории Оук-Ридж, основан на серверных процессорах AMD Opteron. Создан компанией Cray Inc.
    • Roadrunner — располагается в США в Лос-Аламосской национальной лаборатории. Первый суперкомпьютер, пиковая производительность которого превысила уровень 1 Петафлопса[5]. Создан компанией IBM. Особенностью является использование гибридной архитектуры, в которой основная вычислительная мощность обеспечивается процессорами Cell.
    • Kraken XT5 — располагается в США в университете Теннесси. Создан Cray Inc.
    • JUGENE — располагается в Германии в Исследовательском центре Юлиха. Разработан в рамках проекта Blue Gene компанией IBM.
    • Tianhe-1 — первый китайский суперкомпьютер петафлопсного класса[6]. Создан Национальным университетом оборонных технологией Китая. Особенностью архитектуры является наличие графических карт ATI Radeon HD 4870, сравнительно недавно предложенных для использования в сверхпроизводительных решениях.

    Наивысшее место, занятое Россией - 12-е в ноябре 2009 года, с суперкомпьютером Ломоносов[1].

    Примечания

    dic.academic.ru

    1.2 Производительность. Программное обеспечение суперкомпьютеров. Характеристика супер-электронной вычислительной машины

    Похожие главы из других работ:

    Анализ информационной составляющей деятельности предприятия

    3.2 Программное обеспечение

    Все программное обеспечение на предприятии является лицензионным. В качестве ОС используется Windows 7 х64. В качестве серверной ОС используется Windows Server 2012 r2. Антивирусная защита обеспечивается программным продуктом Kaspersky Internet Security...

    Анализ системы автоматизации розничной торговли

    3.2 Программное обеспечение ИС

    Программа работает на платформе Windows XP. Для доступа к данным используется СУБД Btrieve версии не ниже 6.15. Могут использоваться версии данной СУБД для рабочей станции, для сервера NetWare или сервера Windows XP...

    Аппаратно-программное обеспечение персонального компьютера

    1.2 Программное обеспечение ПК

    В состав начального программного обеспечения (ПО) данного компьютера входит операционная система (ОС), а также стандартный пакет прикладных программ и драйверов. На компьютере для программирования установлена операционная система Windows 7...

    Аппаратное и программное обеспечение ПК

    2. Программное обеспечение

    Конечная цель выполнения любой программы - управление аппаратными средствами. Программное и аппаратное обеспечение работают в непрерывном взаимодействии, и их разделение является довольно условным. Между программами...

    Аппаратное представление персонального компьютера

    6 ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ

    Совокупность программ, предназначенная для решения задач на ПК, называется программным обеспечением. Состав программного обеспечения ПК называют программной конфигурацией. Программное обеспечение...

    Корпоративный сайт-визитка с функцией обратной связи и админчастью

    1.3.2 Программное обеспечение

    Для создания сайта на локальном или удаленном компьютере, необходимо иметь следующее программное обеспечение: - Любой редактор, способный сохранить на диске текстовый файл (для создания HTML или XHTML документов)...

    Персональный компьютер

    2.1 Уровни программного обеспечение компьютера. Базовое программное обеспечение персонального компьютера

    Программное обеспечение необходимо для нормальной работы компьютера, между всеми программами компьютера есть взаимная связь, все это можно назвать программной конфигурацией...

    Программное обеспечение персональных компьютеров

    4. Программное обеспечение персональных компьютеров. Прикладное программное обеспечение персональных компьютеров: текстовые и графические редакторы и их характеристики

    Текстовый редактор (процессор) - программное средство для подготовки текстовых документов. Существует несколько простых программных средств этого назначения, начиная от самых простых, например редактор WordPad, входящий в состав Windows...

    Разработка автоматизированной информационной системы ООО "Фарватер"

    2.3 Программное обеспечение

    Программное обеспечение рабочего места менеджера включает следующие программные продукты: - Операционная система - Windows XP. - Пакет прикладных программ - Microsoft Office 2003 - Антивирусная программа - NOD 32. - Программа-архиватор - WinRar...

    Разработка автоматизированной системы учета договоров для отеля

    4. Программное обеспечение

    4.1 Описание функций, выполняемых приложением Функции, выполняемые программой: 1)Добавление, удаление и редактирование данных (основных договоров, дополнительных, словаря дат...

    Разработка АИС торговой фирмы

    2.3. Программное обеспечение

    Программное обеспечение для работы с базами данных используется на персональных компьютерах уже довольно давно. К сожалению, эти программы либо были элементарными диспетчерами хранения данных и не имели средств разработки приложений...

    Разработка АИС штатного расписания работников на примере франчайзинговой компании ООО "Макдоналдс"

    2.4 Программное обеспечение

    Программное обеспечение - это совокупность программ, используемая для реализации целей и задач системы составлении штатного расписания, а также нормального функционирования комплекса технических средств...

    Система психолингвистического анализа текстов

    2) программное обеспечение:

    a) MS Access; b) платформа.net Framework 4. 0; c) офисный пакет приложений Microsoft Office...

    Система психолингвистического анализа текстов

    2.4 Программное обеспечение

    На рисунке 12 представлена диаграмма классов разрабатываемого модуля. Класс Program является классом входа в систему, Form1 отвечает за вспомогательные методы анализа текстов, Analyzer - класс, содержащий основные методы анализа текстов...

    Системы автоматизации проектных работ

    1. Программное обеспечение. Прикладное программное обеспечение

    Программное обеспечение (ПО) -- это совокупность программ регулярного применения, необходимых для решения задач пользователя, и программ, позволяющих наиболее эффективно использовать вычислительную технику...

    prog.bobrodobro.ru


    Читайте также
    • Гиперскоростная звезда – более 1.000.000 миль в час
      Гиперскоростная звезда – более 1.000.000 миль в час
    • Астрономы обнаружили самую большую спиральную галактику
      Астрономы обнаружили самую большую спиральную галактику
    • Млечный путь содержит десятки миллиардов планет, схожих с Землей
      Млечный путь содержит десятки миллиардов планет, схожих с Землей
    • Млечный путь разорвал своего спутника на четыре отдельных хвоста
      Млечный путь разорвал своего спутника на четыре отдельных хвоста
    • Найден источник водородных газов для нашей Галактики
      Найден источник водородных газов для нашей Галактики