Суперкомпьютер "МВС 1000М"

Назначение

Общая структура МВС 1000М

Вычислительный модуль

Сетевые решения

Программное обеспечение

Система питания и охлаждения

Разработка и финансирование

Документация

Назначение
 

Суперкомпьютер (СК) "МВС 1000М" предназначен для решения сложных научно-технических задач.

Пиковая производительность СК "МВС 1000М" составляет 1012 операций с плавающей точкой с двойной точностью в секунду.

Общий объем оперативной памяти решающего поля - 768 Гбайт.

Для размещения СК "МВС 1000М" требуется 100 м2.

Потребляемая мощность составляет 120 кВА.

Программные и аппаратные средства СК "МВС 1000М" позволяют решать одну задачу с использованием всего вычислительного ресурса, а также разделять решающее поле на части требуемого размера и предоставлять их нескольким пользователям.

 
Общая структура МВС 1000М
 

В состав технических средств СК "МВС 1000М" входят:

  • решающее поле из 768 процессоров Alpha 21264, разбитое на 6 базовых блоков, состоящих из 64 двухпроцессорных модулей;
  • управляющая ЭВМ;
  • файл-сервер NetApp F840;
  • сеть Myrinet 2000;
  • сети Fast/Gigabit Ethernet;
  • сетевой монитор;
  • система бесперебойного электропитания.
 
Вычислительный модуль
 

Решающее поле СК "МВС 1000М" состоит из 384 двухпроцессорных вычислительных модулей (ВМ). Каждый ВМ включает:

  • 2 процессора Alpha 21264 667 Мгц с кэш-памятью 2-го уровня объемом 4 Мбайта;
  • 2 Гбайта разделяемой оперативной памяти;
  • жесткий диск объемом 20 Гбайт;
  • интерфейсную плату сети Myrinet;
  • интерфейсную плату сети Fast Ethernet;
  • интерфейсную плату видеоконтроллера;
  • источник питания мощностью 600 вт.

Пиковая производительность одного ВМ составляет 2,7 млрд. операций с плавающей точкой с двойной точностью в секунду.

 
Сетевые решения
 

Вычислительные модули связаны между собой высокоскоростной сетью Myrinet2000 (пропускная способность канала равна 2000 Мбит/сек) и сетью Fast Ethernet (пропускная способность канала равна 100 Мбит/сек).

Сеть Myrinet2000 предназначена для высокоскоростного обмена между ВМ в ходе вычислений.

Сеть Fast Ethernet предназначена для начальной загрузки программ и данных в ВМ, а также для передачи служебной информации о ходе вычислительного процесса.

Сеть Gigabit Ethernet предназначена для соединения решающего поля с управляющей ЭВМ и файл-сервером.

Сеть Myrinet2000 в СК "МВС 1000М" реализована на базе 6-ти 128-входовых полносвязных коммутаторов. При обмене данными между двумя ВМ с использованием протоколов MPI достигается пропускная способность на уровне 110 - 150 Мбайт/сек.

 
Программное обеспечение
 

Комплект программного обеспечения СК "МВС 1000М" включает:

Общее программное обеспечение.

Компоненты общего программного обеспечения (ОПО) СК "МВС 1000М" поддерживают все этапы разработки параллельных программ пользователей, а также обеспечивают непосредственно выполнение процессов содержательной обработки на решающем поле. Они функционируют на ВМ и управляющей ЭВМ.

В состав ОПО СК "МВС 1000М" входят:

  1. операционные системы управляющей и резервной управляющей ЭВМ (ОС Linux RedHat 6.2 с поддержкой SMP);
  2. операционная система вычислительных модулей (ОС Linux RedHat 6.2 с поддержкой SMP);
  3. операционная среда параллельного программирования (пакет MPICH for GM версии не ниже 1.2..4);
  4. программные средства коммуникационных сетей (Myrinet, Fast Ethernet);
  5. инструментальные программные средства разработки системного и прикладного программного обеспечения, включая оптимизированные компиляторы языков программирования С, C++, FORTRAN фирмы Compaq, отладчик параллельных программ TotalView, а также средства профилирования параллельных программ;
  6. средства параллельного администрирования, предназначенные для выполнения функций администрирования на всем решающем поле СК "MBC 1000M" или на его части.

Тестовое программное обеспечение.

Тестовое программное обеспечение (ТПО) выполняет проверку работоспособности и правильности функционирования следующих технических средств:

  1. управляющей ЭВМ;
  2. ВМ;
  3. сетей Fast Ethernet, Gigabit Ethernet и Myrinet2000.

В состав ТПО входят:

  • профилактический тест;
  • комплект диагностических тестов;
  • комплект функциональных тестов;
  • комплексный тест.

Профилактический тест обеспечивает контроль состояния (работоспособен/неработоспособен) одного или нескольких базовых блоков, а также всего СК "МВС 1000М" в целом.

Комплект диагностических тестов определяет неисправности проверяемых технических средств с точностью до сменного узла из комплекта ЗИП (ВМ, ЭВМ и т.п.).

Комплект функциональных тестов обеспечивает проверку работоспособности и правильности функционирования технических средств, а также замеры основных характеристик (производительности и пропускной способности).

Комплексный тест включает в себя отдельные тесты из комплекта диагностических и функциональных тестов. Этот тест используется для оценки показателей надежности технических средств СК "МВС 1000М".

Подсистема удаленного управления и непрерывного мониторинга.

Подсистема удаленного управления и непрерывного мониторинга работы СК "МВС 1000М" обеспечивает:

  1. мониторинг состояния процессоров ВМ;
  2. мониторинг состояния оборудования сети Myrinet;
  3. мониторинг доступности ВМ по сети Myrinet;
  4. мониторинг доступности ВМ по сети Fast Ethernet;
  5. мониторинг загруженности ВМ;
  6. обработку сигналов от датчиков, имеющихся в ВМ (температуры процессоров, состояния вентиляторов и т.п.);
  7. пересылку "критической" информации журналов (логов) ВМ на управляющую ЭВМ;
  8. инициацию отключения питания ВМ при возникновении аварийных ситуаций;
  9. мониторинг доступности сетевых файловых систем;
  10. оповещение администратора системы о выявленных неисправностях по электронной почте;
  11. сбор статистики и графическую визуализацию активности в сетях Fast Ethernet и Myrinet.

Подсистема коллективного доступа.

Подсистема коллективного доступа к ресурсам суперкомпьютера обеспечивает:

  1. прием заданий пользователей и постановку этих заданий в очередь;
  2. динамическое распределение ресурсов суперкомпьютера по запросам пользователей, при этом единицей ресурсов является один процессор СК "MBC 1000M";
  3. выполнение заданий пользователей в пакетном режиме;
  4. выполнение на СК "MBC 1000M" задач пользователей как содержащих, так и не содержащих функции MPI;
  5. сбор статистики о выполнении заданий пользователей и формирование соответствующих отчётов для анализа характеристик пользовательских задач;
  6. графический интерфейс мониторинга производительности СК "MBC 1000M" и управления заданиями.

Взаимодействие удаленных пользователей с управляющей ЭВМ осуществляется по протоколу ssh.

Коммуникационная среда Myrinet поддерживается в современных реализациях интерфейса параллельного программирования MPI. В качестве программных средств коммуникационной среды Myrinet используется коммуникационная система GM. В ее состав входят:

  • драйвер;
  • служебные программы;
  • тестовые программы;
  • библиотека функций и заголовочный файл GM API;
  • демонстрационные программы.
 
Система питания и охлаждения
 

Общая потребляемая мощность СК "МВС 1000М" составляет около 120 кВА.

Охлаждение стоек - воздушное. Охлажденный воздух поступает на вход стоек из подпольного пространства.

СК "МВС 1000М" оснащен системой бесперебойного питания. В состав системы бесперебойного питания включен монитор системы электропитания.

 
Разработка и финансирование
 

Создание СК "МВС 1000М" финансировалось за счет средств Минпромнауки России, РАН, Минобразования России, РФФИ, Российского фонда технологического развития.

Работы по созданию СК "МВС 1000М" проводились с апреля 2000 года по август 2001 года.

 
Документация
 

Руководство пользователя (.zip 56 КБ, 19.09.2003) Word

Руководство системного программиста (.zip 147 КБ, 03.07.2003) Word

Руководство программиста (.zip 150 КБ, 06.10.2003) Word

Библиотека интерфейсных вызовов (API) для организации контрольных точек (.zip 18 КБ, 04.09.2003) Word