Как NVIDIA построена Селена, седьмой в мире по-быстрому компьютеру, через три недели

selene-nvidia-dgx-superpod.jpg

Пять лет назад компания приступила к разработке суперкомпьютера-классовая система достаточно мощная, чтобы тренироваться и проводить свои собственные модели искусственного интеллекта, такие как модели для автономных транспортных средств, но достаточно гибкой, чтобы служить просто о каких-то глубоких обучения исследователь. После нескольких итераций его DGX без стручков, видеокарта NVIDIA извлекли ценные уроки о построении системы модульных, масштабируемых единицах. Потом эта эпидемия поразила.

В COVID-19 вспышку принес новые вызовы для NVIDIA, так как он вознамерился построить Селена, четвертое поколение своего DGX по SuperPODs. Сократили персонал и ограничений застройки сложная задача, но Nvidia удалось выйти из голые стойки в центре обработки данных, чтобы полностью операционную систему всего за три с половиной недели.

SELENE находится сейчас в топ-10 суперкомпьютеров, самый быстрый промышленной системы в США, и самый быстрый MLPerf машины, имеющиеся в продаже.

Следует читать:

  • NVIDIA и Google утверждают, заявите в MLPerf показателей, как компьютеры АИ становиться все больше и больше
  • ‘Мы делаем в несколько месяцев что бы нормально воспринимать разработке лекарственных средств процесса лет’: Аргон Доу лабораторий бои COVID-19 с ИИ

Задача построения Селена во время пандемии подчеркнул преимущества принципы проектирования NVIDIA уже принято, и было создано новое чувство срочности, чтобы получить машину и работает.

«Весь смысл изначально был в очень включить развертывание, очень быстро, так что мы могли бы сделать наши ученые и на» Майкл Хьюстон, главный архитектор, который ведет команду системах с NVIDIA, сообщил журналистам. «Компания NVIDIA первой поддержки для наших машин … так что мы все доказывать и убедитесь, что машины и как мы указываем архитектур под скала.»

Но с началом пандемии, он сказал: «Мы хотели сделать машину готов начать делать COVID исследования, чтобы включить некоторые из наших партнеров, как Аргоннской национальной лаборатории, который также SuperPODs.»

Селена сидит в стандартном центре обработки данных рядом со штаб-квартирой в Силиконовой долине от Nvidia. Оно состоит из 280 систем твердотельного накопителя V100, если DGX по … это 2,240 тензорного ядра графических процессоров все вместе. Он имеет 494 коммутаторы Mellanox и семь петабайт флэш-накопители.

С момента своего весеннего развертывания, Селена побежала тысяч рабочих мест в неделю, часто одновременно. Он работает ИИ анализа данных, традиционного машинного обучения, и HPC-приложений.

«Это не просто машина Ма,» сказал Хьюстон. «Это один из лучших высокопроизводительных машин в мире, это одна из лучших ОД машин в мире, и это одна из лучших машин ИИ.»

Как правило, это занимает десятки инженеров месяцев, чтобы собрать и развернуть суперкомпьютер класса системы. Компании Nvidia удалось сделать это с двух человек группы, изолированы друг от друга, как форма общественного дистанцирования … чтобы распаковать и систем для одежды. Инженеры ломали до 60 систем в сутки, максимальная их загрузка док справится. Прокладка кабеля была завершена с двухметрового расстояния между людьми, с помощью виртуальных учетных записей, которые позволяют администраторам удаленно проверки кабеля.

trip-robot-selene.jpgtrip-robot-selene.jpg

Обе робот помогает от Nvidia персонал практически наблюдать Селена.

Команда системы, определенные модули 20 узлов, соединенных относительно простой «тонкий выключатели».Эти масштабируемые блоки могут быть изложены последовательно, развернулся и испытания перед следующей была добавлена. Кабели были сокращены в длины и в комплекте вместе с липучкой.

«Это разработано, чтобы быть очень развернуто, очень быстро,» Хьюстон объяснил. «После того, как вы стойки В и силу внутри, вся конструкция и методика что мы сделали-это возможность очень быстрого развертывания. Вы получаете пользователей по нарастающей, так что в среднем раз ломал машину для полного оформления заказа и передачи пользователю в четыре часа».

Селена базируется на открытой архитектуре акции Nvidia со своими клиентами. В дополнение к Аргоннской национальной лаборатории, Университета Флориды планирует использовать дизайн, чтобы создать самый быстрый компьютер ИИ в научных кругах. Такие компании, как «Локхид Мартин» и «Майкрософт» также с помощью DGX по SuperPODs.

Цель дизайна от Nvidia, Хьюстон сказал, чтобы быть в состоянии развернуть в любом Центре обработки данных, от центров телекоммуникационных данных, который, как правило, используют 7кВт стеллажи, до высокопроизводительных центров обработки данных.

Который сказал: «Самая большая тяга, что мы видим, является в КВД зал и в AI исследовательских компаний, которые должны попасть машины, которые являются большой и быстрый и проверенный,» сказал Хьюстон, «без того, чтобы тратить много времени на то, чтобы сделать пользовательский строит и выяснить все соединения компромиссы, все программное обеспечение, чтобы сделать все это работать… как с программным обеспечением полный стек точки зрения, но и с центром обработки данных полного стека точки зрения, мы можем доставить очень быстро и включить их исследования».

Компания NVIDIA целенаправленных 28 киловатт на стойку, которая является самой частой высокой плотности hyperscaler инфраструктуры. Команда потратила значительное количество времени на дизайн соединения для того чтобы сделать систему простой в развертывании и расширяемой.

«Мы извлекли много уроков на расширяемость на предыдущих архитектур,» Хьюстон сказал: «Мы должны были массово заменить ее. Таким образом, мы хотели совсем другой подход, как мы прошли через это».

Команда распалась, вычисление, хранение и тканей менеджмента в независимых плоскостях, с двух сетевых интерфейсов карт в ГПУ. С этой SuperPOD, NVIDIA также увеличила емкость и пропускную способность памяти и одной хранения. Четыре яруса хранения пролетом 100 терабайт/секунду память одной до 100 Гбит/с пулах.

Система была построена с прослойками автоматизации. Например, Селена общается с сотрудниками компании NVIDIA на резервный канал, как если бы это был коллега, сообщив о запутывающихся проводов и изоляции неисправно оборудование, поэтому система может продолжать работать.

Между тем, компания NVIDIA использует робота телеприсутствия от Double робототехники, по имени трип, чтобы персонал практически Селена наблюдать через камеры робота и микрофон.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *