Уже более 50 лет наблюдается экспоненциальный рост мощности вычислительных устройств (измеряется в FLOPS [5]), предсказанный Г. Муром. Однако, из-за того, что процессоры не производят никакой механической работы, согласно первому закону термодинамики, вся полученная ими электроэнергия преобразуется в тепло. Если для обеспечения работы ноутбуков и домашних компьютеров достаточно установить на процессор радиатор, обеспечив циркуляцию воздуха с помощью нескольких кулеров, а смартфоны и вовсе охлаждаются от стенок корпуса, то для суперкомпьютеров, где число процессоров может достигать десятков тысяч, используются специальные системы охлаждения.
В статье проанализированы трудности, с которыми столкнулась суперкомпьютерная отрасль при использовании воздушных систем охлаждения, сделав разработку энергоэффективной системы охлаждения одной из основных задач для достижения вычислительной мощности в 1 exaFLOPS, а также рассмотрены альтернативные воздушным подходы к охлаждению суперкомпьютеров, принцип их работы, особенности и недостатки.
Классификация систем охлаждения
Для утилизации тепла необходим один или несколько хладагентов, которые могут быть газообразными (воздух) или жидкими (вода, специальные масла и т.д.). По типу использования хладагента системы бывают:
Принцип работы таких систем основан на организации воздушного потока через радиаторы, установленные на процессорах и графических ускорителях, а также на силовых элементах материнских плат.
В таких системах охлаждения как правило используются два хладагента: жидкость, имеющая высокую теплоёмкость, циркулирует по специальным каналам и радиаторам, а также воздух, отводящий тепло от остальных компонентов суперкомпьютера. Однако подходы могут отличаться. Например, у
суперкомпьютера «Ломоносов-2» радиаторы, по которым циркулирует вода с температурой до 44 ℃, тесно прилегают к вычислительным платам [3], схожий подход используется в суперкомпьютере «СКИФ-Аврора ЮУрГУ» [4]. А у суперкомпьютера Aquasar компании IBM организована циркуляция горячей воды с температурой 60 ℃ по системе медных микротрубок и радиаторов, которые вплотную примыкают к процессорам [6].
В погружных системах охлаждения вычислительные платы установлены в герметичный контейнер, наполненный диэлектрической жидкостью, в которую полностью погружаются вычислительные узлы. Система охлаждения обеспечивает циркуляцию хладагента, нагревающегося в герметичном баке и отдающего тепло в теплообменнике или драйкулере.
В поливных системах охлаждения радиаторы процессоров также охлаждаются диэлектрической жидкостью. Однако в отличие от погружных систем, вычислительные платы не погружены в жидкость.
Это позволяет значительно увеличить скорость потока хладагента, а следовательно, эффективность процесса охлаждения.
При таком подходе вычислительные узлы погружаются в герметичный контейнер, наполненный специальной диэлектрической жидкостей, кипящей при температуре около +50 ℃. Отдача тепла происходит путём конденсации насыщенного пара в верхней части контейнера, где установлен конденсатор, по которому циркулирует вода.
В свою очередь система охлаждения может быть одностадийной, когда отбор тепла от радиаторов и рассеивание его в окружающую среду производиться с помощью одного и того же хладагента, а может быть и многостадийной, если в системе установлены теплообменники, передающие тепло от одного хладагента другому.
Число контуров может зависеть как от особенностей хладагента, так и от климатический условий региона, в котором будет находиться вычислительный комплекс. Так, воздушная система охлаждения суперкомпьютера «Ломоносов» [2] на самом деле является многостадийной. Первый контур использует принцип «горячих» и «холодных» коридоров, на втором контуре в качестве хладагента используется вода, которая забирает тепло от нагретого воздуха через теплообменники и идёт на кулер, где в третьем контуре циркулирует фреон, отдающий тепло в окружающую среду. А погружной вычислительный кластер «Черенков» компании IMMERS [1] имеет лишь два контура: сначала тепло от вычислительных устройств отводится диэлектрической жидкости и передаётся воде через теплообменник, затем рассеивается в окружающую среду с помощью драйкулера.
Преимущества и недостатки систем охлаждения обусловлены как характеристиками хладагента, который в них используется, так и конструкторскими особенностями этих систем.
Так, в воздушным системах охлаждения к воздуху имеется ряд требований. Причины, по которым нельзя просто использовать воздух с улицы, а требуется его предварительная подготовка, следующие:
1. Воздух необходимо очищать от пыли. Иначе пыль, находящаяся в воздухе, оседает на радиаторах и вентиляторах, что приводит к формированию устойчивой пылевой оболочки с хорошими теплоизоляционными свойствами и как следствие препятствует отводу тепла.
2. Воздух необходимо осушать. Избыточная влажность может привести к конденсации влаги на электронных платах и выходу их из строя.
3. Воздух необходимо охлаждать. Иначе система охлаждения просто не справится с отводом необходимого количества тепла, что приведёт к перегреву и выходу из строя вычислительного оборудования.
4. Требуется организация потоков воздуха при охлаждении многопроцессорных вычислительных плат. Потоки холодного и нагретого воздуха хаотично перемешиваются при наличии большого количества процессоров, что увеличивает необратимость процесса охлаждения.
Все эти факторы в совокупности не только требуют дополнительных энергозатрат, но также приводят в увеличение числа вентиляторов, что ведёт к повышению шума, особенно высокочастотного. Приемлемый уровень шума в машинном зале на сегодня принят равным 73 дБ, а людям приходится кричать, чтобы общаться.
В гибридных системах охлаждения, где помимо воздуха также используется вода, практика выявила следующих недостатки:
1. Сложность конструкции. Вода не должна контактировать с электроникой, поэтому её пропускают внутри радиаторов по специальным герметичным каналам.
2. Малая надежность в связи с трудностью обеспечения с одной стороны герметичности подсоединения каналов охлаждения к внешним трубопроводам, а с другой – возможности отключения платы от трубопровода для ее удаления из вычислительной системы, что может понадобиться, например, при замене платы;
3. Радиатор должен плотно прилегать к отнюдь не плоской поверхности вычислительной платы
4. Существенное термическое сопротивление за счет теплопередачи от охлаждаемого устройства к плате и неполное использование его поверхности.
Хоть использование воды для отвода тепла с процессоров и графических ускорителей позволяет снизить энергозатраты за счёт её теплоёмкости, однако это очень дорогое и очень опасное решение: любая протечка может вывести из строя весь вычислительный комплекс.
В поливных системах охлаждения удаётся достичь наибольшей скорости потока хладагента за счёт того, что вычислительные узлы находятся в воздушной среде.
В иммерсионных системах охлаждения в качестве хладагента могут использоваться безопасные для электроники и человека минеральные или синтетические масла (теплоёмкость которых в 1100 раз больше, чем у воздуха). При этом коэффициент теплоотдачи от охлаждаемых устройств возрастает примерно в 100 раз при использовании жидкости вместо воздуха, что не только позволяет повысить плотность компоновки вычислительных узлов, но также существенно снижает энергозатраты на охлаждение за счёт использования наносов вместо вентиляторов, а это в свою очередь позволяет снизить уровень шума до 35 – 38 дБ (уровень шума в читальном зале библиотеки). Так же вычислительные узлы не подвержены загрязнению пылью благодаря герметичности контейнера.
Хоть такие системы и совершили прорыв в энергоэффективности охлаждения высокопроизводительных вычислительных комплексов, однако существует ряд задач, которые необходимо решить для достижения предельных значений эффективности:
1. Тщательная проработка гидродинамики
Потоки хладагента в герметичном баке должны быть организованы таким образом, чтобы обеспечить ее контакт с охлаждаемыми устройствами. При этом скорости потоков жидкости при таком контакте должны быть одинаковыми. Иначе неизбежны застойные зоны и местный перегрев.
2. Разработка радиаторов с учётом особенностей погружного охлаждения.
Существующие радиаторы рассчитаны на воздушное охлаждение, более того публикуемые параметры процессоров - теплосопротивление от ядра к окружающей среде – приведены только для потоков воздуха. Использование таких радиаторов в жидкой среде приводит к ухудшению параметров теплоотвода, в результате чего общая эффективность системы охлаждения может оказаться недопустимо низкой.
3. Термостатирование вычислительной системы по всему занимаемому объему: распределение температур процессоров зависит от их расположения в системе.
В погружных системах охлаждения с фазовым переходом коэффициент теплоотдачи возрастает в 4 – 5 раз по сравнению с погружными системами охлаждения. Такой подход к охлаждению не только унаследовал все положительные особенности присущие иммерсионным системам охлаждения, но также решает все их проблемы за счёт кипения жидкости:
· Эффективность систем с двухфазным охлаждением настолько велика, что отпадает необходимость в использовании радиаторов для увеличения площади контакта с хладагентом и, как следствие, позволяет повысить плотность компоновки вычислительных узлов.
· Жидкость автоматически поступает в те точки системы, где выделяется максимальный поток тепла и в последствие уносятся пузырьки пара.
· В кипящей жидкости температура может поддерживаться постоянной, равной температуре кипения, и при постоянном давлении эта температура определяется только свойствами жидкости, что обеспечивает практически нулевую дисперсию температур процессоров при их одинаковой нагрузке.
· Кипение охлаждающей жидкости при контакте с греющимися поверхностями вычислительных плат обеспечивает термостатирование всех вычислительных устройств. Таким образом, условия, в которых работают вычислительные платы, не зависят от их расположения.
Для оценки энергоэффективности систем охлаждения используется показатель PUE (Power Usage Effectiveness), который равен отношению всей потребляемой суперкомпьютером электроэнергии, к электроэнергии, потребляемой лишь вычислительным оборудованием.
С увеличением вычислительной мощности данный показатель растёт нелинейно. Например, для воздушных систем охлаждения отвести и рассеять 1 кВт тепла можно с помощью вентиляторов общей мощностью 100 Вт непосредственно в рабочем помещении (PUE = 1,1). Утилизация 1 МВт тепла требует затраты более 0,6 МВт электроэнергии (соотношение уже 1 к 0,6 и PUE растет до 1,6), а при потребляемой мощности более 10 МВт электроэнергии на систему охлаждения потребуется больше, чем на собственно вычислительный процесс.
Для решения проблем разрабатываются энергосберегающие процессоры (CPU и GPU), которые позволяют на каждый ватт потребляемой мощности проводить все больше операций в секунду. Если еще 5 лет назад этот показатель эффективности составлял 0,2 – 1,0 Тфлопс/кВт, то сейчас этот показатель уже превышает 5,0 Тфлопс/кВт и уже известны разработки процессоров эффективностью до 10,0 Тфлопс/кВт.
Однако, с непрерывным экспоненциальный рост мощности вычислительных устройств проблема утилизации тепла становится лишь более острой. Чем больше процессоров и плотность их компоновки в вычислительном комплексе, тем больше электроэнергии потребуется для работы системы охлаждения.
Так, для воздушных систем охлаждение, где ограничениями являются низкая теплоемкость воздуха и низкий коэффициент теплоотдачи при контакте нагретой поверхности с обтекающим ее воздушным потоком, затраты на охлаждение очень высоки, особенно летом, когда температура воздуха вне помещения может достигать +40 оС . Показатель PUE в лучшем случае достигает 1,7, но в среднем равняется 1,9.
Гибридным системам удаётся снизить показатель PUE до 1,3 за счёт использования воды, теплоёмкость которой в 3230 больше, чем у воздуха.
А в иммерсионных системах процесс охлаждения требует только 4 – 5 % от отводимого от процессоров тепла, и, даже в самый жаркий день (при температуре воздуха до +35 оС) охлаждение может быть организовано без использования холодильных машин, что невозможно при охлаждении воздухом. В таких системах PUE составляет 1,05.
В системах охлаждения с фазовым переходом эффективность системы охлаждения выше, PUE может достигать значений 1,01 и меньше, однако, по сравнению с погружными системами, экономия энергии не выглядит столь существенной. Тем не менее применение систем с фазовым переходом целесообразно при необходимости термостатирования вычислительных узлов и в случае применения вычислительного комплекса в жарком климате: чем больше температура окружающей среды, а значит, чем меньше должно быть суммарное тепловое сопротивление вычислительного комплекса, тем выше экономия энергии при применении систем с фазовым переходом.
Система погружного жидкостного охлаждения с фазовым переходом – это инновационное решение, сочетающее в себе положительные качества иммерсионных систем и особенности двухфазного охлаждения, позволяет наилучшим образом организовать работу вычислительных комплексов. Использование таких систем не только существенно снизит энергозатраты на охлаждение и повысит плотность компоновке вычислительных узлов, но также позволит сделать вычислительные комплексы более компактными или же увеличить число стоек в них за счёт сокращением пространства на установку инженерного обеспечения вычислительных комплексов (нет необходимости в межрядных кондиционерах, горячих и холодных коридорах), а герметичные контейнеры, не требующие поддержания температурно-влажного режима, позволят отказаться от систем кондиционирования. В свою очередь низкий уровень шума даст возможность организовывать рабочие места в том же помещении, где установлен вычислительный комплекс. Совокупность всех этих факторов позволит сократить затраты на строительство и эксплуатацию вычислительных центров.
1. Погружной кластер «Черенков» в НИЯУ МИФИ. URL: http://www.immers.ru/solutions/success/pogryjnoi-klaster-cherenkov-v-niyai-mifi/ (дата обращения 25.05.2020)
2. Суперкомпьютер «Ломоносов». URL: https://www.msu.ru/lomonosov/science/computer.html (дата обращения 25.05.2020)
3. Суперкомпьютер «Ломоносов-2». URL: https://t-platforms.ru/projects/superkompyuter-lomonosov-2/(дата обращения: 24.05.2020)
4. Суперкомпьютер «СКИФ-Аврора ЮУрГУ». URL: http://supercomputer.susu.ru/computers/skif_avrora/(дата обращения: 24.05.2020)
5. FLOPS – Wikipedia. URL: https://en.wikipedia.org/wiki/FLOPS (дата обращения: 24.05.2020)
6. IBM's Hot-Water Supercomputer Goes Live | DataCenter Knowledge. URL: https://www.datacenterknowledge.com/archives/2010/07/05/ibms-hot-water-supercomputer-goes-live (дата обращения: 24.05.2020)