Почему компьютерные чипы стали быстрее "стареть" и что с этим делать

На прошлой неделе на тематическом ресурсе Semiconductor Engineering вышла статья, которая выделяет тренд «старения» чипов в ЦОД. Мы решили поподробнее взглянуть на материал и рассказать, что происходит в этой сфере.



На шестой странице отчета McKinsey & Company отмечено, что в 2008 году процент загруженности вычислительных систем дата-центра не превышал 6%. Но с развитием облачных ЦОД, ростом популярности виртуальной инфраструктуры и IaaS тренд начал меняться. Как отмечает компания NRDC в своем отчете Data Center Efficiency Assessment, в 2014 году «процент занятости» серверов в облачной среде составил уже 65%.

Это связано с тем, что сегодня одним из базовых критериев выбора облачного провайдера является доступность. Поэтому поставщики стремятся минимизировать допустимое время простоя облачной платформы. Например, если по SLA провайдер обещает доступность «три девятки», то время простоя за год может составлять не более 9 часов. Такие условия предъявляют серьезные требования к инфраструктуре, поэтому провайдеры используют балансировщики нагрузки, чтобы эффективно распределять ресурсы CPU и памяти и обеспечивать непрерывность рабочих процессов клиентов.

Отметим, что такой подход дополнительно позволяет сэкономить на охлаждении и обслуживании оборудования — по данным исследования Uptime Institute, оптимизация парка серверов в дата-центрах мира высвободит порядка 30 млрд долларов. За счет этого ЦОД и IaaS-провайдеры смогут уменьшить стоимость услуг и сделать их еще эффективнее.

Проблема разогрева

Однако, как отмечает автор статьи на Semiconductor Engineering, сейчас в ряде ЦОД усиленная нагрузка на процессоры приводит к их повышенному разогреву, что ускоряет старение чипов. Считается, что при определённом соотношении энергии активации устройства (0,8 eV/K) и его рабочей температуры (75–125°C), каждые 10 градусов сверх нормы могут уменьшить срок его службы в два раза.

При этом повышение температуры может приводить к сбоям, которые довольно сложно диагностировать. Речь идет о так называемом эффекте электромиграции. Он проявляется в скачках напряжения, приводящих к случайным замыканиям одного или нескольких контактов и нарушению работы схем (появлению задержек и даже поломке). Примером подобной ситуации может служить выход из строя части жестких дисков WD через год работы — причиной была электромиграция в одном из используемых в HDD контроллеров.

Испытание для инженеров

Чтобы снизить «уровень стресса» для чипов и замедлить износ электроники, компании используют различные технологии. Например, САПР для моделирования работы чипов перед передачей их в производство. Во время симуляций проводится проверка соединений и параметров электропитания, анализ статических рисков сбоя и оценка влияния электромагнитного поля.

Например, системы автоматизированного проектирования помогают оценить влияние электромиграции и отметить места, в которых требуется расширение соединений между транзисторами или увеличение числа контактов, чтобы предотвратить преждевременный выход системы из строя.

Что касается температурного моделирования, то, как говорит Ральф Айверсон (Ralph Iverson), инженер из отдела научных исследований компании Synopsys, занимающейся разработкой САПР, для отслеживания перегревов используется модель «случайного блуждания». С её помощью производят оптимизацию целевой функции (траектории распространения тепла) и предсказывают влияние температуры на платы и чипы.



Другое направление — разработка систем для отслеживания «старения» чипов в реальном времени. Например, исследователи из Мюнхенского технического университета предложили оценивать степень деградации схемы путем отслеживания задержки, с которой по ней проходит ток. Специальный программный контроллер оценивает задержку прохождения сигнала и сообщает о превышении допустимого уровня деградации электронного устройства. При этом система может автоматически снизить частоту работы чипа и скорректировать рабочее напряжение, пока устройство не будет заменено.

Поиск новых материалов

Разработчики электроники также начинают обращать внимание на новые материалы, которые бы выдерживали более высокие нагрузки, чем кремний. Например, одним из потенциальных материалов, который рассматривается в качестве замены кремнию, является нитрид галлия (GaN).

Этот полупроводник имеет более высокую подвижность носителей заряда и больший коэффициент теплопроводности. За счет этого транзисторы на основе нитрида галлия меньше в размерах и обладают большими показателями мощности. Например, нитрид галлиевые транзисторы используют при создании и развертке широкополосных беспроводных сетей, в том числе для обеспечения работы дата-центров.

Также исследуется возможность применения таких материалов, как антимониды и висмутиды. Они могут стать основой инфракрасных сенсоров для использования в телекоммуникационном оборудовании. Другой вариант — соединения цинка и кадмия с теллуром. В частности, их потенциал может быть полезен для создания альтернативных источников электроэнергии (солнечных панелей).

Однако и сам кремний сбрасывать со счетов ученые не намерены. Исследователи из REAP Labs Университета Тафтса «дают кремнию новую жизнь».

Они работают в области «кремниевой фотоники», создавая электронно-оптические микросхемы на одном кристалле кремния. Это дает чипам возможность взаимодействовать посредством оптических, а не электрических сигналов, что ускоряет перенос больших массивов информации и снижает влияние электромагнитных помех на систему.

Работают в этой области и в IBM. Компания уже смогла разместить устройства, выполненные по технологии кремниевой фотоники, прямо на процессорном чипе.

Подобные технологии позволят создать принципиально новые вычислительные системы, которые бы выдерживали повышенные нагрузки при работе.

Нравится7
Комментарии (2)
  • 0
    Жить дальше, че тебе эти чипы😉
  • 2
    Из статьи для себя сделал вывод, что в техзадании на следующую закупку надо указать установку дисков разных производителей, чтобы не было "волны" отказов из за блуждающих...
B
i
u
Спойлер