Прочитал в wired и решил перевести. Статья, конечно, на уровне комсомольской правды, но может быть интересной
Около года назад у Стивена Джакиса (Stephen Jakisa) возникли серьезные проблемы с его компьютером. Они начались, когда он установил Battlefield 3 — шутер от первого лица, действие в котором разворачивается в недалеком будущем. В скором времени проблемы были не только в игре, но и его браузер «вылетал» каждые 30 минут или около того. В итоге он даже не мог установить никаких программ на свой ПК.
Дошло до того, что Стивен — программист по профессии, и вполне разбирающийся в технике человек, решил что «поймал» вирус или, возможно, установил какое-то ПО с серьезными багами. С проблемой он решил обратиться к своему другу Иоанну Стефановичи (Ioan Stevanovici), который как раз писал диссертацию по надежности компьютеров.
После недолгой диагностики, Стивен и Иоанн выявили проблему — плохой чип памяти в компьютере Джакиса. Поскольку компьютер прекрасно работал около шести месяцев до возникновения проблемы, Стивен не подозревал неполадок в оборудовании, пока его товарищ не уговорил запустить специальный тест для анализа памяти. Для Стивена это было довольно необычно. Как он сам сказал: «Если бы это случилось с кем-то на улице, с кем-то, кто ничего не знает о компьютерах, он, пожалуй, оказался бы в тупике».
После того, как Джакиса извлек проблемный модуль памяти, его компьютер работает нормально.
Когда компьютеры ломаются, как правило, считают, что проблемы с программным обеспечением. Однако в последние несколько лет ученые-компьютерщики стали обращать все более пристальное внимание на аппаратные сбои и приходить выводу к тому, что проблемы из-за них происходят куда чаще, чем многие думают.
Soft Errors
Производители микросхем проводят серьезную работу по тестированию своих чипов, прежде чем выпустить их в продажу, но они не любят говорить о том факте, что довольно сложно обеспечить работоспособное состояние микросхем в течение долгого времени. С конца 70-х годов прошлого века производителям чипов известно, что ряд аппаратных проблем могут быть вызваны изменением состояния битов внутри микропроцессоров. По мере уменьшения размеров транзисторов, поведение заряженных частиц в них становится все менее предсказуемым. Производители называют такие ошибки «soft error», хотя они и не имеют отношения к программному обеспечению.
Однако, эти soft errors — составляют лишь часть проблемы: в течение последних пяти лет исследователи, изучая сложные и большие компьютерные системы, пришли к выводу, что во многих случаях используемая нами компьютерная техника является попросту сломанной. Высокая температура или производственные дефекты могут привести к тому, что электронные компоненты выходят из строя по прошествии времени, позволяя электронам свободно перетекать между транзисторами или каналами микросхемы, предназначенной для передачи данных.
Ученые, принимающие участие в разработке компьютерных чипов следующих поколений проявляют серьезное беспокойство по поводу таких ошибок и один из главных аспектов этой проблемы — энергия. По мере производства следующих поколений компьютеров, они приобретают все большее количество микросхем и все более мелкие компоненты. И, в рамках этих крошечных транзисторов, все больше энергии необходимо для того, чтобы удерживать биты внутри них.
Проблема связана с фундаментальной физикой. По мере того, как производители микросхем пересылают электроны по все меньшим и меньшим каналам, электроны попросту выбиваются из них. Чем меньше проводящие каналы, тем большее электронов могут «вытечь» и тем большее количество энергии требуется для нормального функционирования компьютеров. Эта проблема является столь сложной, что компания Intel работает совместно с Министерством энергетики США и другими правительственными учреждениями для ее решения. В будущем Intel планирует использовать 5-нм технологический процесс для изготовления микросхем, которые будут более чем в 1000 раз превосходить по производительности те, которые ожидаются к концу этого десятилетия. Однако, похоже, что подобные чипы потребуют также и невероятного количества энергии.
«Мы знаем, как сделать такие чипы, если не беспокоиться о потреблении энергии», — говорит Марк Сигер (Mark Seager), главный директор по технологиям высокопроизводительных вычислительных экосистем в Intel, — «Но если Вы попросите нас ответить и на этот вопрос — это выше наших технических возможностей».
Для обычных пользователей компьютеров, таких как Стивен Джакиса, мир подобных ошибок — неизвестная область. Производители чипов не любят говорить о том, как часто их продукция дает сбои, предпочитая держать эту информацию в тайне.