23 марта 2021 г.

Райнер В. Кезе

Объём данных в глобальном масштабе увеличивается на несколько миллиардов терабайт каждый год, в частности за счёт того, что всё больше и больше машин и устройств генерируют данные. Но где нам всё это хранить? Даже в наш век интернета вещей без жёстких дисков не обойтись.

Объёмы данных за последние десятилетия увеличились в несколько раз, но настоящий взрывной рост ещё впереди. В прошлом данные — фотографии, видео и документы — в основном создавались людьми, но по мере наступления эпохи интернета вещей машины, устройства и датчики становятся крупнейшими производителями данных. Их уже сейчас намного больше, чем людей, и они генерируют данные намного быстрее, чем мы. К примеру, один автономный автомобиль создает несколько терабайт данных в день. А ускоритель частиц CERN генерирует один петабайт данных в секунду, при этом «всего» около 10 петабайт в месяц сохраняется для последующего анализа.

Помимо автономного транспорта и научных исследований, есть ещё видеонаблюдение и промышленные системы, которые являются ключевыми генераторами этого потока данных. Специализирующаяся на исследованиях рынка компания IDC предполагает, что глобальный объём данных вырастет с 45 зеттабайт в прошлом году до 175 зеттабайт к 2025 году*. Это означает, что в течение шести лет будет сгенерировано в три раза больше информации, чем общее количество данных по состоянию на 2019 год, — 130 зеттабайт, то есть 130 миллиардов терабайт.

Большая часть этих данных будет анализироваться в момент создания, например, на уровне датчиков автономного транспортного средства или производственного предприятия — это так называемые периферийные вычисления. Здесь важны быстрое получение результатов и реакция в реальном времени, поэтому задержки, которые неизбежно возникают при передаче данных и централизованном анализе, просто неприемлемы. Однако пространство для хранения и вычислительные мощности на месте генерации данных ограничены, поэтому рано или поздно большая часть информации попадает в центр обработки данных. Затем эту информацию можно подвергнуть постобработке, объединить с данными из других источников, проанализировать и заархивировать.

В результате возникают серьёзные проблемы для инфраструктур хранения данных компаний и исследовательских институтов. Они должны быть готовы обрабатывать постоянный приток больших объёмов данных и надёжно их хранить. Это возможно только при наличии горизонтально масштабируемых архитектур, которые предоставляют ёмкость хранения в несколько десятков петабайт и могут непрерывно расширяться. Кроме того, им нужны надёжные поставщики оборудования для хранения данных, которые смогут удовлетворять этот непрерывный и растущий спрос на системы хранения данных, ведь мы не можем позволить себе потерять эти данные. Общедоступное облако часто рекламируется как вполне подходящее решение. Тем не менее, реальность такова, что предлагаемой пропускной способности недостаточна для обсуждаемых сценариев использования, а сопутствующие расходы экономически нецелесообразны.

Для организаций, которые хранят данные, поступающие от устройств интернета вещей, хранилище становится в некотором смысле предметом потребления. Конечно, его не «потребляют» в прямом смысле этого слова, но, как и другие потребительские товары, он покупается регулярно и требует постоянных вложений. В качестве примера того, как могут выглядеть инфраструктуры хранения и модели закупок в эпоху интернета вещей, можно привести исследовательские учреждения, такими как CERN, которые уже обрабатывают и хранят огромные объёмы данных. Европейский исследовательский центр физики элементарных частиц постоянно добавляет новые блоки расширения системы хранения информации в своём ЦОДе, при этом каждый блок содержит несколько сотен жёстких дисков последнего поколения — в общей сложности их там 100 000 штук общей ёмкостью 350 петабайт.

Цена определяет выбор носителя данных

Пример CERN демонстрирует, что при хранении таких огромных объёмов данных без жёстких дисков не обойтись. Жёсткие диски остаются самым дешёвым носителем, отвечающим двум основным требованиям: большой объём и простота доступа. Для сравнения: накопитель на магнитной ленте стоит очень недорого, но не подходит в качестве офлайнового носителя, поскольку предназначен только для архивирования данных. С другой стороны, флэш-память в настоящее время по-прежнему в восемь-десять раз дороже в расчёте на единицу ёмкости, чем жёсткие диски. Конечно, цены на твердотельные накопители (SSD) снижаются, но это снижение происходит не с той же скоростью, с которой дешевеют жёсткие диски. Более того, жёсткие диски идеально подходят для удовлетворения требований к производительности в средах хранения данных большой ёмкости. Один жёсткий диск может уступать одному SSD, но комбинация нескольких жёстких дисков с высокой скоростью вращения обеспечивает отличные показатели с точки зрения количества операций ввода-вывода в секунду (IOPS), позволяя надёжно снабжать аналитические приложения необходимыми данными.

В конце концов, решающим фактором является только цена, особенно с учётом того, что объёмы данных, которые будут храниться в мире интернета вещей, можно будет сжимать для экономии драгоценного пространства для хранения лишь минимально. Если это вообще возможно, сжатие обычно происходит на уровне конечного устройства или на периферии, чтобы уменьшить объём передаваемых данных. В центр обработки данных информация поступает уже в сжатом виде, поэтому она должна храниться без дополнительного сжатия. Кроме того, дедупликация также обеспечивает лишь небольшую потенциальную экономию, потому что, в отличие от обычных корпоративных общих файловых ресурсов или резервных копий, идентичные данные там практически отсутствуют.

Из-за интенсивности потока данных интернета вещей и, как следствие, огромного количества требуемых носителей ещё большее значение приобретает надёжность используемых жёстких дисков. Это в меньшей степени связано с возможными потерями данных, поскольку с ними можно справиться с помощью соответствующих механизмов резервного копирования, — важнее здесь обслуживание оборудования. При годовом уровне отказов (AFR) 0,70% вместо 0,35%, которых удалось достичь специалистам CERN с жёсткими дисками Toshiba, решение для хранения данных, использующее 100 000 жёстких дисков, потребует замены 350 дисков в год, то есть в среднем потребуется один дополнительный диск на замену каждый день.

Жёсткие диски будут оставаться незаменимыми ещё долгие годы

В ближайшие годы в описанной сфере мало что изменится, поскольку основная нагрузка по хранению данных интернета вещей по-прежнему будет лежать на жёстких дисках. Производственные мощности флэш-памяти останутся слишком низкими, чтобы твердотельные накопители могли вытеснить жёсткие диски: удовлетворение текущих потребностей в носителях только с помощью SSD потребовало бы значительного расширения производства устройств на основе флэш-памяти. Принимая во внимание, что затраты на строительство одного завода по производству флэш-накопителей достигают нескольких миллиардов евро, найти необходимые финансовые ресурсы для такого расширения весьма непросто. Более того, даже если бы нужные деньги чудесным образом обнаружились прямо сейчас, это повлекло бы увеличению производства только примерно через два года и позволило бы удовлетворить только спрос 2020 года, но не 2022-го.

Нарастить выпуск жёстких дисков гораздо проще, поскольку при нём меньше доля операций стерильного цеха, чем при производстве полупроводников. Кроме того, производители жёстких дисков не стоят на месте, и новые технологии, такие как HAMR (магнитная запись с нагревом) и MAMR (магнитная запись с использованием микроволн), продолжают обеспечивать увеличение ёмкости. Эксперты считают, что ёмкость жёстких дисков будет продолжать увеличиваться примерно на 2 терабайта в год в течение ещё нескольких лет при неизменных затратах. IDC прогнозирует, что к концу 2025 года более 80% ёмкости, требуемой для основных и периферийных центров обработки данных в корпоративном секторе, будет по-прежнему обеспечиваться жёсткими дисками, а на твердотельные накопители и другие флеш-носители будет приходиться менее 20%1.

*Технический документ IDC «Эпоха данных 2025», обновление от мая 2020 г.

Источник: Райнер В. Кезе (Rainer W. Kaese), старший менеджер по развитию бизнеса, подразделение устройств хранения данных, Toshiba Electronics Europe GmbH