Фундамент обработки

Инструменты бизнес-аналитики и управления данными очень важны в мире больших данных. Но эти технологии хороши лишь настолько, насколько мощны и эффективны компоненты оборудования и платформы ПО, на которых они работают.

Редакционная команда CRN/США подготовила третий ежегодный список «Big Data 100», включив в него вендоров, которые вывели на рынок продукты и услуги, помогающие организациям работать с большими данными. Ниже кратко представлены 25 вендоров инфраструктуры, инструментов и услуг для больших данных, предлагающих всё, от серверов до платформ ПО и облачных услуг. Некоторые, такие как IBM, Hewlett-Packard и Oracle, имеют широкий спектр продукции, включающий также технологии аналитики, управления данными и инфраструктуры, помогающие решать эти задачи.

Altiscale

Учредитель и главный управляющий: Рейми Стата (Raymie Stata)

Компания Altiscale (Пало-Альто, шт. Калифорния) — один из нескольких конкурирующих стартапов, предлагающих Hadoop-как-услугу. Ее Altiscale Data Cloud представляет собой услугу по требованию с оплатой по мере использования, построенную на платформе больших данных Hadoop.

В феврале компания объявила, что в ее Data Cloud интегрирован механизм обработки больших данных Apache Spark и встроена технология аутентификации Kerberos.

Рейми Стата, до этого директор по технологии Yahoo, основал Altiscale в 2012 г. В декабре компания получила второй раунд финансирования в размере 30 млн. долл.

Amazon Web Services

Главный управляющий: Джефф Безос

Amazon Web Services больше известна как облачный сервис хранения данных, но компания неуклонно расширяет спектр предоставляемых услуг, относящихся к Big Data. В их числе: база данных NoSQL-типа Amazon DynamoDB, реляционная СУБД Amazon RDS, сервис Amazon Kinesis для обработки и анализа потоковых данных в реальном времени, хранилище данных Amazon Redshift петабайтного объема, Amazon Glacier для хранения архивных данных, а также услуга Amazon Elastic MapReduce, которая предоставляет платформу Hadoop через сервис Elastic Compute Cloud (EC2).

В апреле Amazon впервые назвала цифры дохода AWS, сообщив, что он составил 1,57 млрд. долл. в I квартале, а прибыль — 265 млн. долл.

BlueData Software

Соучредитель и главный управляющий: Кумар Шриканти (Kumar Sreekanti)

BlueData Software вышла из «скрытого режима» в сентябре, впервые представив свою платформу ПО BlueData EPIC, использующую технологию виртуализации, которая позволяет организациям проще, быстрее и с меньшими затратами обрабатывать большие данные, используя Hadoop-как-услугу в виде локального решения.

Компания (создана в 2012 г., базируется в Маунтин-Вью, шт. Калифорния) указывает, что ее технология дает возможность организациям любого размера быстро строить системы обработки больших данных, экономя при этом от 50 до 75% затрат по сравнению с традиционными подходами.

Cask

Учредитель и главный управляющий: Джонатан Грей

Cask — это компания свободного ПО, которая предоставляет инструменты разработки для приложений и данных Hadoop. Ее платформа Cask Data Application служит для построения, развертывания и администрирования приложений для больших данных.

В феврале Cask подписала соглашение о стратегическом деловом и техническом сотрудничестве с Cloudera, дистрибьютором Hadoop, в рамках которого Cloudera приобрела долю в ее акционерном капитале. Cask была учреждена в 2011 г. под названием Continuuity и базируется в Пало-Альто, шт. Калифорния.

Cloudera

Главный управляющий: Том Райли (Tom Reilly)

Компания Cloudera — один из ведущих поставщиков Hadoop и связанного с этой платформой ПО и услуг. Ее флагманский пакет Cloudera Enterprise включает средства администрирования Hadoop, руководства данными и безопасности. Компания создала также SQL-механизм обработки Cloudera Impala с массовым параллелизмом для данных, хранимых в кластерах Hadoop.

Cloudera, учрежденная в 2008 г.. и базирующаяся в Пало-Альто, шт. Калифорния, сообщила в феврале, что ее экосистема партнеров выросла за предыдущий год более чем на 75% до 1450 компаний; в их числе системные интеграторы и поставщики решений (более 850 на тот момент), крупные ИТ-вендоры, независимые поставщики ПО (ISV) и разработчики инструментария.

Concurrent

Главный управляющий: Гари Накамура (Gary Nakamura)

Concurrent позиционирует себя как ведущего поставщика инфраструктурного ПО, которое организации используют для разработки, внедрения и запуска приложений для больших данных, а также для управления ими. Компания предлагает платформу прикладной разработки Cascading и ПО управления производительностью приложений Driven. Concurrent базируется в Сан-Франциско и была создана в 2008 г.

Confluent

Соучредитель и главный управляющий: Джей Крепс (Jay Kreps)

Стартап Confluent (Маунтин-Вью, шт. Калифорния) разрабатывает коммерческую платформу потоковых данных на основе Apache Kafka, свободного брокера обмена сообщениями, созданного Apache Software Foundation.

Крепс и два других соучредителя Confluent, Неха Нархеде (Neha Narkhede) и Цзюнь Рао (Jun Rao), внесли существенный вклад в разработку брокера Kafka, а после этого занимались построением инфраструктуры данных в LinkedIn. В ноябре все трое ушли из компании, чтобы создать Confluent, и набрали 6,9 млн. долл. достартового финансирования.

DataGravity

Соучредитель и главный управляющий: Паула Лонг

После двух лет разработки DataGravity наконец представила свою серию устройств хранения, «понимающих данные», как говорит компания. Ее устройства DataGravity Discover не только помогают организациям управлять их данными, но и предоставляют функции поиска и обнаружения для того, чтобы понимать, как эти данные используются. Двумя соучредителями компании были Паула Лонг и Джон Джозеф, ключевые руководители EqualLogic, разработчика технологии хранения (куплен Dell).

DataGravity (создана в 2012 г.), которая базируется в Нашуа, шт. Нью-Хэмпшир, получила 50 млн. долл. в третьем раунде финансирования в декабре, что довело ее общую сумму финансирования до 92 млн. долл.

Dataguise

Соучредитель и главный управляющий: Манмит Сингх (Manmeet Singh)

Одна из серьезных проблем Big Data — защита столь обширных объемов информации. Компания Dataguise, созданная в 2007 г., адресует свое ПО анализа безопасности и защиты данных DgSecure организациям из сферы здравоохранения, финансовых услуг, госучреждениям и др. Ее ПО автоматизированного обнаружения, маскирования данных, шифрования и оценки риска работает в Hadoop, базах данных NoSQL-типа и других платформах среды больших данных.

В феврале Dataguise (Фримонт, шт. Калифорния) представила свою технологию DgSecure для NoSQL на конференции Strata + Hadoop.

Dell

Учредитель и главный управляющий: Майкл Делл

Dell неуклонно выстраивает свою линейку ПО для больших данных, в которую входят ПО интеграции данных Boomi AtomSphere и ПО бизнес-аналитики и прогнозного анализа Statistica — это последнее было куплено вместе с компанией StatSoft в марте 2014 г. Dell предлагает также ряд инструментов управления большими данными, которые она получила вместе с покупкой Quest Software в 2012 г.

EMC

Главный управляющий: Джозеф Туччи

Матрицы хранения данных, такие как Isilon и VMAX, сами по себе позиционируют EMC как крупного игрока на арене больших данных. Но компания глубоко вовлечена также в разработку аналитики и прикладного ПО для Big Data. Ее совместная с VMware фирма Pivotal предлагает базу данных Greenplum с массовым параллелизмом, SQL-механизм обработки HAWQ для Hadoop и распределенную базу-данных-в-памяти GemFire.

В марте EMC Federation (в которую входят сама EMC, а также RSA, VMware и Pivotal) представила программно-аппаратное решение для Big Data под названием Federation Business Data Lake, которое упрощает для организаций сбор, размещение и анализ громадных объемов данных. Система составлена из продуктов линейки Information Infrastructure самой EMC, а также пакетов ПО VMware vCloud Suite, Pivotal Big Data Suite и Pivotal Cloud Foundry.

Hewlett-Packard

Президент и главный управляющий: Мег Уитман

Подобно IBM, Dell и другим вендорам компьютерного оборудования Hewlett-Packard предлагает целый спектр серверов, СХД, другого оборудования и системного ПО, образующих фундамент систем обработки больших данных. В то же время компания расширяет свою линейку ПО более высокого уровня для конкретных задач управления данными и анализа.

Предложения HP в области Big Data и аналитики совокупно продвигаются как платформа больших данных Haven, которая включает Hadoop, столбцовую базу данных Vertica и ПО поиска и анализа неструктурированных данных Autonomy.

Hortonworks

Главный управляющий: Роб Бирден (Rob Bearden)

Компания Hortonworks, созданная в 2011 г., предлагает платформу Hortonworks Data Platform — дистрибутив Apache Hadoop, объединенный с инструментами управления данными, интеграции, безопасности, предоставления ресурсов и другим ПО обработки корпоративных данных.

Hortonworks (Пало-Альто, шт. Калифорния) стала открытой компанией 11 декабря 2014 г. и в феврале сообщила, что ее доход за финансовый год (завершился 31 декабря) составил 12,7 млн. долл. В апреле этого года Hortonworks объявила о покупке SequenceIQ с ее инструментами быстрого внедрения для Hadoop. В том же месяце новым директором Hortonworks по технологии был назначен Скотт Нау (Scott Gnau), до этого президент Teradata, разработчика технологии хранилищ данных.

IBM

Президент и главный управляющий: Вирджиния Рометти

IBM поставляет продукты, которые охватывают все аспекты технологии больших данных, в том числе инструменты бизнес-аналитики Cognos и SPSS, ПО управления данными — СУБД DB2 и систему интеграции данных InfoSphere, а также такие платформы оборудования, как IBM PureData с технологией Netezza и суперкомпьютер Watson.

В феврале IBM представила версию своей платформы аналитики BigInsights для Apache Hadoop. Она включает комплект инструментов для выполнения запросов, визуализации и изучения больших объемов данных Hadoop.

MapR Technologies

Соучредитель и главный управляющий: Джон Шрёдер (John Schroeder)

MapR Technologies конкурирует с Cloudera, Hortonworks и другими вендорами на арене Hadoop, ведя разработку на основе своего дистрибутива Hadoop и другого свободного ПО Apache, чтобы создать полную платформу Big Data для операционных задач и аналитики.

В феврале MapR Technologies (Сан-Хосе, шт. Калифорния) выпустила MapR Distribution, включающий Apache Hadoop 4.1, с новыми средствами асинхронного тиражирования и другими возможностями поддержки приложений реального времени для глобально распределенных данных.

Сообщают, что компания собирается провести IPO в конце 2015 г.

Microsoft

Главный управляющий: Сатья Наделла

В последние годы Microsoft наращивает свою линейку ПО для больших данных. На платформном уровне компания предлагает свою широко используемую базу данных SQL Server со встроенными функциями бизнес-аналитики, а также сервис Azure HDInsight на базе Hadoop. Ее пакет Power BI — набор инструментов бизнес-аналитики для облачных приложений Office 365 — набирает популярность.

На своей конференции Build в конце апреля Microsoft представила новые сервисы Big Data для Azure, в том числе Azure SQL Data Warehouse, который компания преподносит как более простой способ создания облачного склада данных, и Azure Data Lake для хранения и управления «бесконечным количеством данных».

Oracle

Главные управляющие: Марк Херд и Сафра Кац

Херд и Кац официально стали двумя CEO в сентябре, когда соучредитель компании Ларри Эллисон снял с себя полномочия главного управляющего, оставшись председателем правления и назначив себя директором по технологии. Хотя, конечно, он наверняка по-прежнему задает направление развития этого гиганта СУБД.

Реляционная база данных Oracle остается флагманским продуктом компании, но вендор предлагает также зрелый спектр технологии больших данных — от специализированных устройств, таких как Exadata Database Machine и Big Data Appliance, до базы данных NoSQL-типа и СУБД-в-памяти, ПО бизнес-анализа и углубленной аналитики и аналитических приложений.

В апреле компания представила Oracle Data Integrator for Big Data — новый продукт в рамках ее стратегии разработки технологий, которые позволяют платформе Hadoop, NoSQL-базам данных и реляционным СУБД работать вместе в локальной среде организаций или в облаке.

Pepperdata

Соучредитель и главный управляющий: Шон Сачтер (Sean Suchter)

Стартап Pepperdata разработал оптимизатор кластеров реального времени для Hadoop, который отслеживает и управляет использованием всех аппаратных ресурсов (ЦП, дисковый ввод-вывод, память и сеть). Это помогает ИТ-отделам лучше управлять выполнением задач на Hadoop и выжать максимум из своей среды Hadoop.

Pepperdata (Саннивейл, шт. Калифорния), основанная в 2012 г., получила 15 млн. долл. во втором раунде финансирования в апреле.

Pivotal

Главный управляющий: Пол Мариц

Pivotal — совместное предприятие компаний EMC и VMware. Провозглашенная цель — создание прикладного ПО, способного обрабатывать «большие объемы быстро поступающих данных» на единой, не зависящей от облака платформе.

Линейка продуктов Pivotal включает базу данных Greenplum с массовым параллелизмом, SQL-механизм обработки HAWQ для Hadoop и распределенную базу-данных-в-памяти GemFire.

В феврале Pivotal неожиданно объявила, что открывает исходный код некоторых своих продуктов, а именно баз данных Greenplum и GemFire и своего дистрибутива Hadoop, Pivotal HD. Видимо, это связано с той ролью, которую играет Pivotal в формировании консорциума Open Data Platform.

Qubole

Соучредитель и главный управляющий: Ашиш Тхусу (Ashish Thusoo)

Qubole — один из нескольких стартапов, предлагающих платформу больших данных Hadoop как услугу. Qubole Data Service работает на Amazon AWS, Google Compute Engine и Microsoft Azure.

В феврале Qubole, которая создана в 2012 г. и базируется в Маунтин-Вью, шт. Калифорния, добавила механизм обработки Apache Spark к своей платформе QDS, расширив типы рабочих нагрузок, которые аналитики и исследователи данных могут прогонять на QDS.

До того как создать Qubole учредители компании Ашиш Тхусу и Джойдип Сен Сарма (Joydeep Sen Sarma) построили и запустили службу обработки данных Facebook и масштабировали ее до более чем 25 петабайт. Также они создали технологию open-source хранилища данных Apache Hive.

Snowflake Computing

Главный управляющий: Боб Мулья (Bob Muglia)

Snowflake Computing официально стартовала в октябре, представив свои услуги облачного хранилища данных. Стартап позиционирует свое предложение как более гибкую, проще управляемую альтернативу традиционным локальным системам хранилищ данных организаций. Snowflake конкурирует также с другими предложениями облачных хранилищ данных, такими как Redshift от Amazon Web Services и Big Query у Google.

Компания из Сан-Матео, шт. Калифорния, основанная в 2012 г., сразу оказалась на виду, поскольку ее главный управляющий Боб Мулья занимал ранее посты в Microsoft и Juniper Networks. Новый сервис используется сейчас группой пробных заказчиков; его официальный старт ожидается к середине года.

Sqrrl

Главный управляющий: Марк Теренцони (Mark Terenzoni)

Учредители Sqrrl пришли из суперсекретного Агентства национальной безопасности США, где помогли выстроить громадную базу данных этой организации. База данных Sqrrl Enterprise предлагает возможности столбцовой, графовой БД и хранения документов для приложений Big Data. Но самой сильной стороной продукта является его способность масштабироваться и обеспечивать защиту данных на уровне ячейки.

Sqrrl, которая основана в 2012 г. и базируется в Кембридже, шт. Массачусетс, первоначально предназначала свою технологию для более общих приложений аналитики Big Data, но в прошлом году компания взяла прицел на обнаружение и изучение угроз в сфере кибербезопасности. В феврале Sqrrl получила 7 млн. долл. во втором раунде финансирования.

Syncsort

Главный управляющий: Лонн Жафф (Lonne Jaffe)

Syncsort начинала в 1968 г., разрабатывая ПО для больших ЭВМ. Под руководством Жаффа, ранее занимавшего должности в IBM и CA Technologies, компания стремится стать поставщиком инструментов интеграции и преобразования больших данных для Hadoop и других платформ.

В феврале Syncsort (Вудклиф-Лейк, шт. Нью-Джерси) представила новую версию своего пакета интеграции данных DMX с возможностями конструирования, обеспечивающими поддержку нескольких вычислительных платформ. Компания заявляет, что эти возможности облегчают организациям внедрение Apache Hadoop.

Teradata

Главный управляющий: Майк Кёлер (Mike Koehler)

Teradata — еще одна компания, рождение которой восходит к тем временам, когда не было термина «Big Data»; она разработала свои программно-аппаратные решения хранилищ данных в 80-е годы. Сегодня компания поставляет широкий спектр продуктов, среди которых Teradata Data Warehouse Appliance и Teradata Aster Discovery Platform, а также обширный портфель аналитического ПО.

Teradata базируется в Дейтоне, шт. Огайо (когда-то она принадлежала NCR Corp.). В апреле компания представила специализированное устройство Teradata Data Warehouse Appliance 2800, оптимизированное для быстрой аналитической обработки-в-памяти и с увеличенной пропускной способностью запросов. Компания предложила также программно-реализованное (software-defined) хранилище данных — расширение к Teradata Database, позволяющее организациям консолидировать множество хранилищ данных в одну систему.

Treasure Data

Соучредитель и главный управляющий: Хиро Йосикава (Hiro Yoshikawa)

Treasure Data предлагает облачное хранилище данных (платформу-аналитики-данных-как-услугу), которая работает по модели подписки. Идея в том, чтобы предоставить организациям возможности мощного хранилища без громадных затрат и времени на разработку, характерных для локально внедренных систем.

Treasure Data (Маунтин-Вью, шт. Калифорния) была создана в 2011 г., а ее услуга стартовала в 2012 г. В январе она получила 15 млн. долл. во втором раунде финансирования. Компания будет использовать эти средства для дальнейшей разработки своей технологии SQL-доступа, а также анализа громадных объемов больших данных, поступающих от мобильных устройств, веб-источников и Интернета вещей.

© 2015. The Channel Company LLC. Initially published on CRN.com, a The Channel Company website, at https://www.crn.com. Reprinted with permission.