16 января 2013 г.

В 2012 г. «большие данные» превратились из модного термина в полноценную отраслевую тенденцию - или даже самостоятельную отрасль - если судить по количеству продуктов для обработки больших данных, выпущенных как начинающими, так и известными ИТ-вендорами.

Верный признак зрелости технологии больших данных - количество важных версий «2.0», выпущенных в 2012 г. такими компаниями, как Datameer, DataStax, Hadapt, Karmasphere и MapR Technologies.

Компания Gartner подсчитала, что в 2012 г. большие данные принесут ИТ-отрасли 28 млрд. долл. Это не удивительно, если учесть резко возросший объем информации, хранимой в ИТ-системах во всем мире. По оценкам, в 2012 г. он достиг 2,7 зеттабайт (2,7 млрд. терабайт), и потребность в технологии сбора, хранения, управления и анализа данных стала очень насущной.

Мы публикуем список лучших продуктов для работы с большими данными, выпущенными в продажу в 2012 г.

10. Dataguise DgHadoop

Выполнение требований законодательных актов к конфиденциальности данных может оказаться трудной задачей, поскольку Hadoop собирает данные из разнообразных источников, а не только корпоративных баз. При сосредоточении такого большого количества разнообразных данных в одной системе возрастает риск кражи информации или ее непреднамеренного раскрытия.

В июне компания Dataguise выпустила, по ее утверждению, первое в отрасли приложение для защиты конфиденциальности данных и оценки риска корпоративного уровня для Hadoop. Программа DgHadoop оценивает соответствие законодательным актам и обеспечивает централизованную защиту данных, чтобы удовлетворить требования нормативных актов к конфиденциальности и одновременно сократить затраты.

9. Cloudera Impala

Благодаря распространенности Apache Hadoop и связанных технологий и служб, Cloudera - вероятно, наиболее авторитетная из компаний, работающих с большими данными. Но это не мешает ей разрабатывать весьма привлекательные новшества.
В октябре Cloudera выпустила механизм запросов в реальном времени для Hadoop под названием Impala, с помощью которого на платформе Cloudera Enterprise (предназначена для управления огромными объемами данных) можно выполнять как операции реального времени, так и пакетные операции с любым типом структурированных и неструктурированных данных. Impala управляет данными, сохраненными в файловой системе Hadoop Distributed File System (HDFS) и базе данных Hbase. А новая программа Cloudera Enterprise RTQ (Real-Time Query) располагает необходимым инструментарием, чтобы управлять Cloudera Impala в производственной среде.

В июне Cloudera выпустила версию Cloudera Enterprise 4.0. В декабре компания получила 65 млн. долл. для финансирования новых проектов и продолжает разработку продуктов.

8. Hortonworks Data Platform 1.0

Стартап Hortonworks начала свою деятельность в июне 2011 г. и в течение года представил несколько предварительных версий Hortonworks Data Platform (HDP), дистрибутива платформы Apache Hadoop. В июне 2012 г. представитель компании объявил, что долгожданная версия 1.0 программы доступна для всех.

В 2012 г. интерес к Hadoop был огромен, но работать с открытым продуктом чрезвычайно трудно. Компания Hortonworks окружила Hadoop своей собственной инфраструктурой управления данными; службами управления, мониторинга, интеграции метаданных и данных. А уровень поддержки клиентов - такой же, как у привычных коммерческих продуктов.

7. Zettaset Orchestrator v5

Zettaset Orchestrator автоматизирует установку и управление Hadoop. В начале 2012 г. на конференции RSA компания Zettaset представила инициативу (под названием «SHadoop» означающем Secure Hadoop - безопасный Hadoop), чтобы устранить уязвимые места, которые, по заявлению представителей компании, существуют во всех дистрибутивах открытого продукта Apache Hadoop.

Orchestrator v5 обеспечивает новые возможности управления доступом, политиками, соответствием законодательным актам и рисками, улучшая управляемость и безопасность кластера Hadoop. Программа совместима со стандартами Lightweight Directory Access Protocol (LDAP) и Active Directory; располагает инструментарием для централизованной настройки конфигурации, ведения журналов и аудита; механизмом управления на основе ролей для улучшения проверки подлинности и доступа пользователей.

6. Google BigQuery

Используя накопленный опыт обработки гигантских объемов данных, компания Google выпустила Google BigQuery, облачный программный продукт, с помощью которого компании могут анализировать данные в реальном времени. В ноябре 2011 г. была представлена тестовая версия службы для разработчиков. В ее основе - технология, используемая компанией для исследования своих собственных данных. В мае 2012 г. служба стала доступна всем, кто хотел  бесплатно использовать ее для хранения и анализа данных объемом до 100 Гбайт. Сверх этого предела компания взимает 12 цент/Гбайт за хранение объемом до 2 Тбайт и 3,5 цент/Гбайт за анализ данных.

5. Mortar Data

Для работы с Hadoop требуются немалые технические знания. Mortar Data предоставляет облачную службу на основе языка программирования Python и технологии Apache Pig для анализа огромных наборов данных. В результате Hadoop становится доступнее для более широкой аудитории программистов. О Mortar Data стало известно весной 2012 г. В долгосрочных планах нью-йоркской компании - сотрудничество с партнерами в области технологии, чтобы дополнить платформу Mortar Data бизнес-аналитикой и передовыми функциями мониторинга.

4. Retention Science

Компания Retention Science, основанная в 2011 г. и официально начавшая свою деятельность в июле 2012 г., разработала «механизм профилирования клиентов», маркетинговую платформу на основе больших данных, с помощью которой интернет-компании смогут анализировать огромные объемы данных.

Приложения помогут компаниям, специализирующимся на интернет-коммерции, прогнозировать, насколько цена отражается на спросе и соответственно строить рекламные мероприятия, определять уровень отношений с каждым клиентом, укреплять их и создавать стимулы для клиентов, активных в социальных сетях. Компания из Санта-Моники (штат Калифорния) сотрудничает  с MuckerLab, компанией-инкубатором технологий из Лос-Анджелеса.

3. DataSift

Компания DataSift официально выпустила свой продукт в конце 2011 г., но в 2012 г. всеобщее внимание было  привлечено к программному продукту компании для сбора и анализа мощного потока данных, генерируемых такими социальными сайтами, как Twitter и Facebook.

DataSift предоставляет программу, с помощью которой компании могут определять сложные фильтры на основе таких критериев, как местоположение, пол и даже эмоциональное отношение, чтобы сортировать миллиарды социальных взаимодействий.

В 2012 г. компания из Сан-Франциско подписала договор с Twitter, который предоставит DataSift доступ к архиву твитов до января 2010 г. для исследований рынка. А в сентябре продукт был выпущен специально для отрасли финансовых услуг.

2. Qubole

Компания Qubole проектирует платформу «автомасштабирования» для анализа и обработки больших данных. Цель компании - предоставить облачные службы Hadoop и Hive, которые скрывают от пользователя все сложности инфраструктуры, исключая необходимость проектировать, развертывать и управлять собственными кластерами Hadoop. В результате у разработчиков и аналитиков будет больше времени, чтобы сосредоточиться на проектировании запросов и анализе данных.

Технология пока не доступна для всех желающих: в июне 2012 г. компания Qubole из Маунтин-Вью (штат Калифорния) вышла из скрытого режима и набирает специалистов по бизнесу и данным для организации программы начального доступа к ее технологии.

Основатели компании, Ашиш Тусу м Джойдип Сен Сарма, участвовали в построении инфраструктуры данных Facebook и разработке  Hadoop. Они также создали  Apache Hive, открытую  систему для хранения данных.

1. Platfora

Компания-стартап Platfora работала в скрытом режиме до октября 2012 г., представила свою размещаемую в памяти программу бизнес-аналитики для непосредственного анализа данных в Hadoop без необходимости строить сложное (и дорогое) хранилище данных или традиционный источник данных. «В действительности, это начало конца хранилища данных», - заявил в интервью основатель и главный управляющий Platfora Бен Уэртер.

Это довольно смелое утверждение. Но компании Platfora по силам произвести переворот в способах управления большими данными для целей аналитики. Программа преобразует исходные данные в Hadoop в размещаемую в памяти интерактивную бизнес-аналитику для виртуализации, панелей мониторинга и исследовательской аналитики. Она совместима со всеми дистрибутивами Hadoop, в том числе Cloudera, Hortonworks, MapR и Amazon Web Services.

© 2013. The Channel Company LLC. Initially published on CRN.com, a The Channel Company website, at https://www.crn.com. Reprinted with permission.

Источник: Рик Уайтинг, CRN/США