29 октября 2018 г.

Олег Гиацинтов

На этой неделе в Госдуму внесен законопроект о регулировании больших пользовательских данных. С какими рисками и возможностями для бизнеса он связан?

Правовые инициативы помогут компаниям эффективнее управлять данными

Развитие правового регулирования хранения и обработки данных имеет большое значение во всём мире. На примере введения регламента GDPR в Европе мы видим, как ужесточение требований регулятора стимулирует бизнес научиться эффективнее управлять своими данными, внедрить у себя стратегическое управление ими — Data Governance. В итоге в выигрыше оказываются все. Бизнес снижает для себя возможные репутационные риски, связанные с утечками. Граждане не страдают от того, что данные о них попадают в руки злоумышленников.

Кроме того, правовые инициативы в области сбора и обработки данных, могут обеспечить хороший базис для их монетизации, в том числе их продажу.

Big Data — сложный термин

В законе даётся определение Big Data. Предлагается считать большими пользовательскими данными совокупность не содержащей персональных данных обезличенной информации о физических лицах и их поведении, «собираемой из различных источников, в том числе сети „Интернет“, количество которых превышает тысячу сетевых адресов».

Ассоциация участников рынка больших данных, которая недавно была создана в России (ПАО «МегаФон», Mail.Ru Group, oneFactor, АО «Тинькофф Банк», ООО «Яндекс» и ПАО «Сбербанк») указывает на то, что «создание единого термина, описывающего большие данные в целом, нецелесообразно, с учетом того, что категории информации, которые могут собираться, постоянно меняются количественно и качественно с развитием технологий». Я согласен с ними в этом.

С технической точки зрения Big Data — это технологии, которые используются для обработки и хранения данных и удешевляют это. В частности, это — технология параллельной обработки и хранения данных на кластере Hadoop. Hadoop ускоряет и удешевляет многие процессы, позволяет работать с данными разных форматов (в том числе неструктурированными), одновременно обрабатывать большие объёмы данных. Одни и те же корпоративные данные могут храниться и на кластере Hadoop, и в традиционной реляционной базе.

Informatica, мировой лидер в области управления данными, определяет большие данные через три признака: скорость, разнообразие, объёмы. Этого же определения придерживаются многие специалисты индустрии. Непросто ограничить указанные признаки количественно. Развитие технологий сейчас происходит взрывными темпами, сложно предположить, в каких объёмах и на каких скоростях данные будут обрабатываться уже через год.

Риски, связанные с законом

Речь в законе идёт об обезличенных больших данных. То есть данных, в которых нет персональной информации, по которой можно идентифицировать пользователя (имя, адрес, номер паспорта). Технологии обезличивания и блокирования данных (например, Data Masking) эффективно применяются в крупнейших российских компаниях. Но сможет ли малый и средний бизнес обеспечить успешное обезличивание больших данных? Не приведёт ли разрешение продавать данные к утечкам?

Второй риск — замедление развития отдельных технологий, например, data science. Если сразу много пользователей запретят компаниям использовать свои большие данные результаты, которые получают data scientists иногда будут оказываться неточными.

Задача таких специалистов — поиск полезных для бизнеса закономерности в данных. Чем больше информации у data scientist, тем лучше он может обучить свои модели. Качественный поиск полезных для бизнеса закономерностей сложно представить себе на основе неполных и неточных данных.

Некачественная аналитика больших данных — это проблема не только для бизнеса, но и для его клиента. Если покупатель запретит использовать данные о своих покупках в интернете, то будет постоянно видеть нерелевантную для себя рекламу, скорее похожую на спам, а не на полезные рекомендации. Ту точность рекомендации товара, которую потенциально может обеспечить data science, сложно обеспечить другими маркетинговыми средствами.

Время покажет

Как всегда, эффективность принятия закона будет зависеть не только от его содержания, но и от того, как он будет выполняться. Технические решения и методология управления данными (Data Governance) для соответствия новым поправкам уже есть. Компаниям нужно будет их внедрить.

В частности, нужно будет общий каталог всех клиентских данных с функцией метаданных (данные о данных). Он поможет находить нужные клиентские данные во всех системах и базах компании и удалять их при необходимости. Вручную управлять Big Data для соответствия новым правкам будет очень сложно. Тем, компаниям, у которых нет эффективных инструментов обезличивания данных, нужно будет внедрить их.

На покупку таких решений компаниям придётся потратить средства. Но не стоит забывать, что общий каталог всех данных в организации — неотъемлемая составляющая успешной цифровой трансформации. Если вы не знаете, какие данные собирает ваша компания, откуда они поступают, и кто имеет к ним доступ, данные не только не принесут прибыли, но и могут стать причиной убытков.

Источник: Олег Гиацинтов, технический директор DIS Group