Игорь Моисеев

Данные сегодня — это главный ресурс современной организации, такой же ресурс, как нефть и газ для добывающих компаний или электричество для производственных предприятий. Чтобы этот ресурс приносил пользу и повышал эффективность и капитализацию организации, требуется внедрение надёжных процессов управления данными. Вопрос уже не в том, нужно ли бизнесу понимать происхождение информации, а в том, как быстро наладить эту прозрачность, чтобы не потерять доверие к отчётности и не погрязнуть в хаосе.

Ещё несколько лет назад Data Lineage (дословный перевод — «родословная данных») во многих компаниях воспринимали как приятный, но необязательный бонус: красиво, наглядно, полезно для аудита, но некритично. Однако в 2025-2026 годах отношение быстро меняется. Данных становится всё больше. Растёт число систем, отчётов, витрин и, главное, команд, которые с ними работают. Когда в компании нет ясной картины того, как именно данные перемещаются и преобразуются внутри IT-ландшафта, эти команды начинают мешать друг другу: изменения одних незаметно ломают отчёты других, а разбираться в причинах приходится вслепую.

Параллельно растёт и организационная сложность. В исследовании BPMSoft по компаниям из топ-500 РБК более 86% респондентов сообщили о серьёзных трудностях цифровизации, 71% — о кадровом дефиците, а 52% — о «лоскутной» ИТ-инфраструктуре. Иначе говоря, бизнес пытается цифровизироваться в условиях, где не хватает людей, бюджеты под давлением, а архитектура хранения данных часто похожа на шкаф, куда много лет складывали всё подряд и надеялись, что дверца закроется.

На этом фоне Data Lineage становится результативным способом ответить на три вопроса, от которых зависят и аналитика, и операционная устойчивость: откуда пришли данные, что с ними происходило по пути и на что повлияет любое изменение. Именно поэтому Банк России в рекомендациях по управлению метаданными прямо описывает «процессные метаданные» как сведения о потоках данных между ИТ-системами, расписаниях обработки и контроле использования данных, а «современные системы дата-управления» — как средства отслеживания и визуализации этих зависимостей через графы Data Lineage. Более того, регулятор отдельно связывает использование структурных и процессных метаданных с анализом инцидентов, проблем, качеством ИТ-услуг и оценкой влияния изменений.

Что такое Data Lineage в реальной жизни бизнеса

Lineage — это маршрут данных от источника до бизнес-отчёта. Не просто путь «таблица А загрузилась в таблицу Б», а ответ на цепочку практических вопросов: из какой системы пришёл показатель, каким SQL-скриптом или процедурой он трансформировался, в какую витрину попал, в какой BI-отчёт ушёл, какой KPI на нём построен и кто им пользуется.

Именно в этом заключается его реальная ценность. Lineage связывает данные не только с инфраструктурой, но и с последствиями для бизнеса. Он позволяет увидеть не просто набор технических объектов, а цепочку влияния: от источника до дашборда, от изменения поля до ошибки в отчётности, от незаметной правки в пайплайне до искажения управленческой картины.

Без такой связности компания довольно быстро попадает в знакомый многим сценарий: один разработчик переименовал поле, второй перестроил витрину, третий не предупредил аналитиков, а бизнес-команда получает отчёт со странными цифрами и начинает искать виноватого. В этот момент уже не так важно, насколько современно выглядит платформа. Если никто не может быстро объяснить, где возникло отклонение и что именно изменилось, доверие к данным начинает разрушаться. «С самого начала было ясно: без Data Lineage не обойтись. Бизнесу важно понимать, откуда именно берутся данные в витринах, и это стало одной из ключевых задач при внедрении дата-каталога», — говорит Павел Мартынов, руководитель службы развития аналитических решений компании «Комус». Для части компаний это уже стартовое условие: если бизнес не понимает происхождение цифры, он просто не будет по-настоящему доверять отчётности.

Поэтому хороший Lineage — это карта воздействия, которая показывает, какие витрины, дашборды, процессы и команды затронет изменение объекта. В международной практике это называют impact analysis (анализ влияния изменений). Для бизнеса это означает более быстрое выяснение причин сбоев и меньше рискованных решений, для ИТ — снижение числа слепых изменений, для аналитики — более высокий уровень доверия к отчётности.

Почему Lineage нужен не только дата-инженерам

Как правило, в компании у большинства подразделений есть свой понятный рабочий ИТ-инструмент. Сотрудники финансовых подразделений совместно работают в системах класса «1С Предприятие», отделы продаж трудятся в системах CRM и BI, производственники — в системах класса ERP и MES. Сотрудники дата-офисов во многих организациях до сих пор живут в смеси из чатов, таблиц, SQL-скриптов, вики и памяти отдельных сотрудников. Неудивительно, что при отсутствии единого инструмента их совместная работа неэффективна. Сегодня каталог данных, бизнес-глоссарий и Lineage стали настольной системой и ежедневным инструментом для многих CDO крупнейших российских организаций, аналитиков и инженеров. Это единая рабочая точка, где видны активы, их владельцы, качество, связи и влияние на бизнесовые показатели.

Так, например, по словам Светланы Бова, CDO (Chief Data Officer), вице-президента, управляющего директора департамента ИТ-архитектуры банка ВТБ, для компании было важно получить российский продукт для ведения бизнес-глоссария, не уступающий в функциональности зарубежному решению и даже превосходящий его. Первым приоритетом были удобство и скорость поиска информации о данных для бизнес-пользователей, что упрощает адаптацию нового инструмента и повышает ценность практик управления данными.

Это хорошо совпадает и с тем, что происходит на рынке труда. По исследованию DevCrowd, основанному на опросе 450 дата-специалистов в 2025 году, задачи подготовки и поддержки качества данных объединяют все роли в направлении. То есть Data Scientist, аналитик, Data Engineer и ML-инженер занимаются разными задачами, но качество и пригодность данных необходимы для успеха их деятельности. А это значит, что Lineage стал элементом инфраструктуры доверия.

Ещё один важный сигнал состоит в том, что зрелость рынка управления данными в России всё ещё очень неравномерна. По данным исследования The Data Adventurers Guild, настоящая культура ответственности и социализации данных сегодня есть лишь у 10-15% лидеров. При этом 89% респондентов понимают дата-контракты упрощённо, а 70% либо не знают роль дата-стюарда, либо путают её с владельцем данных. Это и есть причина, по которой даже дорогие data-платформы нередко работают ниже своих возможностей: технология уже есть, а договорённостей, ролей и прозрачности ещё нет.

Lineage выполняет важнейшую функцию. Он не заменяет управленческую зрелость, но делает её возможной. Когда связи между источниками, трансформациями, витринами и отчётами зафиксированы, разговор о качестве данных и ответственности становится предметным, проверяемым и управляемым. При этом во многих компаниях вопрос быстро упирается в ответственность.

Где без Lineage начинается хаос

Отсутствие Lineage редко проявляется в виде одной крупной катастрофы. Чаще оно накапливается как фоновая неэффективность, которая постепенно начинает тормозить и аналитику, и бизнес. Есть несколько ярких сигналов, свидетельствующие об этом.

Первый признак: компания формально уже живёт в логике data-driven (управления на основе данных), но любой спор о цифрах по-прежнему заканчивается ручной сверкой выгрузок. Система бизнес-аналитики есть, витрины есть, хранилище есть, а доверия к показателям нет. Руководители получают цифры, но не уверены, что они действительно отражают реальность. В таких условиях данные перестают быть опорой для решений и превращаются в повод для бесконечных согласований.

Второй признак: инциденты обнаруживаются слишком поздно, уже в последствиях. Ошибка замечается не в момент деградации качества данных, а тогда, когда некорректный отчёт уходит руководству, скоринговая модель обучается на ошибочной выборке, а недостоверная витрина попадает в продуктивный контур. Чем позже компания видит проблему, тем дороже обходится её исправление — и в деньгах, и в репутации внутри бизнеса.

Третий признак: критические знания о данных сосредоточены в головах отдельных специалистов. Пока такие люди в команде, система выглядит устойчивой. Но стоит кому-то уйти в отпуск, уволиться или просто быть недоступным в момент инцидента, как выясняется, что половина зависимостей нигде не описана.

Так, регуляторные материалы Банка России хорошо подсвечивают признаки зрелости управления данными в компании: оно должно быть частью корпоративной культуры, проверки автоматизированы, мониторинг проводится регулярно, влияние качества данных на бизнес-процессы анализируется, а метаданные связаны с владельцами, местом нахождения в ИТ-системах, соглашениями обмена и рисками. То есть зрелое управление данными в 2026 году — это уже не просто описание таблиц, а связанная операционная модель.

Именно поэтому Lineage особенно важен в многопользовательской среде. Если с данными работает один специалист, он ещё может держать всё в голове или в Excel. Когда в ландшафте десятки и сотни участников, то отсутствие общего графа зависимостей превращает озеро данных в то самое болото.

Как строить Lineage так, чтобы он заработал, а не завис на полпути

Частая ошибка внедрения состоит в попытке описать сразу все процессы в компании. Этот подход выглядит амбициозно, но заканчивается обычно одинаково: команда тонет в масштабе, бизнес не видит результата, проект начинает восприниматься как бесконечная инвентаризация. Начинать стоит с наиболее понятных и критичных для бизнеса потоков данных, а ещё лучше — с одного домена данных, где эффект можно быстро показать на реальной аналитике и реальных инцидентах. «Главное — понять, какие технологии уже используются в компании, и, возможно, заранее задуматься о пересмотре некоторых из них. Мы, например, столкнулись с ситуацией, которая продемонстрировала, что некоторые решения, удобные для разработки, оказываются крайне неудобными для построения Data Lineage», — добавляет Павел Мартынов.

На практике зрелый контур управления данными строится в три логических этапа, и именно здесь проявляются ключевые преимущества Arenadata Catalog.

  1. Шаг № 1. Инвентаризация и описание объектов. Каталог автоматически собирает метаданные из множества источников с помощью коробочных коннекторов, каталогизируя таблицы, витрины, отчёты, пайплайны, фиксируя их структуру, владельцев и частоту обновления. Чтобы кратно ускорить рутинную документацию, в ADC встроен AI Data Steward. Он на основе генеративного ИИ за несколько минут формирует смысловые описания сотен объектов, снимая с экспертов гору механической работы. При этом финальная верификация остаётся за человеком, но начальный вариант уже есть, и это значительно быстрее, чем стартовать с нуля.
  2. Шаг № 2. Построение Data Lineage. Arenadata Catalog автоматически парсит SQL, ETL‑логику, процедуры, оркестрацию, файлы source‑to‑target и метаданные BI‑систем в едином интерфейсе, выстраивая реальный граф связей. Продукт изначально спроектирован для российского ИТ‑ландшафта: он понимает специфику отечественного рынка решений СУБД, BI и интеграционных шин, корректно работает в закрытом контуре и соответствует рекомендациям Банка России по управлению процессными метаданными. В результате вы получаете не «чёрный ящик», а прозрачный маршрут данных, готовый к анализу.
  3. Шаг № 3. Качество и инциденты. На том же фундаменте к критичным объектам добавляются правила проверки качества, а при нарушениях автоматически запускаются настроенный сценарии уведомлений и инцидент‑менеджмент. Главная ценность ADC в том, что всё это работает в бесшовной связке: Lineage не просто показывает путь данных, а сразу подсвечивает деградацию качества по всей цепочке и передаёт инцидент ответственному. Это срезает часы ручного расследования и превращает хаос разнородных инструментов в единую, управляемую среду.

Работающий Lineage заметен по изменению поведения компании.

Во-первых, сокращается время поиска первопричины ошибки. Когда ломается отчёт или проседает качество данных, команда не начинает расследование с вопроса «а где это вообще считается?», потому что этот ответ уже есть. Это, пожалуй, один из самых приземлённых и убедительных аргументов в пользу Lineage: он экономит не абстрактное время, а вполне конкретные часы команд, которые раньше тратились на повторяющееся ручное восстановление цепочек зависимостей. Олег Михеев, руководитель группы по управлению данными и архитектурой «Полюс Диджитал», говорит: «При разработке продуктов для заказчиков мы перешли от визуального монолита, где все потоки данных были перед глазами, к кодоориентированному подходу, когда приходится разбираться с большим количеством данных, и разобраться в этом почти невозможно, если ты не разработчик этого кода. Дата-каталог как раз сканирует эти данные, строит lineage, объясняя, откуда что берётся. А если разработчики добавляют смысловые комментарии и документируют процессы хотя бы минимально, задача разбираться в потоках данных превращается из невыполнимой миссии во вполне реальную».

То есть зрелый Lineage снижает не только число ошибок, но и объём рутинной инженерной работы, которая раньше считалась неизбежной.

Во-вторых, снижается число сюрпризов при изменениях. Перед трансформацией таблицы или пайплайна можно увидеть, какие витрины, дашборды и процессы это затронет, а значит, согласовать изменения заранее, а не постфактум извиняться перед бизнесом.

В-третьих, растёт доверие к аналитике: пользователь может проверить происхождение показателя, понять логику его расчёта и увидеть требования к качеству этих данных.

В-четвёртых, улучшается диалог между ИТ и бизнесом. Одним из примеров может стать проект в Российской национальной перестраховочной компании (РНПК). В его рамках был создан единый каталог метаданных, подключены более чем 15 источников, реализован Data Lineage для ключевых этапов урегулирования убытков и автоматических проверок качества.

Почему в эпоху искусственного интеллекта ценность Lineage особенно растёт

Разговор о Lineage вышел из темы governance и всё чаще переходит в тему ИИ. И это закономерно. По данным исследования «Яков и Партнёры», уже 71% компаний в России применяют генеративный ИИ хотя бы в одной функции бизнеса. При этом экономический эффект от технологии к 2030 году оценивается в 7,9–12,8 трлн рублей в год. Но чем шире компании внедряют ИИ, тем жёстче встаёт вопрос, на каких данных он обучен и можно ли доверять его выводам и рекомендациям.

Российские аналитики ИТ-рынка прямо связывают следующий этап развития ИИ-агентов с качеством governance-контуров. По данным CNews Analytics, массовое внедрение мультиагентных систем сдерживается не только дефицитом кадров, но и тем, что компаниям нужна зрелая архитектура, MDM и устойчивые контуры data governance, чтобы агенты могли работать на единой модели прав доступа и качественных данных. Иными словами, без Lineage и управляемых метаданных ИИ-помощник очень быстро превращается в уверенного, но плохо информированного стажёра. Александр Алексеев, руководитель центра компетенции по отчётности, дашбордам и анализу данных «Полюс Диджитал», говорит: «Без Data Governance и качества данных ИИ ничего не сделает. У наших основных заказчиков, как у любой крупной компании, закрыт контур для внешних больших моделей из-за высоких рисков утечки информации, и при этом средства защиты информации по этому вопросу практически отсутствуют, так что всё должно выполняться внутри. А внутри она заработает хорошо только при нормальном описании того, что происходит».

Что важно запомнить бизнесу и дата-команде

Сегодня Data Lineage нужен не потому, что это зрелая практика «как у лидеров рынка», а потому, что современная компания уже не может безопасно работать с данными вслепую. Слишком много людей, систем, моделей и автоматизированных сценариев одновременно используют одни и те же данные. Цена непонимания их происхождения и маршрута стала слишком высокой.

Для бизнеса Lineage — это способ сократить риск неправильных решений, ускорить выпуск аналитики и выйти из режима бесконечных сверок. Для дата-специалистов — это инструмент анализа влияния изменений, поиска первопричин и нормальной совместной работы в сложной многопользовательской среде. Для компаний, активно внедряющих ИИ, это ещё и обязательный слой контекста, без которого даже самые продвинутые технологии быстро начинают работать на сомнительной основе. Зрелая работа с данными начинается, когда компания может внятно объяснить, откуда взялась цифра, кто за неё отвечает, как она изменилась по пути и что именно сломается, если завтра кто-то решит «слегка поправить поле». С этого момента Lineage перестаёт быть опцией и становится нормой взрослого управления данными.

Источник: