3 июля 2024 г.

Руслан Алигаджиев

По поручению президента правительство РФ формирует новый нацпроект «Экономика данных». Эта работа предполагает в том числе «разработку современных надёжных решений для обработки и хранения данных, перевод экономики и социальной сферы на качественно новые принципы работы с использованием системы управления, основанной на больших данных».

Перспективная практика применения искусственного интеллекта в сфере госуправления — предиктивная аналитика, поддержка принятия решений о развитии территорий на основе интерпретации имеющихся данных.

В контексте автоматического анализа больших объёмов информации есть несколько вопросов, которые предстоит решить. Во-первых, как автоматизировать оцифровку большого объёма документов? Во-вторых, насколько полные, качественные и актуальные данные мы получим после оцифровки. Информацию какого качества будет анализировать ИИ-система, цифровой помощник человека? От ответов зависит целесообразность затрат на дорогостоящую ИИ-аналитику.

Как используют электронные данные для развития территорий?

Представьте, есть задача построить экономическую модель рудного месторождения. Корректно оценить потенциал проекта можно на основе анализа данных геологической разведки: описания что, где и в каком количестве находится. Как правило, это актуальная, но архивная информация, которая хранится в бумаге, в рукописных формах и чертежах, на кальке. То есть сначала данные нужно оцифровать. Или лучше провести дорогостоящую разведку заново?

Гораздо боле масштабный пример и реализуемый в стране проект — Национальная система пространственных данных. Это цифровая модель РФ, развиваемая по инициативе правительства страны, как инструмент развития регионов. С помощью представленных в системе слоёв данных можно понять, какие ресурсы имеются в распоряжении правительства и как ими можно эффективно управлять. Чтобы наполнить систему полными и актуальными данными предстоит большая работа по оцифровке архивных документов.

Важность подготовки и стандартизации данных

В Китае данные стали «новым фактором производства». Власти стараются повысить их качество, стандартизировать, совершенствуют системы для их сбора, обработки, обмена, применения. С октября 2023 года в стране работает Национальное бюро данных (NBD).

В России для эффективного управления и межведомственного обмена государственными данными существует НСУД — Единая информационная платформа национальной системы управления данными.

Стандартизированная машиночитаемая информация — основа устойчивой и эффективной экономики данных.

Распознавание данных: оцифровка аналоговых документов, объём рынка

Несмотря на рост электронного документооборота, аналоговые бумажные носители остаются важным источником данных. Так, в корпоративном сегменте порядка 80% всего документооборота приходится на бумажные носители.

При этом бумагу активно переводят в цифровой формат, о чем говорит ежегодный рост рынка OCR-решений, ПО для оптического распознавания симоволов (optical characters recognition — оптического распознавания символов).Такие решения сейчас все больше действуют на базе нейронных сетей.

По прогнозам GlobalData, мировой рынок OCR за 2023 год составил $ 11,7 млрд и в 2030 году вырастет до $ 31.9 млрд со средним темпом прироста в 15,4%.

Российский рынок оцифровки документов в начале 2023 года оценивали в 6-8 млрд рублей с перспективой роста от 10 до 20 процентов в год.

В начале 2022 года президент Путин поручил подумать, как перевести накопленные в России архивы в электронный вид с применением технологий ИИ. Предварительно потенциал рынка эксперты оценивали в 200 млрд руб.

В контексте поручений президента в цифровой вид переводят архивы документов по объектам культурного наследия страны (ОКН). Электронные копии позволят эффективнее управлять ОКН, быстрее решать вопросы по необходимым мероприятиям для их охраны, ремонта, а также возвращения в деловой оборот, что поможет привлечь в бюджет региона дополнительные средства от бизнеса, который хочет пользоваться такими зданиями.

Ранее, в 2018-20 годах в России перевели в электронный вид данные из архивов ЗАГС. В результате получился единый цифровой реестр населения страны, основа для развития проактивных социальных сервисов, в том числе с применением ИИ.

Подготовка данных для систем поддержки принятия решений: проблема применения ИИ

ИИ достаточно эффективно распознает типовые формы: паспорта, водительские удостоверения, другие регламентированные формы. Однако не существует идеальных алгоритмов машинного обучения. В реальности нейросети неуверенно обрабатывают рукописный текст, нестандартные шрифты, некачественные сканы/фото документов и т.д.

На первый взгляд, рынок оцифровки довольно серьёзно насыщен разными решениями. Однако в большинстве случаев это типовые решения для распознавания стандартизированных, строго формализованных документов. На повестке же качественное распознавание сложных, слабоструктурированных данных: рукописных, технических, информации, которая содержится в том числе в ветхих, архивных документах. Их оцифровка может помочь в решении вопросов развития территорий.

Когда ошибки в распознавании нужно исключить, информацию обрабатывают в два-три этапа. Сначала распознавание проводит автоматическая программа, затем люди перепроверяют результат работы системы распознавания.

Задачи по пред- и постобработке данных иногда требуют труда тысяч людей, поскольку данных очень много. Естественно, такое количество проблематично собрать в одном пространстве. По этой причине для разметки данных (этап обучения ИИ) и верификации данных (корректировка работы системы) применяют крауд-платформы, облачные системы, где люди работают удаленно, из разных регионов.

Подобная платформенная занятость позволяет решить вопрос массовой и непрерывной работы с данными.

Человек для обучения ИИ

Люди нужны, чтобы обучать ИИ, а также верифицировать результаты его работы. В контексте распознавания данных это подразумевает ручное исправление значений, которые нейросеть распознала неверно. Таким образом заодно оператор дообучает ИИ: в следующий раз нейросеть сработает лучше.

Особенно это актуально для распознавания сложных шрифтов (печатные машинки) и рукописного теста. Методику называют human-in-the-loop (человек в контуре), её активно применяют по всему миру как дополнение к автоматическому ИИ-распознаванию, а также для разметки массивов данных, на которых потом обучают ИИ.

Например, компания Scale AI с 2016 года размечает данные в интересах разработчиков ИИ-решений. В числе заказчиков — Tesla, Open AI и его канадский конкурент Cohere.

Другой очень свежий пример развития платформы для аннотации данных — Labelbox, недавно заключивший партнерство с Google: в рамках этого проекта люди через платформу будут оценивать работу разрабатываемых больших языковых моделей (LLM). Очень важно, чтобы подобный ИИ работал правильно, а не галлюцинировал, как это сейчас бывает.

Кстати, сам Google разрабатывает решения для оцифровки документов (Documents AI) и применяет в процессе распознавания верификацию силами людей.

Цифровые платформы для верификации данных и контроля за работой ИИ-систем — общемировой тренд. Некоторые даже называют такой подход state-of-the-art — самым передовым для обучения ИИ.

На сегодняшний день, только верификация силами людей позволяет убедиться, что информация, которую обрабатывает и которую выдает машина — качественная.

В условиях перехода к экономике данных применение краудсорсинговых платформ может сэкономить массу времени и средств в процессе подготовки слоёв электронных данных для различных аналитических систем и систем поддержки принятия решений.

Вывод

Переход к экономике данных выдвигает ещё больше требований к разработчикам систем распознавания, хранения, передачи, защиты информации и т. д.

Укрупняется ставка на ИИ, как магистральную сквозную технологию для быстрой автоматической обработки данных, для поддержки принятия решений о развитии.

Однако, чем выше требования к системам автоматизации, тем больше ответственности на людях, которые с ними работают.

Данные, с которыми работает ИИ, должны быть точными и полноценными. Для этого нгужен труд верификаторов или AI-тренеров. Люди помогают корректно распознавать данные, размечать массивы и обучать искусственный интеллект.

Инструменты краудсорсинга помогают реализовать подобную объёмную работу: удаленно работающие сотрудники размечают данные через облачные платформы.

Возможно, в России нужна своя национальная платформа для работы с данными в целях обучения ИИ.

Кроме того, вне зависимости от уровня автоматизации, за людьми всегда остается финальное решение, принимаемое на основе предиктивного анализа.

Источник: Руслан Алигаджиев, CEO ИТ-компании «Биорг», резидента «Сколково»