27 февраля 2026 г.
Чем активнее мы используем нейросети и искусственный интеллект (ИИ), тем чаще звучит ощущение: ответы становятся более шаблонными, реже попадают в «тонкие» нюансы, а тексты и изображения всё более одинаковыми. Речь не о мистике и не о том, что модели «ломаются». В научной среде обсуждается достаточно понятный статистический механизм — model collapse («коллапс модели»): ухудшение качества и разнообразия, когда модели больше учатся на данных, созданных другими моделями, а доля «живых» человеческих данных размывается.
Профессор М. Вулридж (Alan Turing Institute) в публичных лекциях популяризировал простую идею: если обучать модель на текстах, которые произвела другая модель, а затем повторить это несколько раз, качество и разнообразие могут резко снизиться. В академической литературе эффект формализован и проверен экспериментально: в работе «The Curse of Recursion» показано, что при обучении на сгенерированных данных у моделей исчезают «хвосты распределения» — редкие, но важные случаи. В результате деградация оказывается необратимой без притока реальных данных.
Если упростить, это похоже на ситуацию, когда люди начинают учиться не у реальности и не у других людей, а по собственным пересказам и «конспектам конспектов». Первые итерации выглядят терпимо, но затем знания становятся блеклой копией самих себя.
Когда ИИ становится «плоским»
Пользовательская практика хорошо совпадает с теорией: ответы становятся более «усредненными», чаще повторяют распространенные клише и осторожные оговорки, реже предлагают неожиданные связи. В генерации изображений заметен другой симптом: технических артефактов (вроде «шести пальцев») становится меньше, но растет эффект глянцевой одинаковости — будто все работы сняты одним и тем же «объективом».
Причина не только в самих моделях, но и в среде, где они обучаются. Производство синтетического контента растет лавинообразно: тексты для сайтов и соцсетей, новости и «аналитика», презентации, даже обзоры научной литературы, смешные фото и видео. Чем выше доля такого контента в открытом интернете, тем выше шанс, что будущие модели будут учиться на «эхе» предыдущих поколений.
В публичных обсуждениях часто звучит прогноз о том, что уже в 2026 году доля синтетического контента может стать доминирующей. Наиболее цитируемая оценка — «до 90% онлайн‑контента» встречается в пересказах аналитиков и медиа. Даже если воспринимать данный показатель как ориентир, а не точный прогноз, направление тренда очевидно: синтетики становится достаточно много, чтобы влиять на качество обучающих выборок.
Что именно происходит при «коллапсе модели»
«Коллапс» — это не внезапное падение точности «по всем задачам». Он начинается с постепенного исчезновения редких паттернов. В терминах исследований: модель «забывает хвосты распределения» — редкие формулировки, пограничные клинические случаи, атипичные финансовые события. Именно эти ситуации встречаются нечасто, но в реальной жизни часто оказываются критически важными. Дальше «схлопывание» затрагивает и более частые сценарии: ответы становятся однообразными, тонкие контекстные ограничения игнорируются, а уверенность в выводах растет быстрее, чем качество рассуждения. Отсюда возникает риск «уверенной неправильности»: текст звучит убедительно, но основан на обобщении и повторении.
В смежных экспериментах этот эффект называют Model Autophagy Disorder (MAD) — «расстройство самоедства модели». Авторы показывают, что если в каждом новом «поколении» не добавлять достаточно свежих реальных данных, будущие модели обречены постепенно терять либо точность (precision), либо разнообразие (recall).
Почему синтетического контента становится слишком много
Рост синтетики стимулируют сразу несколько факторов. Во‑первых, экономика: сгенерировать десятки вариантов текста, фото или баннера проще и дешевле, чем заказать и вычитать у специалиста/эксперта. Во‑вторых, скорость: ИИ закрывает «контентные дыры» мгновенно — особенно в массовых форматах (SEO‑страницы, карточки товаров, новости, отчеты). В‑третьих, эффект масштаба: каждый производитель контента, подключив ИИ, увеличивает общий поток, а значит — и долю синтетики в «среде обучения» будущих моделей.
Возникает эффект самоподкормки. Сегодня модель генерирует текст, завтра он попадает в индексацию и репосты, послезавтра другие модели «скрейпят» его как часть интернета. На первых шагах это кажется безобидным, но с каждым новым циклом доля исходно человеческих данных размывается. И если не вводить фильтры и квоты, рынок сам подталкивает системы к некой автопетле.
Практические риски для медицины, финансов и государства
На бытовом уровне деградация означает более шаблонные ответы. Но в критичных сферах цена ошибки становится несоизмеримо выше. В медицине ИИ используют для поддержки клинических решений, чтения снимков, отбора литературы, предварительных оценок документов. И здесь важны редкие случаи: нетипичные осложнения, слабые сигналы, необычные сочетания симптомов.
Есть и прямые экспериментальные подтверждения того, что «плохие» подсказки от ИИ могут делать специалиста хуже. В исследовании, опубликованном в JAMA, систематически смещенные (biased) подсказки модели снижали точность врачей на 11,3 процентного пункта по сравнению с базовым уровнем. То есть риск — не только в том, что ИИ «не поможет», а в том, что он может ухудшить решение, оставаясь при этом уверенным в ответе.
В финансах и экономике аналогичная ситуация: модели применяются в скоринге, антифроде, риск‑аналитике. Здесь критичны «хвосты» — редкие, но разрушительные события (кризисы, аномальные транзакции). Усредненная модель может не заметить слабые аномалии и создаст иллюзию стабильности.
Для государства и промышленности проблема проявляется в кризисных сценариях. Пока все идет по плану, шаблонные рекомендации выглядят приемлемо. Но при нестандартных событиях — авариях, перебоях логистики, резких изменениях спроса — именно «обезжизненные» модели чаще дают спокойные, но неверные советы. Дополнительный риск — уязвимость к правдоподобной дезинформации: свежие исследования в медицине показывают, что некоторые ИИ‑системы чаще принимают ложные утверждения за правду, если они «упакованы» как официальные документы.
Как индустрия пытается защититься от деградации
Осознав масштаб проблемы, исследователи и компании выстраивают несколько уровней защиты.
- Контроль доли синтетических данных. Речь не о запрете, а о «квотах» и прозрачном учете: сколько в обучающей выборке данных, созданных моделями, и как это влияет на качество в редких сценариях.
- Верификация синтетики. Данные, сгенерированные ИИ, все чаще пропускают через дополнительную проверку — экспертом или «надзорной» моделью — чтобы отсекать шум и сохранять только полезные примеры.
- Замкнутые контуры для критичных задач. В медицине, промышленности и регуляторике все чаще уходят от «произвольного интернета» к тщательно отобранным данным: клинические записи, нормативные документы, производственная телеметрия. Обновления проходят контроль, а модель работает не вместо эксперта, а вместе с ним.
- Смешанные стратегии «реальные + синтетические» вместо замены реальности синтетикой. В работах, развивающих тему «curse of recursion», показано: при грамотном накоплении реальных данных вместе с синтетическими риск коллапса снижается. Тут ключевое слово — «вместе», а не «вместо».
Человеческий интеллект как «антидот» для ИИ
Парадоксально, но чем мощнее становятся нейросети, тем выше ценность человеческого участия. «Свежие» человеческие данные — не романтика, а техническое условие, без которого система постепенно теряет глубину и способность работать со сложными, редкими случаями.
В ближайшие годы ключевой компетенцией станет не умение нажимать кнопки в интерфейсе ИИ, а способность выстроить вокруг него экосистему: сбор и разметку данных, контроль происхождения и маркировку (human vs synthetic), экспертизу, валидацию, мониторинг качества, регуляторные и этические рамки. И тогда ИИ останется инструментом усиления интеллекта — а не фабрикой убедительных, но пустых шаблонов, которые уже, честно говоря, изрядно поднадоели и приелись многим.
Источник: Андрей Антонов, основатель и генеральный директор ООО «КРЕДО»
















