Исследования
10 минут
04.09.2025

Big Data и «поведение пользователей»: чем больше кликов собрал — тем сильнее веришь в вуду

Больше данных ≠ больше смысла. Работа Рохаса и Ямпольского показывает: даже в предельно простой математической модели может существовать «истинная статистика», которую невозможно вычислить никаким алгоритмом. Для бизнеса это означает, что иногда проблема не в данных и не в команде, а в самих законах математики.

Есть один неприличный секрет, о котором вам не расскажут консалтеры с дорогими галстуками и презентациями с графиками в три этажа.
Секрет в том, что больше данных не всегда означает больше смысла.

Вы можете скупать терабайты пользовательских логов, записывать каждый чих клиента: кликнул ли он по кнопке «купить», подвигал ли мышкой, вдохнул ли перед закрытием вкладки. Можете ставить дата-центры с охлаждением как на Байконуре, чтобы хранить миллиарды строк «событие — время — айдишник». Можете нанимать команду из десяти data scientist-ов, у которых дипломы блестят сильнее MacBook в open space.

И что вы получите? Всё тот же прогноз уровня «ну, наверное, клиент уйдёт к конкуренту» или «скорее всего, он купит, если мы дадим скидку». То есть никакой магии, только лотерея с красивыми дашбордами.

И тут самое смешное: не виновата ваша команда (они реально пашут). Не виноваты алгоритмы (они делают всё, что могут). Не виноват рынок (он просто хаотичен).

Виновата… математика. А математика, как известно, KPI не понимает.

Недавно чилиец Кристобаль Рохас и канадец Майкл Ямпольский в своей работе

Ulam Meets Turing: Constructing Quadratic Maps with Non-Computable SRB Measures

показали то, о чём бизнесу даже страшно подумать. Они взяли простейшую модель — логистическое отображение, формулу из школьного учебника fa(x)=ax(1−x). Минимум параметров, никаких «человеческих факторов», никакого шума. И выяснили: бывают такие параметры a, где существует ровно одно «истинное распределение поведения», к которому сходятся почти все траектории системы… но оно в принципе невычислимо.

Переводим с математики на язык бизнеса: вы можете иметь все клики всех пользователей за всю историю компании и всё равно не узнать, как они будут вести себя дальше. У вас могут быть бесконечно быстрые алгоритмы и бесконечно большие сервера — а истина будет сидеть на чердаке, болтать ножками и махать вам ручкой.

То есть ваши модели честно бегут за правдой, но правда играет с ними в прятки: «догоняй, если сможешь».

Священная мантра: «Собери ещё данных»

В бизнесе эта мантра звучит как корпоративная молитва.

- Прогнозы плохие?
- Надо собрать больше данных.
- Прогнозы всё ещё плохие?
- Надо купить «новый, правильный алгоритм» (обязательно с наклейкой AI/ML/LLM).
- Прогнозы снова плохие?
- Ну, значит, пора открыть hh.ru и нанять «нормального» дата-сайентиста, а этого списать на утечку в Яндекс.

Мы все видели этот ритуал: ещё один квартал, ещё один отчёт о росте базы данных на 40%, ещё одна презентация в стиле «мы всё ближе к пониманию клиента». Но как только доходит до реальных предсказаний — максимум, что может сказать модель: «этот пользователь… возможно купит, возможно не купит». Спасибо, Кэп.

И вот где особенно обидно: в экспериментах Рохаса и Ямпольского никакой грязи нет. Нет шумных пользователей, нет хитрых ботов, нет скрытых переменных. Система предельно простая, почти игрушечная: одна формула, одна переменная. Всё «чисто как в лаборатории».

И даже там — полный провал.

“We show that this, or in fact any other numerical approach can fail for the simplest non-linear discrete dynamical systems given by the logistic maps…” (Rojas & Yampolsky, 2024)

Сколько бы вы ни кидали «рандомные дротики» в пространство исходных состояний, сколько бы не усредняли траектории — алгоритм не может поймать правильное распределение. Оно реально существует, но поймать его алгоритмом — как пытаться схватить радугу: смотришь, она вроде есть, а дотронуться нельзя.

То есть если у вас в компании кто-то с умным видом обещает: «соберём ещё данных — и точно узнаем, кто купит через неделю», можно смело брать попкорн. Потому что иногда данные растут, сервера гудят, а правда всё так же на чердаке машет вам ручкой.

Что говорит математика

Рохас и Ямпольский показывают трюк, от которого хочется одновременно смеяться и плакать.

Они аккуратно доказывают: есть такой параметр aa, который сам по себе абсолютно нормальный — его можно вычислить с любой точностью, хоть на калькуляторе «Электроника». Но связанная с ним статистическая мера — то есть «истинное распределение поведения» — вычислить невозможно в принципе.

“There exist computable parameters a ∈ (0,4), a from (0,4) … with a physical measure μ\mu which is not computable.” (Rojas & Yampolsky, 2024)

Переводим в бизнес-реалии: представьте, что у вас есть товар. Вы можете его пощупать, отфоткать, снять рекламный ролик с дрона и выложить в TikTok. Но его настоящая цена — то есть реальная вероятность, что пользователь купит именно по этой цене — навсегда скрыта за семью печатями. Вы можете гадать: 999? 899? Может, 1199? Но правильная цифра сидит где-то в параллельной вселенной и вам никогда её не достать.

И тут важно: это не истории уровня «ну система слишком сложная, много параметров, слишком хаотично». Нет. Тут наоборот: всё упрощено до состояния «решение для школьного кружка». Формула в одну строку, один параметр, никаких шумных данных, никаких ботов, никакой хитрой сегментации. Это система, которую школьник может набросать в Python за 5 минут.

И всё равно: и математика холодно говорит вам: «Никакой алгоритм не скажет тебе точную вероятность. Смирись».

Это как в отношениях с пользователями: вы можете знать их возраст, доход, любимую доставку еды и даже цвет любимого носка, но настоящая вероятность, что он купит ваш продукт именно завтра, лежит за пределами вычислимого.

Что это значит для бизнеса

Во-первых, расслабьтесь: ваши аналитики не бездари. Хоть вы их меняйте каждый месяц, хоть выписывайте бейджики «Senior Predictive Wizard», хоть пишите в резюме «умею приручать хаос» — если распределение невычислимо, то шансов нет. Не потому что кто-то ленится, а потому что математика сказала: «нет».

Во-вторых, легенда «ещё больше данных решит всё» разваливается с треском. У вас может быть миллиард событий в базе: кто что кликнул, сколько секунд смотрел баннер, с какой руки держал телефон. А «правильная вероятность» покупки так и останется в недосягаемом космосе. Данные будут расти, отчёты будут пухнуть, а истина останется на том же чердаке, помахивая вам ручкой.

В-третьих, значит, надо перестать строить культ «идеальной модели». Хватит верить в магический ML, который вот-вот «поймёт клиента лучше самого клиента». Реальный выход — это делать бизнес-процессы устойчивыми к тому факту, что прогнозы будут иногда полным мусором.

  • Иллюзия прогресса: думаем, что данные → точность. А на деле получаем данные → новые иллюзии, только дороже.
  • Ставка на гибкость: вместо вечной погони за «истинной моделью» стройте процессы, которые переживут любую чушь, выданную предсказанием.
  • Роль экспертизы: нанимайте людей не для того, чтобы они «подкрутили гиперпараметры» в надежде на чудо, а для того, чтобы вовремя сказать: «Ребята, сама постановка задачи — тупик. Тут математика против нас».

Иными словами, не всегда побеждает тот, кто собрал больше всего логов про поведение пользователей. Побеждает тот, кто умеет жить с неопределённостью и не превращает Big Data в шаманский бубен.

Что делать (и где не облажаться)

Если вы хотите выжить в мире, где математика искренне ржёт над вашими KPI и где пользователи ведут себя не как «юзеры», а как дикие коты в коробке, рецепт простой — но не гламурный.

  • Ставьте мелкие ставки. Пользователи непредсказуемы. Сегодня они лайкают сторис про котиков, завтра массово удаляют приложение, потому что «друг сказал, что так модно». Поэтому любые гипотезы проверяйте малыми партиями: A/B-тесты, пилоты, гибкие прайсы. Пусть ваши модели ошибаются дёшево, а не на годовом бюджете.
  • Не стройте культ «ещё данных». Если ваши пользователи уже оставили за год миллион кликов, то ещё один миллион ничего принципиально не изменит. Вы не приблизитесь к истине, вы просто включите режим «обогрев офиса серверами».
  • Учитесь жить с неопределённостью. Люди не функции и не SQL-запросы. Сегодня они кликают «купить», завтра пишут злой отзыв, а послезавтра возвращаются с друзьями. Побеждает не тот, кто «угадал следующий клик», а тот, кто быстрее перестроился, когда всё пошло вразнос.

И да, не утешайте себя мыслью «ну это редкий случай, в реальном бизнесе всё проще». Авторы прямо говорят: в одномерной игрушечной системе такие аномалии ещё редкость, но в многопараметрических и многомерных мирах (то есть в вашей реальной экономике и поведении клиентов) они могут стать нормой:

“Our examples are rare in the one-parameter quadratic family … however, in more complex multi-parametric, multi-dimensional families, they can become common.” (Rojas & Yampolsky, 2024)

Так что да, не обольщайтесь. Ваши пользователи — это не красивые точки на дашборде. Это хаос с банковской картой.

Финал

Ваш ML не тупой. Ваши дата-сайентисты не ленивые. Просто иногда сама Вселенная работает по правилам, где никакой алгоритм не может дать гарантированно правильный прогноз.

Мораль простая: побеждает не тот, у кого больше данных, а тот, у кого меньше иллюзий

И в этом смысле математика из работы Рохаса и Ямпольского — лучший коуч для бизнеса: она показывает, что иногда «правильного ответа» не существует в принципе. И если вы перестанете бегать за фантомом идеальной модели, то освободите силы для реальных задач: устойчивость процессов, риск-менеджмент и способность адаптироваться.

А если вам кто-то снова скажет «давайте подождём ещё квартал, соберём ещё данных — и всё станет идеально», — можете смело отвечать:

«Это не дата-сет у нас кривой. Это математика так решила»

Мы в соцсетях

Исследования
10 минут
04.09.2025
Исследования
10 минут
04.09.2025

Мы в социальных сетях