Исследование | 10 июля 2024

Как исследовать Россию, когда данные закрываются

Аналитика и инструкции от исследовательской команды «Коллективного действия»

Благодаря многочисленным проектам и инициативам в области открытых данных российское государство далеко продвинулось в развитии этой культуры. Даже 2014 год и санкции, под которые попала Россия, не изменили эту область кардинальным образом. Однако с 2018 года можно наблюдать постепенное сворачивание инициатив по открытости данных. Начало российского вторжения только ускорило этот процесс, что существенно осложнило работу журналистов, академических исследователей и активистов.


Тем не менее, как показывают оценки экспертов и проведённая исследователем «Коллективного действия» Сергеем Машуковым дискуссия, в стране всё ещё много разнообразных открытых данных. Эта информация может быть ценным ресурсом для анализа того, что на самом деле происходит в российской экономике, политике и общественной сфере. В этом тексте мы расскажем, как различные инструменты и новые способы извлечения данных помогают искать сведения, которые стали труднодоступны или которые российские власти хотят скрыть.

Почему Россия открывала данные
Для проведения исследований как в журналистике, так и в академической работе требуются данные. Их источники — демографическая статистика, интервью, административные данные, статистика по преступности, социологические опросы. Однако любые данные имеют ограничения, которые необходимо учитывать при их анализе.

Информация отличается по своей доступности (насколько её можно скачать или извлечь), пригодности для обработки (является ли она машиночитаемой) и глубине (как много дополнительной информации может быть понято через конкретные данные).

Государства тоже заинтересованы в различных данных для принятия более качественных решений и проведения реформ. Особый случай составляют так называемые открытые данные — практика, когда государства публикуют данные в регулярном режиме, независимо от наличия запросов. Открытые данные создают новые возможности для гражданских расследований и общественных проектов.

Исследователи проекта Cedar выделяют различные факторы, которые способствовали развитию открытости данных в России. Их можно разделить на внешние и внутренние.
Внешние факторы
  • Современные автократии, как правило, используют множество различных инструментов для собственной легитимации. Например, как показывают результаты исследований Сергея Гуриева и Дэниела Трейсмана, многие автократы притворяются более демократичными, допуская существование оппозиционные СМИ, чтобы подать сигналы легитимности внутри и снаружи. Интеграция России в международные структуры, а также в различные интернациональные инициативы по открытости данных показывала, что Россия может быть надёжным партнёром для развитых стран.

  • Экономический фактор: повышение России в различных международных бизнес-рейтингах и привлечение инвестиций. Бизнес заинтересован в открытых финансовых данных, прозрачных госзакупках, налоговых, валютных и торговых данных. Открытые данные — часть инфраструктуры рыночной экономики, и их существование важно для инвесторов.
Внутренние факторы
Политологи утверждают, что, несмотря на первоначальные ассоциации методик электронного правительства с демократическими странами, автократии также используют эти инструменты для завоевания легитимности. Повышая эффективность и прозрачность управления, увеличивая вовлечение граждан, с помощью электронного правительства российские власти внесли вклад во внутреннюю легитимность режима. Таким образом они показали, что чиновникам важно качество госуправления. Как отмечает социолог и дата-журналист Арнольд Хачатуров: «Российское правительство стремилось и до сих пор стремится к какой-то эффективности, какой-то прозрачности к тому, чтобы госуправление не слишком сильно деградировало, чтобы это не вызвало серьёзное недовольство».
Как был устроен процесс скрытия данных
Специалист по открытым данным Иван Бегтин и его коллеги отмечают, что первый период открытости данных в России пришёлся на время с 1992 по 2012 годы. В 2005 году появилась открытая система система государственных закупок, а в 2011 — Федеральная информационная адресная система. В мае 2012 года была запущена система «Открытое правительство», важной составляющей которой была нацеленность на международное сотрудничество.

В 2013 году качество российский официальной статистики оценивалось ОЭСР (Организация экономического сотрудничества и развития) совместно с Росстатом. Будучи одной из самых авторитетных статистических организаций в мире, ОЭСР предъявлял высокие требования к уровню собираемой статистики. В этом же году Россия в составе с другими странами Большой восьмёрки подписала Хартию открытости данных. 2014 год положил конец этой инициативе. Вместо международной кооперации «Открытое правительство», как отмечают исследователи, переориентировалось на работу с гражданами, бизнесом и экспертными сообществом.

По оценке Ивана Бегтина и его коллег, в 2018 году российские власти начали сворачивать инициативы по открытым данным. При этом, если внешние причины для сохранения свободы информации после начала вторжения во многом утратили релевантность, внутренние факторы сохранили силу.

Что происходит с российскими данными после полномасштабного вторжения
В 2023 году Госдума приняла закон, который позволяет правительству до 1 января 2026 года приостанавливать предоставление и распространение официальной статистики — включая данные с оккупированных территорий. С начала полномасштабного вторжения российские власти стали значительно активнее удалять данные из публичного доступа. По расчётам «Если быть точным», за два с половиной года с сайтов федеральных органов было удалено около 600 датасетов. Среди них данные о доходах и расходах чиновников, информация о госзакупках подсанкционных компаний, миграционная статистика, а также различные показатели, по которым можно оценить потери российской армии в боевых действиях в Украине. Многие данные федеральных ведомств, таких, как ФСИН и Минюст, перестали публиковаться.

Только за 2024 год власти удалили 76 датасетов с ведомственных сайтов – больше всего информации закрыли такие ведомства, как Роструд, Росприроднадзор и Росздрав.

Одновременно данным, которые ранее считались надёжными, становится всё сложнее доверять. В этой связи Иван Бегтин замечает, что официальная статистика становится бесполезной. Социолог и участник экспертной дискуссии «Коллективного действия» Дмитрий Серебренников предложил больше обращать внимание на способ сбора данных: «Если данные, которые были доступны, являлись или являются цифровым следом, они будут хорошие, и им скорее можно доверять. Другое дело — данные статистики, которые сообщаются кем-то, и вместе с этим проходят административную цензуру. Здесь у нас появляются некоторые сомнения».

Дополнительную сложность представляет то, что большие международные опросные компании (European Values Study, World Values Survey) ушли из России. Теперь последние доступные данные о России в международных опросах датируются 2019 годом. Как отмечает социолог Ника Костенко, если раньше мы могли сравнивать российские опросы с данными международных, то теперь такой возможности нет.
Какие данные в основном закрываются
Экономическая информация
Экономические и финансовые данные в России пострадали больше всего. Они часто закрываются под предлогом риска санкций. Из-за их закрытия становится сложнее понять, в каком направлении движутся финансовые потоки в стране и как происходит управление государственными расходами. Кроме того, отсутствие данных по ряду экономических показателей осложняет анализ экономической ситуации и прогнозирование для экономических агентов. По оценке «Если быть точным», экономические показатели засекречивают быстрее всего.

  • В конце февраля 2022 года правительство закрыло информацию о золотовалютных резервах.
  • В 2022 году ЦБ прекратил публиковать ежемесячные публикации данных по внешней торговле товарами со стороны РФ.
  • Федеральная таможенная служба прекратила публикацию статистики по импорту и экспорту.
  • Закрываются данные, связанные с отчётностью российских компаний и банков.
  • В 2023 году Росстат перестал публиковать информацию о добыче нефти в России.
  • Сведения о дохода и расходах чиновников
  • ФТС закрыла статистику по импорту и экспорту с отдельными группами стран
Сведения о преступности
Генпрокуратора отключила сервис Crimestat с подробными данными о преступности в российских регионах, мотивируя это «доработкой функциональности»
Источники для журналистских расследований
  • Данные ФСИН. С января ФСИН перестала обновлять статистику о людях в тюрьме, но Медиазона* нашла данные на сайтах региональных управлений, показывающие активность вербовки заключённых на войну в Украине. За 2022 год из российских колоний исчезли почти 33 тысячи заключённых, и Медиазона* смогла установить первоначально место нахождения примерно 17 тысяч из них, выявив, что больше всего заключённых пропало из Самарской, Челябинской, и Кировской областей, а также из Татарстана.

  • Статистика выплат инвалидам и семьям погибших. Используя данные компенсаций погибшим и раненным, журналисты «Новой газеты Европа»**, смогли дать оценку потерям личного состава российской армии, что, вероятно, могло стать причиной закрытия статистики.
Судебные данные
В конце февраля 2024 года перестал работать официальный агрегатор судебных дел ГАС «Правосудие», позволявший учёным и журналистам изучать, как устроена и как работает судебная система в России.
Информация, связанная с военными действиями
  • Данные инфраструктурных объектов, которые могут стать военными целями

  • В 2023 году Росстат частично закрыл данные о социальных выплатах, включая выплаты ветеранам боевых действий – вероятно, для того, чтобы предотвратить оценку числа военнослужащих в Украине.

  • Данные по гражданской авиации. Росавиация перестала публиковать сведения о количестве воздушных судов у российских авиакомпаний, объяснив это «оптимизацией публикуемой информации». Теперь на сайте ведомства указываются только типы судов, а данные о количестве воздушных судов доступны в федеральной информационной системе и публикуются самими авиакомпаниями.
Как чиновники скрывают и открывают данные
Как отмечает Арнольд Хачатуров, у российских властей нет продуманного и целенаправленного процесса зачистки данных. Решения принимаются хаотично: одни данные удаляются, тогда как другие остаются. При этом сотни датасетов продолжают оставаться в открытом доступе. Например, одно из самых открытых ведомств, Роструд, недавно опубликовало результаты Мониторинга трудоустройства выпускников, на основании которого можно сделать выводы о размере зарплат в России. Такие данные позволяют исследователям и журналистами даже в текущих условиях анализировать ситуацию в российском обществе.

Продолжает играть роль то, что исследователи называют «инерцией открытости». Такие ведомства, как Центральный банк и Роструд объявляют о новых инициативах открытости, что может свидетельствовать о селективном продолжении тренда на открытость данных.

Параллельно с этим принимаются новые законодательные инициативы в отношении данных. Минцифры подготовило обновлённую версию законопроекта об обезличенных данных, предусматривающую создание государственной информационной системы (ГИС), в рамках которой бизнес должен будет бесплатно передавать государству персональные данные клиентов и сотрудников. Предполагается, что первые три года доступ к датасетам будут иметь только госорганы и различные ведомства. Согласно оценке экспертов Forbes, «новая версия законопроекта может говорить о риске монополизации государством работы с данными и даже прямо нарушать принцип законности и справедливости, на котором базируется законодательство о защите персональной информации». Специалист по открытым данным Иван Бегтин полагает, что этот законопроект позволяет правительству отнимать у бизнеса данные о клиентах, а его главными бенефициарами явлются спецслужбы, госкомпании и правительство.
Как работать с российскими данными
Существует множество способов преодоления различных ограничений данных, которые позволяют повысить качество даже той информации, которая изначально оставляет желать лучшего.
Оценивать качество сведений
  • Понять, откуда берутся данные и как они собираются.

  • Сравнить разные данные, которые оценивают одни и те же показатели.

  • Проверить, как часто меняется методология сбора данных, насколько она консистентна и последовательна

  • Использовать специальные статистические методы для оценки валидности результатов. Например, анализ независимых дата-журналистов по методу исследователя статистики Сергея Шпилькина показывает, что почти половина голосов за Владимира Путина на последних выборах могла быть фальсифицирована. Распределение голосов за оппозиционных кандидатов соответствует нормальному, в то время как голоса за Путина неестественно увеличиваются на участках с высокой явкой, указывая на массовые вбросы.

Вывод: нужны специалисты, которые смогут грамотно оценить качество конкретных данных и объёмы скрытой информации. Только в этом случае можно адекватно оценить ограничения сведений.
Использовать данные, которые до сих пор открыты
  • Портал Госзакупок продолжает публиковать данные о компаниях, физлицах и поставках товаров. По оценке политолога Виктории Полторацкой, это сведения всё ещё достаточно высокого качества.

  • На основе официальных данных Росстата о количестве умерших в стране, издание «Важные истории» смогло подсчитать количество погибших в Украине за 2022 и 2023 годы. Потери были оценены на основе метода избыточной смертности. Это, однако, лишь приблизительная информация, поскольку Росстат не публикует данные о смертности в так называемых новых регионах, а пропавшие без вести тоже не попадают в официальную статистику Росстата.

  • Некоторые городские сайты публикуют датасеты. Например, на портале открытых данных правительства Москвы на момент публикации этого текста было выложено 1212 наборов данных.

  • ФНС России всё ещё выкладывает открытые данные. Связанная с ФНС система «Прозрачный бизнес» позволяет смотреть информацию по компаниям на основе сведений государственных реестров и ресурсов ФНС.

  • Центральный банк продолжает публиковать базы данных по основным экономическим индикаторам — курсам валют, ключевой ставке процента, ставки по операциям на открытом рынке и многое другое.
Обращаться к информации, которую собирают гражданское
общество и НКО
  • Команда «Если быть точным» в течение нескольких последних лет ведёт мониторинг российских данных. Исследователи фиксируют то, какие данные были закрыты и до какой степени. Кроме того, они регулярно обновляют каталог датасетов с информацией, которая недоступна в других источниках. К примеру, среди данных, которые публикуют «Если быть точным», есть датасет о дорожно-транспортных происшествиях в России.

  • С 2005 года в рамках проектах «Кошельки партий» движение «Голос» пополняет сведения о донорах российских политических партий и кандидатов на выборах. Данные содержат информацию о тысячах юридических и физических лиц, оказывающих материальную поддержку партиям и кандидатам.

  • Проект «ОВД-Инфо» также публикует собственные датасеты. Например, недавно команда выложила датасет с информацией об уголовных преследованиях за участие в публичных акциях. «ОВД-Инфо» также публикуют данные о задержаниях в России с 2011 года и данные о преследованиях журналистов.
Использовать агрегаторы данных

  • Проект ИНИД (Инфраструктура научно-исследовательских данных) регулярно обновляет каталог датасетов, ставя своей целью повышение доступа к данным для бизнеса, исследователей и государства. Среди их датасетов — база данных показателей муниципальных образований России за 2006 – 2020 годы, таможенная статистика экспорт и импорта в российских регионах, объединённые данные по основным социально-экономическим показателям за 1985 – 2019 годы в крупных городах России и многое другое.

  • Платформа Eurostat в основном выкладывает данные о странах Евросоюза, но также здесь можно найти и сведени про Россию. Например, недавно команда выкладывала данные о торговле ЕС с Россией за период с 2020 года по настоящее время. По этим сведениям можно оценить, в каких секторах снизились российский импорт и экспорт в отношении ЕС.

  • Команда Cedar стремится продемонстрировать различные возможности сбора данных о России в новых условиях. Они также публикуют датасеты с российскими данными. На данный момент Сedar уже публиковали электоральные данные, покрывающие все федеральные выборы за период с 2000 года по 2021 год. Исследователи также планируеют выложить судебные данные, а также датасет о российской пропаганде с архивом статей «РИА Новости». Результаты исследования о российской пропаганде уже доступны у них на сайте.

  • Проект «ДумаБинго» собирает данные о лоббизме в российской Госдуме и Совете Федерации. Команда проекта агрегирует информацию о работе депутатов и сенаторов, фокусируясь на их лоббистских усилиях. Проект также простым языком объясняет суть законопроектов и пытается определить, чьи интересы продвигаются конкретным депутатом.

  • Платформа «Тендерскоп» выкладывает данные о закупках различных российских компаний, чтобы найти картели и сговоры между заказчиками и участниками закупочных процедур.

  • Проект «Декларатор» постоянно обновляет базу данных о российских публичных лицах, чиновниках, судьях, сотрудниках госкорпораций, госкомпаний, бюджетных учреждений, представителях региональной и муниципальной власти. Платформа объединяет файлы различных типов деклараций, переводит их в единый машиночитаемый формат, а затем сопоставляет разные записи и создаёт единый профиль должностного лица, который включает информацию о его доходах, имуществе и имущественных обязательствах за все доступные годы.
Брать косвенные данные
  • Организация «Transparency International»** использует данные стран, с которыми торгует Россия, для оценки объёма внешней российской торговли. Таким образом, косвенные данные позволяют реконструировать пробел в интересующей информации.

  • Социолог Михаил Соколов провёл анализ потерь сотрудников ВШЭ, сосредоточившись на тех, кто получал надбавки за публикации в международных изданиях. Эта работа показала, что из получателей надбавок за 2021 год к сентябрю 2023 года на сайте ВШЭ числится 75,3%. Информация означает, что 24,7% сотрудников в университете отсутствуют.
Обращаться к архивированным данным
  • Благодаря инициативам журналистов и активистов многие данные оказываются заархированы, что позволяет обращаться к ним даже после удаления. Например, бюро «Инфокультура» сохранило архив открытых данных портала data.gov.ru на 2 февраля 2022 г и выложило его в открытый доступ.

  • ФСИН засекретила почти все данные о заключённых, но Команда «Если быть точным» восстановила их с помощью Wayback Machine — сервиса, которые сохраняет вебсайты в архив. Исходно эта информация была собраны из разделов «Открытые данные» и «Статистические данные» официального сайта ФСИН.

  • В 2022 году Генпрокуратора прекратила обновлять сервис Crimestat с подробными данными о преступности в российских регионах, мотивируя это «доработкой функциональности». Исследователи «Если быть точным» сохранили данные правовой статистики за период с 2011 по 2022 год.

  • Russian Independent Media Archive (RIMA) создаёт архив независимых российских СМИ с 2000 года по настоящее время. В настоящее время в архиве хранятся 55 СМИ, но ближайшее время будут добавлены новые наименования. Цель организации — сделать надёжное хранилище для материалов независимых медиа, которое нельзя будет заблокировать.
Использовать неэтичные данные
  • Благодаря сливам существует огромное количество так называемых неэтичных данных. Хотя такие данные, как правило, нельзя использовать для академических статей, они могут быть полезны журналистам-расследователям. Однако, как отмечает Виктория Полторацкая, к их качеству следует относиться аккуратно: сливы могут быть частичными и данные в нихэ могут быть низкого качества.

  • Официальные данные таможенной российской службы были куплены в даркнете. На основе этих данных экономисты смогли показать, что российская нефть торгуется по ценам выше, чем декларируется.
Мы благодарим участников дискуссии Викторию Полторацкую, Дмитрия Серебренникова, Арнольда Хачатурова, Нику Костенко и Маргариту Завадскую за готовность принять участие в обсуждении и помощь в подготовке текста. Мы также благодарим Владислава Нетяева за ценные рекомендации для этого материала.
* – признаны иностранным агентом Минюстом РФ
** – признаны нежелательной организацией Минюстом РФ