Исследование | 23 августа 2024

Как найти и проверить данные по России

Инструкция для тех, кто продолжает изучать страну в изоляции
Олег Паченков провел дискуссию о том, как в 2024 году искать и анализировать различные типы данных по России. Рассказываем, как оценить надёжность российских OSINT и какими источниками можно пользоваться, когда власти закрывают привычные базы данных.
Ситуация с открытыми данными на 2024 год
Хорошие новости
Вопреки распространенному мнению, Россия сохранила относительно высокий уровень информационной прозрачности, особенно в сравнении с другими автократическими режимами и даже некоторыми европейскими странами.

Хотя многие федеральные органы частично или полностью ограничили доступ к данным, значительное количество информации по-прежнему доступно. Сохраняется много открытых данных от частных компаний и других источников.

Основная проблема заключается не в отсутствии данных, а в освоении новых методов для эффективного извлечения и использования этой информации. Совершенствуя навыки работы с данными в условиях меняющегося информационного пространства, мы можем получать ценные инсайты, которые помогут нам лучше понять сегодняшнюю Россию.
Плохие новости
С начала полномасштабного вторжения российские власти стали активнее удалять данные из публичных источников. Согласно подсчётам проекта «Если быть точным», за последние два с половиной года с сайтов федеральных ведомств пропало около 600 наборов данных. Это включает в себя информацию о доходах и расходах чиновников, данные о государственных закупках санкционированными компаниями, статистику миграции и различные показатели, которые могли бы использоваться для оценки потерь российской армии в Украине.

Ключевые федеральные ведомства, которые полностью или частично ограничили доступ к информации:

  • Министерство экономического развития (Минэкономразвития)
  • Федеральная служба государственной статистики (Росстат)
  • Федеральная служба исполнения наказаний (ФСИН)
  • Министерство юстиции Российской Федерации
  • Министерство обороны Российской Федерации (Минобороны)
Тем не менее, не все засекреченные данные одинаково важны для исследователей и журналистов.
Как эксперты оценивают надёжность доступных данных
Аналитики независимого исследовательского центра Cedar разделили доступные данные по России на три группы:
  • надёжные;
  • частично надёжные;
  • ненадёжные.
Они оценивают эти группы, используя набор «красных флагов» — индикаторов, которые могут указывать на сомнительность данных. Например, если в большинстве регионов показатели стабильные, но в некоторых наблюдаются значительные отклонения, это может вызвать подозрения в ненадёжности данных.

Важно отметить, что «красный флаг» не означает, что данные ложные; это лишь сигнал о необходимости дальнейшего расследования. Команда оценивает каждый такой индикатор, чтобы понять, представляет он реальную проблему или является просто естественным ограничением данных. Некоторые ограничения могут быть связаны с используемой методологией, другие — с человеческими ошибками, например, когда на муниципальном уровне случайно вводят лишние нули, что приводит к нереалистичным показателям.

Сотрудники Cedar анализируют 30 индикаторов, влияющих на надёжность данных, используя следующие критерии:

  • Согласованность методологии. Для данного индикатора важно, чтобы способ работы с данными не менялся без публичных разъяснений от экспертов.

  • Прозрачность методологии. Есть ли общедоступная информация о том, как рассчитываются данные? Точно ли методология отражает реальность? Этот параметр оценивается с точки зрения соответствия расчётов международным стандартам.

  • Ограничения методологии. Здесь учитывается качество собранных первичных данных. Опечатки или ошибки при регистрации могут исказить результаты, и эти факторы важно учитывать

  • Внешний контроль. Команда также исследует внешние факторы, которые могут повлиять на данные. Например, если данные контролируются региональным правительством, это может привести к предвзятым отчётам, часто с заниженными оценками.

  • Распределение ресурсов. Команда изучает, влияет ли информация на распределение ресурсов среди различных акторов. Если ответ положительный, может возникнуть стимул для подачи данных выгодным для этих людей образом.

  • Публикация данных. Анализируется частота публикации и уровень детальности данных для выявления, чтобы выявить неожиданные изменения в трендах. Сотрудники Cedar оценивают, можно ли чем-то обосновать эти изменения.

  • Альтернативные источники. Команда сверяет индикаторы с альтернативными источниками.

Систематически проверяя эти критерии, команда Cedar оценивает надёжность данных, присваивает им рейтинг и выявляет возможные проблемы, определяя их как надёжные, частично надёжные или ненадёжные. Например, ни один из российских экономических показателей (ВВП, внешняя торговля, занятость, уровень бедности и т.д.) не был классифицирован экспертами как надёжный, но большинство из них считаются частично надёжными. При этом все данные о войне Cedar оценивает как ненадёжные.
Как анализировать данные в закрытых обществах
Новые виды данных требуют новых методов анализа. По мере того, как доступ к статистике становится всё более ограниченным, всё большее значение приобретают опросы и качественный анализ. Однако при использовании этих методик исследователи также сталкиваются с трудностями.

Кирилл Титаев из исследовательской группы при Университете Джорджа Вашингтона рассказал, что при интерпретации данных важно учитывать контекст. Местная культура может изменять значения слов, о чём важно помнить при контент-анализе, дискурс-анализе и семиотическом анализе в медиа и социальных сетях. Эти стратегии сбора данных применимы не только к России, но и к другим полузакрытым обществам, таким, как Китай или Иран.

В условиях автократии люди склонны к самоцензуре. Титаев предлагает в опросах или качественном анализе сосредотачиваться на повседневной жизни, а не на ценностях или убеждениях. Он рекомендовал задавать вопросы не о политических взглядах, а о бытовых тактиках поведения, таких, как предпочтения брендов или поддержка определённых сообществ.

Влад Сюткин из Лаборатории публичной социологии* добавляет, что небольшие изменения в формулировке вопросов могут привести к различным результатам. Например, в России легче обсуждать мирные переговоры, чем напрямую говорить о войне. Он также отметил, что люди могут придерживаться, казалось бы, противоречивых взглядов: быть против войны, но при этом добровольно помогать раненым солдатам. Поэтому социологам важно использовать антропологические и этнографические методы, чтобы при качественном анализе данных лучше понимать сложных социальный контекст респондентов.

Представитель Transparency International Russia** Владислав Нетяев рассказал о стратегиях выявления и анализа финансовых потоков из России. Нетяев и его коллеги используют различные источники данных: судебные решения, государственные обвинения, практики парламентского лоббизма и декларации чиновников. Так команда выявляет коррупцию, сговоры и уклонения от санкций в контексте вторжения России в Украину. Нетяев также упомянул ключевую проблему: как только власти узнают о расследовании, данные становятся недоступными.
Альтернативные ресурсы
Закрытие значительных объёмов данных заставило экспертов искать другие источники информации и разрабатывать новые методы работы с ними. Вот несколько примеров таких баз данных.
Проекты открытых данных
  • «Если быть точным». Независимое медиа и аналитический центр, занимающийся сбором, очисткой и публикацией наборов данных и исследований по российским социальным проблемам. Команда уже несколько лет отслеживает российские данные по таким темам, как ВИЧ, судебные решения, бездомность, гендерное неравенство и загрязнение воздуха. Эти датасеты ценны как для академического анализа, так и для создания журналистских на основе данных. «Если быть точным» также отслеживают, какие данные были ограничены и насколько.

  • Cedar. Команда тестирует различные методы сбора данных о России в текущих условиях. Cedar опубликовала данные обо всех федеральных выборах с 2000 по 2021 год и планирует выпустить информацию по судам, а также набор данных о российской пропаганде, включая архив статей РИА Новости. Исследование по этой теме уже доступно на их сайте.

  • Known Unknowns. Этот проект направлен на решение проблем изучения России после 2022 года, сосредотачиваясь на том, как эволюционирует знание о России в условиях, когда режим снизил прозрачность и ввел ограничения, ограничивающие доступ к данным о России для ученых и социальных исследователей.

  • «Хроники». Проект, организованный российским политиком Алексеем Миняйлом и его командой социологов и аналитиков, стремится на основе данных показать, как россияне воспринимают вторжение в Украину. Команда проводит опросы и исследования в социальных сетях, а затем анализирует их результаты с ведущими российскими социологами.

  • Лаборатория Публичной Социологии (PS Lab). Возникла из исследований социальных движений в России после массовых протестов в декабре 2011 года, а затем расширилась на всё постсоветское пространство. PS Lab проводит качественные опросные и этнографические исследования, чтобы понять, как граждане России воспринимают вторжение и нынешний политический режим.

  • Инфраструктура Исследовательских Данных. Проект INID регулярно обновляет каталог наборов данных, чтобы увеличить доступность информации для бизнеса, исследователей и правительства. Среди датасетов — база данных российских муниципальных индикаторов с 2006 по 2020 годы, таможенная статистика регионального экспорта и импорта, а также агрегированные данные по ключевым социально-экономическим показателям крупных российских городов с 1985 по 2019 годы.

  • Проект DumaBingo. Собирает данные о лоббистской деятельности в Государственной Думе и Совете Федерации России. Команда агрегирует информацию о работе депутатов и сенаторов, делая акцент на их лоббистских усилиях и выявляя, чьи интересы продвигает каждый чиновник.

  • Платформа Tenderscope. Собирает и публикует данные о закупках различных российских компаний, чтобы обнаружить картели и сговоры между заказчиками и участниками закупочных процессов.

  • Проект Declarator. Непрерывно обновляет базу данных о российских публичных фигурах: чиновниках, судьях, сотрудниках государственных корпораций, сотрудникх государственных предприятий, сотрудниках бюджетных учреждений, а также представителях региональных и муниципальных властей. Платформа преобразует различные типы деклараций в единый машиночитаемый формат и сопоставляет различные записи, создавая полные профили для каждого чиновника.
Источники данных
  • Судебные решения по преступлениям и репрессиям. Эти данные создаются государством, но не доступны в формате открытых данных. Они непригодны для машинного чтения и неудобны для пользователей. Исследователям приходится вручную заходить на около 200 сайтов российских судов, чтобы извлечь информацию с каждого из них. Этот процесс требует значительных навыков и усилий для сбора большого объема данных. Однако эта информация включает описания преступлений и метаданные о судьях, судах и других важных деталях, что делает её ценным ресурсом. Эти данные могут помочь оценить уровень коррупции в России (через информацию о судебных делах, связанных с коррупцией) и распространённость различных преступлений, включая преступления, совершенные ветеранами боевых действий. Судебный департамент предоставляет сводную статистику по работе федеральных судов общей юрисдикции и мировых судей, которую эксперты считают надёжной. Проект «ОВД-Инфо» публикует собственные наборы данных, выпуская информацию о политически мотивированных уголовных преследованиях в России.

  • Данные социальных сетей. Многие эксперты анализируют, как россияне потребляют медиа на таких платформах, как ВКонтакте и Telegram. Это помогает им изучать нарративы и связи между разнообразными вторичными каналами информации. Недавнее исследование показывает, что самой популярной соцсетью в России стал YouTube, опередив Telegram и ВКонтакте, которые традиционно считались лидерами.
Источник: https://mediascope.net/library/presentations/

  • Маркетинговые и социологические опросы. Важны для оценки общественных настроений, но респонденты часто дают социально приемлемые ответы, что представляет значительную трудность при изучении полузакрытых обществ. Чтобы решить эту проблему, необходимо научиться правильно формулировать вопросы.

  • Различные ресурсы. Проект «Хроники» опубликовал на GitHub анонимизированные наборы данных, анкеты и аналитические отчеты по каждому этапу их исследования того, как россияне воспринимают войну.
Как анализировать российские данные сегодня: короткая памятка
Чтобы в 2024 году эффективно изучать Россию на основе открытых данных, учитывайте следующие моменты:

  • Избегайте обобщений. Не стоит ограничиваться анализом, основанным на формальных параметрах. Важно привлекать местных экспертов и международных исследователей из различных социальных секторов.

  • Используйте альтернативные данные. В условиях скрытия информации традиционные методы сбора данных часто оказываются недостаточными. Важно использовать альтернативные источники. Российские эксперты разработали для этого самые разные методологии, которые мы описали в этом материале.

  • Диверсифицируйте подходы к исследованиям. Количественных исследований может оказаться мало, особенно там, где доступ к данным ограничен. Использование различных методов исследования может обогатить анализ и предоставить ценные инсайты. При отсутствии статистики качественные данные становятся всё более важными.

  • Используйте комплексные индикаторы. Вместо того, чтобы полагаться в интервью на один вопрос, рассмотрите возможность использования нескольких формулировок. Такой подход объединяет различные индикаторы, что приводит к более полному пониманию исследуемого предмета.

Текст: Олег Паченков, Софья Трушникова, Сергей Машуков

Редактор: Зоя Алексеева

Иллюстрация: Мария Бузина

* Власти РФ считают иноагентом
** Власти РФ считают запрещённой экстремистской организацией