Большие данные против пандемии
Большие данные против пандемии

Как технологии предсказывают эпидемии и какие аспекты в аналитике данных при этом необходимо учитывать

Акцент на социальную психологию

Многие компании используют для борьбы с коронавирусом технологии. Так, «Яндекс.Карты» весной опубликовали «Индекс самоизоляции», а Apple и Google представили проект по отслеживанию передвижений в условиях пандемии. Однако эксперты считают, что для анализа и прогнозирования пандемического процесса необходимо понимание не только эпидемиологии, но и социальной психологии. Именно из-за разницы в социальных процессах мы наблюдаем, насколько сильно отличается распространение эпидемии в разных странах. Эксперты в эпидемиологии и социальной психологии вырабатывают эффективные гипотезы, которые проверяют специалисты по большим данным. При этом эпидемиологи отмечают, что критически важно замерять уровень общественной паники и уровень соблюдения мер предосторожности.

«Если мы говорим именно о панике, то замерить ее через анализ социальных сетей и СМИ в моменте качественно нельзя. Это связано с тем, что гипотеза о том, имеем мы дело с паникой или всплеском какой-то краткосрочной реакции, проверяется на отрезке времени более чем сутки. Во-вторых, паника – это не только слова, картинки, или заявления комментаторов в СМИ определенной тональности. Это действия. Здесь требуется параллельная фиксация поведения или шагов (например, скупка продуктов питания или туалетной бумаги), что опять-таки требует работы с временными отрезками, а не в моменте», – комментирует Петр Кирьян, директор по медиапроектам КРОС и автор исследования «Национальный индекс тревожностей».

Идея использовать большие данные социальных сетей для выявления источников эпидемиологического риска не нова. Алгоритмы искусственного интеллекта применяются в таких решениях для фильтрации информационного шума и выявления сигналов о фактических вспышках заболеваний. Параллельно с помощью спутниковых данных анализируют климатические условия. Например, канадская компания BlueDot сотрудничает с правительствами Канады, Сингапура, Великобритании и Филиппин для выявления и оценки эпидемиологических рисков с 2012 года. Она стала одной из первых компаний, предупредивших о возникновении нового вируса в Ухани.

Подробнее о моделях прогнозирования эпидемий читайте в материале «Большие данные против коронавируса: 24 модели окончания пандемии».

Как алгоритмы прогнозируют пандемии

Заместитель генерального директора компании по разработке программного обеспечения для бизнеса SAP CIS Юрий Бондарь рассказал, что для выявления эпидемий можно использовать модель с применением технологии искусственного интеллекта. Чтобы сделать анализ по запросу (например, анализ заболеваемости гриппом в городе N), необходимо на уже имеющуюся информацию о гриппе (насколько он агрессивен, какой у него инкубационный период, как быстро он распространяется среди людей) наложить данные из различных источников. Таких источников может быть несколько:

  1. Социальные сети, где люди делятся информацией о том, что происходит вокруг них: школы и детские сады закрывают на карантин, в аптеках не хватает парацетамола и масок, вся семья болеет дома.
  2. СМИ региона, где проводится анализ: как правило они дают информацию на языке этого региона или страны. Тут, по словам эксперта, очень важен правильный перевод, трактовка терминов и знание контекстов.
  3. Общая информация о том месте, где проводится анализ: географическая справка, население, транспортная доступность, климат и т. д.
  4. Меры, которые принимаются государством: перевод на удаленную работу, отмена массовых мероприятий, введение комендантского часа, закрытие границы на въезд и выезд и т. д.

Перед началом исследования данные делятся на две части: первая используется для анализа – это обучающая выборка, вторая – для тестирования уже полученных моделей, это контрольная выборка. В системах для предсказательной аналитики содержится большое количество уже установленных алгоритмов. Они анализируют данные и строят модели будущего. Когда модель построена, ее необходимо скорректировать и протестировать с помощью второй части собранной ранее информации. В конце полученный результат сравнивается с изначально известными данными, и если они на 90-95% совпадают, то такая модель считается валидной и ее можно использовать для получения достоверных прогнозов.

Примеры работы прогнозных моделей можно изучить в материале «Как технологии предсказывают пандемии».

Ася Свешникова
© 2024 ФОМ
+ в избранное
Поделиться