​Лаборатория наук о больших данных и проблемах общества ТГУ реализует проект "Изучение качества жизни россиян о данным соцсетей".

Как это происходит? Команда проекта - это огромное количество человек? Весь свой рабочий день они проводят в соцсетях, отслеживая и читая новые посты и комментарии? Все сообщения с негативной тональностью передаются властям и/или силовикам? Нет. Рассказываем подробности - как это все устроено.

Лаборатория наук о больших данных и проблемах общества была создана в 2016 году, ее научным руководителем сейчас является профессор Орегонского университета Михаил Мягков, а заведующим — Вячеслав Гойко. Коллектив лаборатории — 20 человек — анализирует открытые данные, в том числе из социальных сетей, в рамках проектов различной направленности. Так, например, сотрудники исследуют качество жизни россиян, тенденции в благотворительной деятельности, прогнозируют поведение потенциальных абитуриентов вузов… Все это — на основе цифрового следа пользователей (посты, комментарии, дружественные связи и т.д.), которые пользователи выкладывают в соцсетях, в частности — во «ВКонтакте».

Исследования, которые ведутся лабораторией, — междисциплинарные, опирающиеся на знания и методы компьютерных наук, математики, психологии, социологии, педагогики, лингвистики, нейронаук, философии, когнитивистики. Сотрудники лаборатории делятся на две категории: аналитики, которые одновременно являются руководителями проектов, и IT-специалисты — они, помогая коллегам-аналитикам, занимаются выгрузкой и обработкой данных.

В рамках инициативы ТГУ в 2017 году был создан Университетский консорциум исследователей больших данных — его участниками стали уже более 20 ведущих университетов РФ. Команды университетов-участников Консорциума проводят совместные научно-исследовательские и прикладные проекты, направленные на решение проблем в социально значимых областях.

— Сначала появляется какая-то тема, предложенная, допустим, нашими партнерами по Консорциуму, либо университетом, либо мы сами генерируем идеи, — рассказывает проект-менеджер Лаборатории наук о больших данных и проблемах общества Галина Коварж. — Мы в первую очередь, как и при любом исследовании, делаем обзор литературы, существующих методологий, прописываем технические задания. После этого раздаются задачи, и каждый выполняет свою работу. То есть, вот такого — что ровно в два часа мы будем сидеть и смотреть профили пользователей, такого нет. Все зависит от конкретной задачи и от самой цели проекта.

Яркий пример того, как выбираются интернет-пользователи для анализа их высказываний и настроений, как раз показывает проект «Изучение качества жизни россиян по данным соцсетей». На сегодняшний день существуют две теории измерения благополучия людей — объективная и субъективная. Первая подразумевает стандартное использование статистических данных, вторая — использование данных соцопросов, анкетирования и личностных оценок, полученных, например, в процессе социальных экспериментов.

— Но соцопросы чаще всего охватывают небольшую выборочную совокупность людей. В масштабах страны, где численность населения составляет почти 147 млн человек, стандартный соцопрос охватывает в среднем 1,6 тыс человек. С помощью соцсетей мы можем получить гораздо больший охват, — подчеркивает Галина Коварж.

В 2019 году команда проекта начала вести разработку методологии анализа благополучия россиян. Идея была в том, чтобы изучать региональные сообщества, но не все подряд, а с исключением «мусорных» сообществ — никаких «отдам даром», «доставка пиццы/суши» и прочего. Был разработан классификатор сообщений по 19-ти категориям социальной, экономической и политической сферы — рассматриваемые сообщества должны были содержать такие сообщения. Изначально отбор велся вручную — почти три недели двое сотрудников лаборатории занимались этой кропотливой работой. Авторство постов автоматически исключается из анализа. В рамках исследований ведется работа с обезличенной информацией.

— В прошлом году мы брали в каждом регионе три крупных населенных пункта, и в каждом из этих городов искали подходящие десять сообществ, — вспоминает Галина Коварж. — Сейчас по автоматическому алгоритму поиска у нас в каждом регионе будет анализироваться 400-500 сообществ. Таким образом, мы сможем охватить порядка 80 млн зарегистрированных пользователей соцсетей, из которых более 60 млн. — жители России.

После отбора сообществ в дело включается, опять же, обученный на 60 тыс. сообщений, размеченных вручную, алгоритм, обработавший более 3,3 млн постов за 2018 год (работа проводилась в 2019 году) по тем самым 19 категориям и трем тональностям — позитивная, негативная и нейтральная. Он также отбрасывает «мусорные» сообщения, по заданной формуле рассчитывает индекс благополучия и на основе полученных данных команда проекта выводит среднемесячные значения по каждой категории и тональности в каждом регионе страны. Так выясняется, насколько люди удовлетворены или нет, например, инфраструктурой, внутренней политикой в регионе, экологической ситуацией и так далее.

— Это не коммерческий заказ — идет именно научное исследование. Автор этой работы научный сотрудник лаборатории Евгений Щекотин, это была его идея — заняться изучением именно субъективного благополучия. Но с уже имеющимися наработками в этом году мы выиграли на этот проект грант РФФИ. Он рассчитан на три года, то есть проект долгосрочный — мы намерены смотреть в динамике, как у людей меняется оценка той или иной сферы своей жизни, — говорит Галина Коварж.

Пока у лаборатории есть данные за 2018 год, сейчас идет выгрузка данных за 2019-й, так что о динамике пока говорить рано. Если же судить о промежуточных результатах, имеются рассчитанные индексы благополучия по каждому региону страны, плюс есть такие индексы для них по каждой категории. Эти итоги были представлены на Школе прикладного анализа данных, которую лаборатория проводила текущей зимой для участников Консорциума.

— Итоговое положительное значение у нас получилось по всем категориям только по Чукотскому автономному округу. Самые высокие отрицательные оценки качества жизни прослеживались, в основном, в регионах Западной Сибири. Наименьшие отрицательные значения зафиксированы в Камчатском крае, Магаданской области, в Приморском крае. В Москве так же. Наибольшую обеспокоенность у пользователей вызывает такой показатель как безопасность, он намного выше в сравнении с другими, — приводит подробности Галина Коварж.

Кроме того, сейчас проект усовершенствуется в том плане, что начнется автоматический отсев ботов, которые встречаются в самых разных сообществах — и в тех, которые интересны для анализа индекса благополучия реальных людей, тоже.

Разумеется, понятие «хорошая жизнь» для всех разное — кому-то достаточно, чтобы близкие были живы-здоровы и каждый день было чем накормить себя и детей. Кому-то для счастья нужны дорогие вещи и возможность часто выбираться на курорты. Команда проекта, разрабатывая свой классификатор, брала мировые методики для измерения качества жизни. При этом выбор был сделан с учетом критики или, наоборот, одобрительных оценок таких методик.

— Мы выбрали те методики, которые, по нашему мнению, наиболее объективно опишут жизнь населения. У нас в классификаторе также уделяется внимание отношениям между людьми, общему эмоциональному состоянию человека — мы не упускаем эти важные личностные аспекты, чтобы не было формального подхода к исследованию, — резюмирует Галина Коварж.

Добавим, Лаборатория наук о больших данных и проблемах общества ТГУ реализует фундаментальные и прикладные исследования в области сбора и анализа больших данных, а также ведет разработку продуктов и инструментария для работы с большими данными. Лаборатория проводит исследования по широкому спектру социально значимых направлений, включая образование, общественную безопасность, экономику, политику. Индустриальными партнерами лаборатории выступают технологические компании «Крибрум» (Москва), «Мегапьютер Интеллидженс» (Москва), «Форексис» (Москва) и др. Техническая часть процесса по обработке и хранению данных осуществляется с использованием суперкомпьютера ТГУ.


Похожие новости

  • 06/03/2020

    Создана методика, которая поможет учителям справиться с профвыгоранием

    ​Ученые философского факультета и факультета психологии ТГУ завершили двухлетнее исследование, посвященное социальной апатии учителей. В рамках проекта, поддержанного РФФИ, социологи работали с педагогами школ Томской, Новосибирской, Кемеровской областей и Красноярского края.
    425
  • 01/09/2016

    Томские ученые создали методику поиска экстремистских групп в соцсетях

    ​Социологи и программисты Томского госуниверситета (ТГУ) впервые в России масштабно изучили экстремистские сообщества в социальной сети "ВКонтакте" и разработали методику поиска таких групп.
    1332
  • 12/02/2020

    «Форварды» и «депрессивные»: о классификации регионов РФ по влиянию социально-экономических факторов на продолжительность жизни населения

    ​Молодой ученый ТПУ провел масштабную работу, позволившую впервые классифицировать все регионы РФ по влиянию социально-экономических факторов на продолжительность жизни и объединить их в характерные группы: «российские форварды», «догоняющие», «социотрадиционные» и «депрессивные».
    195
  • 19/04/2017

    Ученые ТГУ установили, что молодежь хочет уехать из экологически небезопасных регионов

    Сотрудник ФП ТГУ Ольга Терехина исследовала психологическое состояние жителей Сибирского региона, живущих и работающих в условиях риска техногенно-экологической угрозы. Результаты показали, что самые сильные переживания связаны с вредным влиянием производства на здоровье и будущее людей и с готовностью сменить место жительства.
    1346
  • 25/07/2019

    Как можно использовать генетические данные человека для манипуляций? Интервью с экспертом

    ​Как соотносятся в развитии ребенка наследственность и среда, каким должен быть исследовательский путь молодого ученого,  рассказала научный сотрудник Лаборатории когнитивных исследований и психогенетики Томского государственного университета Дарья Мацепуро.
    559
  • 02/07/2018

    Первым делом РФФИ поддерживает молодежь

    ​На Второй всероссийской научно-практической конференции по взаимодействию РФФИ с субъектами РФ, проходившей 22-23 июня в Томске, собрались люди неравнодушные и подготовленные. На мероприятие, организованное совместно Советом Федерации, РФФИ, администрацией Томской области и Национальным исследовательским Томским государственным университетом, съехались 200 представителей вузов, академических институтов, профильных областных министерств и ведомств из 45 российских регионов.
    1415
  • 12/03/2020

    Реформа аспирантуры: диссертация требует защиты

    ​В феврале 2020 года Государственная дума приняла в первом чтении проект закона об аспирантуре, разработанный Министерством науки и высшего образования. Он снова делает обязательной защиту аспирантом диссертации на соискание степени кандидата наук.
    228
  • 08/11/2017

    Томские ученые установили, что праворадикалы более агрессивны в соцсетях, чем исламисты

     Ученые лаборатории наук о больших данных и проблемах общества ТГУ сравнили несколько десятков сообществ правых радикалов и исламистов в социальной сети «ВКонтакте». Исследование показало, что ультраправые чаще публикуют призывы к насильственным действиям.
    1133
  • 17/05/2017

    ТГУ вошел в топ-20 вузов РФ по уровню зарплат выпускников в сфере IT

    ​Томский государственный университет (ТГУ) занял 16 место в рейтинге интернет сервиса Superjob по уровню зарплат выпускников российских вузов, трудоустроенных в IT-сфере, сообщила пресс-служба сервиса.
    1528
  • 28/03/2018

    Экономическая безопасность и ее роль в цифровой экономике

    В ТУСУРе на конференции ConfES – 2018 участники из разных городов России обсудят финансовые, правовые и IT-аспекты экономической безопасности - направления, необходимого для успешного решения задач цифровой экономики.
    2246