Коллектив ученых Национального исследовательского ядерного университета "МИФИ", Национального исследовательского центра "Курчатовский Институт" и Воронежского государственного университета разработали метод, обучающий компьютер распознавать пол человека по написанному им тексту с точностью до 80 процентов. Научная разработка относится к области компьютерной лингвистики. Исследование проводилось по гранту Российского Научного Фонда. Результаты опубликованы в журнале Procedia Computer Science.

Многочисленные научные исследования показывают, что в письменном тексте неизбежно отражаются характеристики его автора - пол, психологические особенности, уровень образования. Речь является ценным психодиагностическим инструментом, который используют специалисты кадровых служб крупных компаний, а также служб безопасности.

На основе анализа речи можно диагностировать наличие у человека некоторых заболеваний (деменции, депрессии) и склонность к суицидальному поведению. Потребность в установлении характеристик автора текста также растет с развитием интернет-коммуникаций: компаниям важно знать, каким группам лиц нравятся их товары и услуги.

Ученые, работающие в данном направлении (лингвисты, психологи, специалисты по информационным технологиям), на основе численных значений различных параметров текста строят математические модели для диагностирования тех или иных параметров личности.

Коллектив специалистов проанализировал эффективность различных технологий машинного обучения с использованием нейронных сетей для анализа текстов.

В ходе исследования они сравнили точность решения задачи гендерной идентификации текстов на основе двух подходов к моделированию на основе данных: с одной стороны, алгоритмы машинного обучения (метод опорных векторов и градиентный бустинг), с другой стороны - нейронные сети глубокого обучения (сверточные нейронные сети и рекуррентные нейронные сети с долгой краткосрочной памятью).

"Мы достигли высоких результатов в определении пола автора текста благодаря продвинутым нейросетевым моделям, в условиях, когда автор не скрывает свой пол. На очереди задача определения пола в условиях его намеренного сокрытия", - говорит доцент НИЯУ МИФИ Александр Сбоев.

Так, в следующих текстах, размещенных изначально на сайте знакомств, нейросеть без труда находит подвох в десяти случаях из десяти, притом, что автор намеренно ставит в подписи имя противоположного пола.

Текст написан девушкой: "Я красивый, накачанный мужчина 30 лет. Работаю в крупной нефтегазовой компании на хорошей должности с приличной зарплатой. Живу в собственной квартире в Москве. В собственности также находится небольшой, но симпатичный домик в одной из деревушек Италии. Увлекаюсь спортом, в частности, футболом. Люблю выбираться куда-нибудь на выходные, не терплю домоседок. Девушка, которая мне бы подошла, должна обладать скромным нравом, красивой внешностью и привлекательной фигурой по современным стандартам. Она должна разделять мои интересы, не должна быть ревнивой и не должна пытаться вызвать чувство ревности у меня. Содержать девушку я не собираюсь, так как считаю, что в семье должны работать оба. Бюджет также предпочитаю вести раздельно. Не потерплю измены".

Текст написан мужчиной: "Здравствуйте! Я крайне недовольна, крайне! Почему вы так себя с нами ведете?! Мы же тоже люди, мы все равны! Вы сексист? Я больше не буду это терпеть! Я твою машину вообще всю разобью, разрисую. Жди, нелюдь. Финишу таким быть".

Результаты этого исследования показали, что подход, основанный на использовании сверточной нейронной сети и методов глубокого обучения для распознавания пола человека, написавшего текст, является наиболее оптимальным.

Сейчас группа исследователей работает над задачей распознавания возраста.

Похожие новости

  • 05/04/2017

    Байкальские водоросли вошли в крупнейшую коллекцию живых водорослей и в банк геномной ДНК

    ​Ученые из Института биологии внутренних вод имени И.Д. Папанина РАН совместно с коллегами из США создали одну из крупнейших коллекций разнообразных культур живых водорослей и банк геномной ДНК, содержащий более двух тысяч образцов, которые могут использоваться для поиска организмов, необходимых в биотехнологии и создании биотоплива.
    1092
  • 10/03/2017

    Российские ученые разработали новое вещество против вируса гриппа на основе природных соединений

    ​Ученые из Новосибирского института органической химии имени Н.Н. Ворожцова Сибирского отделения Российской академии наук, Новосибирского государственного университета и Научно-исследовательского института гриппа в Санкт-Петербурге разработали новый продукт широкого спектра противовирусной активности, в основе которого лежат природные соединения: терпены и терпеноиды.
    1407
  • 12/10/2017

    ИХБФМ СО РАН примет участие в реализации стратегического проекта АлтГУ

     10 октября делегация Алтайского государственного университета во главе с ректором Сергеем Валентиновичем Землюковым с рабочим визитом посетила Институт химической биологии и фундаментальной медицины Сибирского отделения Российской академии наук.
    623
  • 27/07/2017

    В Новосибирской области ждут урожая экспериментального картофеля

    ​Черепановский район выбран в качестве места посадки экспериментального картофеля. Это первый эколого-географический эксперимент Китая и Института цитологии и генетики Сибирского отделения Российской академии наук в области картофелеводства.
    473
  • 20/10/2016

    Алтайский край приступает к реализации проекта в области селекции и семеноводства

    ​Алтайский государственный университет совместно с Федеральным исследовательским центром Института цитологии и генетики Сибирского отделения Российской академии наук примет участие в создании Сибирского селекционно-семеноводческого центра.
    1340
  • 27/12/2017

    Исследователи реализуют проект, позволяющий исправлять мутации ДНК митохондрий

    ​В последнее время все чаще можно услышать о тяжелых наследственных заболеваниях митохондриальной этиологии. Эти недуги вызываются дефектами митохондрий, которые являются своеобразными "энергетическими станциями" клеток организма.
    516
  • 02/02/2018

    Ученые ИВТ СО РАН занимаются математическим моделированием в медицине

    ​Клеточные белки и их сети играют важную роль в нормальном функционировании организма. Биологи сравнивают каждую такую сеть с оркестром, а дирижером (с относительно недавнего времени) считают микроРНК — множество малых некодирующих молекул РНК, которые регулируют почти все процессы и химические реакции в организме человека.
    273
  • 01/09/2016

    Генетика и геномика растений: совместные исследования более продуктивны

    ​Интервью с заведующим лабораторией молекулярной генетики Института биологии и биотехнологии растений Республики Казахстан, кандидатом биологических наук, ассоциированным профессором Ерланом Туруспековым, участником Международного научного симпозиума "Генетика и геномика растений для продовольственной безопасности" - Ерлан Кенесбекович, как Вы знаете, в нашей стране с 2013 года происходит реформа Российской академии наук.
    1519
  • 06/12/2017

    АлтГУ разрабатывает инновационные лекарственные препараты в рамках стратегического проекта

    ​Алтайский государственный университет активно реализует стратегический проект по внедрению инновационных методов получения и использования лекарственного сырья природного происхождения и лекарственных средств на его основе.
    497
  • 21/01/2017

    10 ярких российских хайтек-стартапов

    Эти проекты громко заявили о себе в 2016 году и имеют все шансы, чтобы превратиться в компании, стоящие многие миллионы долларов. Запомните их! Несмотря на падение венчурной активности в России, кризисные годы стали этапными для целого ряда молодых компаний.
    1049