С распространением Интернета количество информации, в том числе на естественном языке, стремительно растет. Если говорить о различных областях, то, по данным журнала «Nature», только по биомедицинской тематике мировое научное сообщество издает ежегодно свыше миллиона статей. Научные публикации содержат ценную информацию о передовых научных достижениях, однако эффективная обработка столь огромных объемов данных является трудоемкой задачей. Усложняется она тем, что тексты научных статей слабоструктурированные и извлечь из них какую-либо полезную информацию нетривиально.

Предположим, стоит задача выбора научной литературы, направленной на решение некоторой проблемы определенным образом или содержащей разносторонний анализ причинно-следственных связей при описании наблюдаемого феномена. Подобный качественный отбор научной литературы в настоящее время находится за пределами возможностей стандартных поисковых систем. В связи с этим, по мнению авторов, совершенствование методов обработки информации должно быть направлено на выявление и классификацию понятий и отношений, связывающих их, чтобы можно было автоматически идентифицировать соответствующие предметно-специфические семантические отношения в научных публикациях. К примеру, было бы полезно находить и классифицировать отношения, содержащиеся в та-ких выражениях, как «описан новый способ решения задачи» или «результаты экспериментов, полученные предложенным методом, оказались лучше ранее известных» и т.д. Выявление семантических отношений между предметно-ориентированными понятиями позволило бы выявлять исследовательские работы, посвященные той же проблеме, или отслеживать эволюцию результатов по ней.

Одной из задач извлечения информации из текстов является распознавание именованных сущностей (Named Entity Recognition, NER). Для ее решения необходимо найти и классифицировать упоминания именованных сущностей (слов или групп слов) в тексте по заранее определенным категориям, таким как имена людей, организации, местоположение, медицинские коды, выражения времени, денежные значения и т.д. Эта задача часто решается вместе с задачей обнаружения отношений (Relation Extrac­tion, RE), суть которой состоит в выделении в тексте пар сущностей, которые могут быть связаны друг с другом. Если заранее заданы классы отношений, то говорят о задаче классификации отношений (Relation Classification, RC) – сопоставлении каждой паре сущностей конкретного класса отношения или распределения вероятностей классов. Для упрощения этих задач вводится следующее ограничение – сущности должны находиться в одном предложении.

Современные методы, как правило, неплохо решают обозначенные задачи с помощью глубокого машинного обучения, которое позволяет строить языковые модели на основе огромного корпуса неразмеченных текстов, например Википедии. Чтобы добиться хорошего качества на данных из конкретных областей знаний, необходимо дообучать полученные модели на специально подготовленных корпусах. В статье описан процесс создания такой коллекции текстов по информационным технологиям, которая названа RuSERRC (Ru­ssian Scientific Entity Recognition and Relation Extraction Dataset). На этом корпусе проведена серия экспериментов по исследованию и сравнению различных методов, результаты которых также включены в статью. Сам корпус, реализация методов и модели доступны по адресу https://github.com/iis-research-team.

Подробное описание дается в статье «Семантический анализ научных текстов: опыт создания корпуса и построения языковых моделей», авторы Е.П. Бручес, А.Е. Паульс, Т.В. Батура, В.В. Исаченко, Д.Р. Щербатов (Новосибирский государственный университет, г. Новосибирск, а также Институт систем информатики им. А.П. Ершова СО РАН, г. Новосибирск)

Похожие новости

  • 22/01/2020

    Академический час для школьников: лекция «Актуальные задачи на стыке нейробиологии, биофизики и компьютерного моделирования»

    ​22 января 2020 года в 15:00 в малом зале Дома ученых СО РАН состоится лекция директора Института систем информатики им. А.П. Ершова СО РАН Андрея Юрьевича Пальянова «Актуальные задачи на стыке нейробиологии, биофизики и компьютерного моделирования».
    1255
  • 18/11/2017

    В НГУ стартовала одна из крупнейших студенческих ИТ-олимпиад

    ​В Новосибирском госуниверситете стартовала XVIII Открытая Всесибирская олимпиада по программированию им. И.В. Поттосина. На очный тур олимпиады, который проходит с 17 по 20 ноября, съехались почти 150 студентов из ведущих вузов России и ближнего зарубежья.
    2311
  • 26/03/2021

    Новая модель наследования человеческого роста

    Группа ученых из России предложила новую модель для изучения наследования роста человека, позволяющую учитывать взаимодействие между разными факторами, оказывающими влияние на рост. Результаты исследования опубликованы в журнале European Journal of Human Genetics.
    571
  • 20/03/2017

    Академический час для школьников «Программирование в Академгородке – безграничные возможности»

    ​14 марта лицей № 130 имени академика М. А. Лаврентьева гостеприимно распахнул двери перед участниками очередного Академического часа для школьников.   Александр Гурьевич Марчук, доктор физико-математических наук, профессор Новосибирского государственного университета, директор Института систем информатики им.
    2267
  • 20/07/2017

    В НГУ открылась Летняя школа юных программистов

    ​19 июля в НГУ открылась Летняя школа юных программистов имени А.П. Ершова. В течение двух недель 100 школьников будут изучать программирование, физику и биоинформатику. Цель Летней школы - развитие интереса школьников к углубленному изучению информатики.
    2515
  • 09/04/2020

    Системный человек Сергей Черный

    ​Позитивный настрой, любовь к математике, вера в науку — жизненное кредо Сергея Черного, видного ученого, директора Института вычислительных технологий СО РАН. В математику привела красота С мэтром российского математического моделирования, доктором физико-математических наук, директором Института вычислительных технологий СО РАН мы встретились в канун его дня рождения.
    783
  • 20/07/2020

    Академик В. Н. Пармон: Вузам и научным институтам необходима ясность в отношениях

    ​​Тесное взаимодействие с университетами – одна из сторон знаменитого «треугольника Лаврентьева» и основа основ для Сибирского отделения. Недавно треугольник превратился в тетраэдр (см. «Поиск» №7 от 14.
    1514
  • 14/02/2020

    В Новосибирске разработали уникальное приложение на основе принципов работы искусственного интеллекта

    ​​Сотрудники научно-образовательного центра «Машинное обучение и анализ больших данных» Новосибирского государственного университета совместно с Институтом катализа им. Г. К. Борескова СО РАН занимаются изучением и развитием технологий, связанных с глубоким машинным обучением.
    1848
  • 16/04/2019

    Восемь ответов на частые вопросы о СНЦ ВВОД

    Зачем нужен Сибирский национальный центр высокопроизводительных вычислений, обработки и хранения данных — СНЦ ВВОД? Откуда придут деньги на его создание? Как этот проект связан с синхротроном СКИФ? С другими проектами «Академгородка 2.
    1678
  • 15/05/2019

    Сибирские ученые придумали, как быстро и просто анализировать форму клеток эпидермиса листьев у растений

    ​Сотрудники ФИЦ «Институт цитологии и генетики СО РАН» совместно с коллегами из Института систем информатики им. А. П. Ершова СО РАН и Новосибирского государственного университета разработали программу LSM-W2, которая позволяет извлекать данные о морфологии поверхности листа из изображений, полученных с применением лазерного сканирующего микроскопа.
    1105