Проникновением компьютерного анализа в галактики Интернета сегодня никого не удивишь. Любой поисковик быстро отыщет имя, отчество, место работы и ученую степень кандидата биологических наук Владимира Александровича Иванисенко, заведующего лабораторией ФИЦ "Институт цитологии и генетики СО РАН".

Однако же, он и его коллеги добились от искусственного интеллекта почти невозможного: информационно-аналитическая система, созданная ими, выдает не набор публикаций, а структурированные знания.

- Не случайно, что такими разработками занялись именно в биологических институтах. В науках о жизни (если брать их полный диапазон, включая и медицинские дисциплины) за последние десятилетия произошла настоящая революция, что отразилось на количестве публикаций. Еще десять лет назад их появлялось ежегодно 400-500 тысяч, то сегодня - более полутора миллионов! Подчеркну, что речь идет только о научных статьях в специализированных изданиях. Их поток нарастает по экспоненте, от степени к степени, и есть прогнозы, что темпы этого процесса будут только увеличиваться (объясню немного позже, почему). Но и сегодня "ручная" работа с источниками становится неподъемной. Легко посчитать: если ученый будет ежедневно заниматься только изучением научной литературы и тратить лишь минуту на просмотр одной статьи, то на освоение всего объема ему понадобится более 135 лет, поскольку с начала 1960-х годов накопилось около 24 миллионов оцифрованных текстов.

Поэтому в среде биологов родилась идея о необходимости создания систем класса Text Mining - не просто поисковых, а с серьезным аналитическим функционалом. В ИЦиГ пионером выступил профессор Андрей Юрьевич Ржецкий. Уже после его отъезда в Чикаго к нам в лабораторию пришли молодые и очень талантливые ученые, биоинформатики и программисты, усилиями которых была создана принципиально новая компьютерная система. Она получила название Associative Network Discovery System, сокращенно - ANDSystem. Следует особо отметить поддержку этой работы со стороны академика Николая Александровича Колчанова, который в то время был заместителем директора ИЦиГ СО РАН.

- Неужели ваша система способна проанализировать десятки миллионов текстов?

- Нет, конечно. Первоисточник ANDSystem ограничен базой PubMed, которая содержит публикации только на английском, а также переводные аннотации статей немецких, французских, итальянских, японских и, с меньшей частотой, авторов из других стран.

- Насколько сложно сделать ANDSystem многоязычной?

- Намного легче, чем научить человека еще одному языку. Это входит в наши ближайшие планы. Во-первых, отечественные статьи 20-30-летней давности, не утратившие своей актуальности, выходили только на русском. Во-вторых, особый интерес вызывает то, что публикуется в Китае на родном языке, так сказать, для внутреннего употребления. Из европейских планируем начать с немецкого, поскольку сотрудничество с Германией у нас традиционно наиболее активно.

- Вопрос, который следовало задать раньше: "как это работает"? Можете ли объяснить для неспециалистов, по какому принципу сканируются тексты?

- Поисковый блок ANDSystem содержит набор онтологий, то есть групп терминов. Биологических видов на Земле насчитывается более 300 тысяч. Сверх того - типы клеток, молекул, всех их элементов по нисходящей, вплоть до определенных генов. Особую область объектов представляет медицина: заболевания, диагнозы, симптомы, ответы организма, его органы и системы, средства лечения и профилактики и так далее. Важную роль играют взаимодействия - транспорт, катализ, экспрессия, подавление, репарация... Перечисления могут быть очень и очень долгими, поскольку на сегодня наша система содержит около 2 миллионов меток.

- И они "закрывают" весь тезаурус по наукам о жизни?

- Не совсем так. Такой уровень универсальности невозможен, да и не нужен. Около 90% статей из PubMed так или иначе связано с молекулярной биологией и молекулярной медициной. Описания фенотипов все-таки уже относится больше к истории науки, чем к ее современному состоянию.

- А как решается проблема синонимов, омонимов и прочих лингвистических каверз? Вы же помните, наверно, историю, как Институт белка РАН в переводе стал Squirrel Institute?

- Конечно. Во-первых, в ANDSystem работает около 5 000 семантических правил. Во-вторых, для определенных случаев (вроде упомянутых вами) есть специальный блок исключений, введенных "вручную" для конкретных терминов. Таким образом, падежи слова "белок" никогда не превратятся в древесного грызуна. При этом, замечу, никакая автоматическая система - хоть Google, хоть наша, хоть любая другая - не выдаст стопроцентной точности извлечения информации. У ANDSystem она составляет 70-75%, а остальная четверть - ошибочно найденные факты. Разумеется, мы этим не удовлетворены, и прототип новой версии, который находится в работе, должен будет давать максимум 4-5% ошибки.

- И как выглядит конечный продукт, который получает потребитель? Перечень статей строго по теме запроса? Их дайджест?

- Ни то, ни другое. Приведу сравнение со старыми руководствами по эксплуатации автомобиля. Сегодня это типичный user`s guide: на какой рычажок нажать, чтобы включить полный привод, не более того. А раньше, для "Москвичей" и "Запорожцев", издавали целые альбомы со схемами взаимодействия систем, узлов и агрегатов. Вот генератор, он связан с электросетью, в которую также включены те-то и те-то элементы. Так и пользователь ANDSystem получает двухмерную графику, отображающую взаимоотношения искомого объекта (например, органического соединения) с другими - разумеется, те, которые достоверно установлены и описаны в научных публикациях. По сути, это карта молекулярно-генетических связей, сделанная по индивидуальному запросу. Кликнув на какой-либо элемент, вы увидите ссылки на те или иные источники, с которыми можно ознакомиться. Мы считаем, что именно такая подача материала серьезно облегчает труд исследователя, ему теперь не нужно самому осваивать даже ограниченный набор текстов. Система сразу показывает, что из этих публикаций следует, какова их суть.

- Описывая научные результаты, некоторые журналисты грешат определением "уникальный". Насколько это слово применимо к вашей разработке?

- Я бы сказал, на 50 и более процентов. Системы Text Mining сегодня не такая уж и редкость, но применительно к знаниям по молекулярной биологии и медицине в мире есть единственный аналог: американская Passway Studio. Она работает с базами данных Elsevier, но ограничена рамками публикаций только по человеческому организму. При этом у нас в систему заведено заметно больше типов взаимодействий (напомню, это экспрессия, транспорт, катализ и т.д.), всего таковых 24.

Возможностями ANDSystem уже воспользовались коллеги из Германии, Франции, Австралии, Кипра, Израиля, Турции. Академическим организациям мы предоставляем доступ безвозмездно, фармакологическим компаниям за некоторую плату. Конечно, развитие нашего продукта предполагает более серьезный маркетинг, особенно когда речь пойдет о достаточно массовом применении.

- Массовом? Но как бы бурно ни прогрессировали биологические науки, число исследователей вряд ли будет расти в той же прогрессии, что и публикаций?

- Я несколько о другом. Существуют прогнозы о том, что секвенирование генома в ближайшей перспективе (10-20 лет) станет весьма недорогим, порядка 100 долларов. Это приведет минимум к двум последствиям, которые можно назвать революционными. Во-первых, возникнет непредставимой силы шквал собственно научных публикаций, посвященных влиянию тех или иных генов на жизнедеятельность организма. Во-вторых, медицина реально станет персонализированной, причем в масштабе практического здравоохранения. Как уже сегодня требуют ученые-медики, в вузах появится новая, массово востребованная специальность "врач-геномик" или "врач-молекулярный биолог". Не важно, как они будут называться - важно, что возникнет еще одна большая (и постоянно растущая) группа пользователей следующих версий ANDSystem.

К ним должны будут присоединиться и, скажем так, квалифицированные пациенты. Нет, не сегодняшние "диванные специалисты", начитавшиеся непонятных статеек из Интернета. Думаю, что революция в медицине, связанная с удешевлением секвенирования генома, столь же кардинально изменит отношения человека с собственным организмом. Но на первых порах можно также прогнозировать поток неточных данных, а то и спекуляций на тему ответственности генов за те или иные явления. Наша же система, во-первых, содержит информацию строго научную, прошедшую рецензирование. А во-вторых, как уже говорилось, преподносит ее в виде понятной схемы (в данном случае - интерпретаций полиморфизма генома): все достаточно наглядно.

- Следует ли из этого, что ANDSystem уже сегодня, с незначительными доработками, готова дли решения этих задач?

- И да, и нет. С одной стороны, есть понятные перспективы развития. Это, как уже сказано, расширение базы источников и языков, понятийного аппарата, увеличение точности извлекаемой информации. Однако наша система построена так, что изначально стремится к универсальности, и перспектива ее модернизации напоминает "сад расходящихся тропок" Борхеса, с той разницей, что "садов" несколько. То, чем мы занимаемся - это лигнвосемантический анализ предметных областей. Сегодня такая область у нас одна, к тому же локализованная в единственной (хотя и весьма представительной) базе данных. Завтра и послезавтра мест поиска знаний может стать больше, а предмет - шире. В конце концов, гипотетически он способен разрастись до такой степени, что охватит весь массив публикаций по всем направлениям биологических и медицинских наук. Соответственно, есть стремящаяся к бесконечности перспектива совершенствования и аналитического аппарата: введением новых функций, меток, условий, правил, исключений...

- Судя по выступлению директора Институт цитологии и генетики Сибирского отделения Российской академии наук (ИЦиГ СО РАН), г.Новосибирск" href="http://www.bionet.nsc.ru/">ИЦиГ академика Николая Александровича Колчанова на одной из пресс-конференций, ваша работа на одном участке уже вышла за рамки наук о жизни и устремилась в сторону политологии...

- Нет, скорее это экономика и социология. Пилотный проект, начатый по нашей инициативе и развивающийся пока что исключительно на средства института, называется "Анализ качества жизни". Первичным информационным источником определены тексты, размещаемые в социальных сетях. Они являются интересным, но сложным индикатором, поэтому мы сразу установили сотрудничество с экономистами, медиками, социологами. Но рассказ об этой работе я бы отложил до того момента, когда она даст некоторые предварительные результаты.

Беседовал Андрей Соболевский

Источники

Что добывает "текстовый шахтер"?
Наука в Сибири (sbras.info), 05/02/2016

Похожие новости

  • 01/10/2018

    Апоптоз: как вычислительная биология помогает понять сложные клеточные механизмы

    Мы умираем и возрождаемся непрерывно, каждую секунду в нашем теле погибает около миллиона клеток. Но иногда процессы клеточного апоптоза дают сбой, и тогда возникают рак, болезнь Альцгеймера и многие другие недуги.
    1219
  • 21/12/2017

    Равнение на центры: как ускорить развитие медицины и фармакологии в Сибири

    ​О новых возможностях в лечении онкологии и других опасных заболеваний рассказал академик РАН, директор ФИЦ "Институт цитологии СО РАН" Николай Колчанов. Российская газета: Ваш институт превратился в федеральный исследовательский центр - произошло объединение с Сибирским НИИ растениеводства и селекции, НИИ клинической и экспериментальной лимфологии, НИИ терапии и профилактической медицины.
    871
  • 12/11/2015

    Как предугадать нобелевский результат

    ​Можно ли определять научные приоритеты страны на десятки лет вперед без относительно достоверного прогноза? И кто, если не сами ученые, способны решить эту задачу? Недавно состоялся конкурс прогностических проектов, одним из победителей которого стал Федеральный исследовательский центр "Институт цитологии и генетики СО РАН".
    2990
  • 31/03/2017

    Академик Николай Колчанов рассказал о развитии Селекционного центра

    30 марта на территории новосибирского Академпарка прошло очередное заседание членов Совета «Сибирской биотехнологической инициативы» (СБИ). СБИ – это программа, объединяющая объекты инновационной инфраструктуры и органы власти Сибирского федерального округа, в целях развития биотехнологий, медицины и фармацевтики.
    2503
  • 19/10/2018

    Картофель: когда Россия избавится от импортозависимости по семенам?

    Картофель - "второй хлеб", без которого сибиряк долго прожить не сможет. Обязательно соскучится. Но почему уже с февраля на прилавках магазинов лежит не свой, а египетский? Сейчас, осенью, собрав урожай, сибиряки часть закладывают на семена для будущего года.
    977
  • 25/10/2019

    Василий Ярных: благодаря РНФ наше направление науки развилось в России просто с нуля

    ​Недавно стало известно, что нейробиологи из Томска под руководством профессора Василия Ярных планируют использовать новый подход для исследования повреждений головного мозга у пациентов с болезнью Паркинсона.
    1158
  • 28/07/2018

    В Новосибирске планируют открыть Центр генетических технологий

    ​Институт цитологии и генетики (ИЦиГ, Новосибирск) разработал проект создания к 2026 году центра компетенций "Генетические технологии" (ЦГТ). Об этом сообщил научный руководитель ИЦиГ СО РАН академик Николай Колчанов 27 июля во время совещания с министром науки и высшего образования РФ Михаилом Котюковым.
    1139
  • 29/04/2020

    Беспокойная планета: мифы и реальность последствий хронической тревоги социума

    ​​Одним из следствий пандемии коронавируса и глобального экономического кризиса стал сильный социальный стресс, вызывающий состояние тревоги, который сегодня испытывает большая часть населения планеты.
    821
  • 15/11/2019

    Александр Чернявский: сильным и энергичным людям не всегда получается найти общий язык друг с другом

    ​АЛЕКСАНДР ЧЕРНЯВСКИЙ, хирург с 35-летним стажем, в этом году начал исполнять обязанности руководителя клиники Мешалкина. В интервью «Континенту Сибирь» он рассказал о том, как клиника сумела преодолеть проблемы, с которыми столкнулась в этом году, и как планирует работать дальше.
    755
  • 25/08/2016

    Новосибирские генетики создали маркер для обнаружения раковых клеток

    ​В Новосибирске научились определять среди клеток рака "ключевых убийц", виновных в возникновении опухолей. Однако без господдержки маркер не сможет послужить людям.Ученые всего мира ищут способ победить рак, пытаясь создать препарат, с помощью которого можно отслеживать и помечать опасные клетки.
    2606