О технологии хранения и индексации научных данных figshare в интервью Indicator.Ru рассказал ее создатель Марк Ханнел, который приехал в Россию по приглашению компании Digital Science Россия & СНГ и нескольких крупнейших российских университетов, интересующихся современными технологиями открытых репозиториев.

Figshare — это молодая, но уже ставшая крупнейшей в мире технология хранения и индексации научных данных, технология для создания порталов и платформ-репозиториев открытой научной и образовательной информации в контексте науки и образования любого типа — видеофайлов, 3D-моделей, оцифрованных картин, музыкальных файлов, баз больших данных (например, расшифровок геномов). Технология интегрирована крупнейшими издателями, такими как Wiley, Nature, Springer и многими другими, в качестве платформы, позволяющей работать с непечатными полевыми или лабораторными данными, моделями статей, диссертаций, монографий, тезисов.

— Марк, что представляет из себя figshare? Каковы главные свойства платформы и ее миссия?

— Главная идея figshare — это открытая наука. Когда я писал свою диссертацию по стволовым клеткам, у меня скопилось много видео, много массивов данных. При отправке статьи на публикацию оказалось, что видео, где стволовые клетки перемещаются с одного конца экрана на другой, слишком большое, а журнал не принимал файлы больше пяти мегабайтов. Интернет был создан для обмена научными данными, но сейчас это получается плохо. Cначала я начал выкладывать в открытый доступ свои файлы. Из этого массива данных и возник сайт figshare.com, куда каждый может бесплатно загрузить научные данные, прикрепить метаданные. А мы уже позаботимся об интеграции материалов в академическую среду: сделаем данные цитируемыми, открытыми для поиска, видимыми в Google Scholar, PubMed, у крупнейших издателей, присвоим DOI и т. д.

— Допустим, ученый загружает свои данные в систему figshare. Но как эта информация становится доступной для других ученых мира? Как они могут использовать данные?

— Во-первых, мы как технологическая компания обеспечиваем открытость поиску (SEO, технологически грамотная индексация в базах данных). Но если я загружу нечто и открою общественности, где гарантия, что это хорошее исследование? Поэтому нам пришлось привлечь к работе над системой новых людей. С нами заключают договоренности университеты, и они (обычно в лице библиотекарей) проверяют данные перед тем, как они станут публичными. Стратегически создание доступных данных по проведенным научным исследованиям облегчает жизнь ученых – им не приходится во второй раз делать уже сделанную кем-то работу.

— Вы придумали этот дополнительный человеческий уровень или он появился по инициативе университетов?

— По инициативе университетов. Библиотеки и университеты считают себя экспертами по курированию контента (сбору, систематизации и публикации информации – прим. Indicator.Ru), и мы должны уважать их правила, если мы сотрудничаем с ними. Если, например, данные необходимо хранить в России — данные будут храниться в России. В целом нам хватает технологических забот. Работу по экспертной оценке данных мы отдаем университетам.

— Каковы мои возможности с точки зрения обычного пользователя? Сколько места на сайте вы даете? Какая лицензия у данных? С какими проблемами я могу столкнуться?

— На бесплатный аккаунт мы выделяем по 20 гигабайтов для приватных данных. Для данных, размещаемых в публичном доступе, место не ограничено. Многие люди загружают информацию, чтобы повысить свою цитируемость, в том числе в Altmetric. Другие, напротив, предпочитают держать данные в приватном режиме, чтобы делиться ими только с коллегами по исследованию, и открывать только после публикации статьи. Для таких ученых у нас тоже есть специальные технологические процессы, например, эмбарго, где до определенного момента открываются только метаданные, но не сами файлы. Или вот, допустим, ситуация с журналом Nature, который требует от авторов открытых исходных данных. Но что делать, если рукопись не опубликуют? Для таких случаев мы резервируем приватную ссылку, которую может открыть редактор или рецензенты, но которая «сгорает», если рукопись в итоге отклонят.

— Таким образом, у вас продуманы различные опции по доступу для пользователей разного типа?

— Именно. В 2011 году, когда я только начинал работать над figshare, я был радикалом – все данные должны быть открытыми, тогда наука будет развиваться быстрее! Но потом я понял, что это немного наивно. Не нужно все сразу делать публичным. Например, не стоит выкладывать в открытый доступ расшифровку геномов детей, потому что потом у них возникнут сложности с приобретением медицинской страховки. Еврокомиссия хорошо сформулировала (в своих рекомендациях по работе с данными – прим. Indicator.Ru) — «открыто по мере возможности, закрыто по мере необходимости». Ученым иногда выгодно открывать исходные данные, иногда их к этому принуждают фонды или университеты, а иногда им это вовсе не нужно.

— Существуют ли какие-либо встроенные технические возможности для рецензирования или иных форм получения обратной связи?

— В платформу figshare для научных учреждений (figshare for Institutions) встроен специальный модуль рецензирования. Например, на ChemRxiv, сервере препринтов по химии, построенном на инфраструктуре figshare, работает небольшой коллектив редакторов, которые применяют модуль рецензирования для первичной оценки рукописей на предмет их научной состоятельности, отсутствия плагиата и вирусов. В будущем мы планируем привлечь и других издателей к использованию модуля рецензирования.

— Марк, а чем figshare отличается от других открытых репозиториев научных данных, вроде Zenodo, Dryad или GitHub?

— Одно из ключевых свойств, отличающее figshare от других инструментов — это предпросмотр контента. Посетители нашего сайта могут предпросматривать файлы более 1200 форматов непосредственно в браузере, что снимает необходимость скачивания для оценки релевантности. Кроме того, figshare допускает интеграцию с другими сервисами обмена открытыми данными. Уже реализована интеграция с GitHub и Open Science Framework (OSF). Также figshare собирает опубликованный контент с репозиториев общего типа (таких как Zenodo и Dryad), что позволяет исследователям искать и группировать нужные им данные в одном месте. Мы считаем, что сильной стороной открытой системы поиска должно быть движение информации между платформами, не создающее трудностей для пользователя. Еще одно важное отличие – правила работы с данными figshare полностью соответствуют принципам FAIR data (findable, accountable, interchangeable, reсoverable data [находимые, объясняемые, взаимозаменяемые восстанавливаемые данные] – прим. Indicator.Ru) и мы сотрудничаем со всеми крупнейшими мировыми издателями и агрегаторами научной информации – Nature, Wiley, Springer, PubMed, Google Scholar. Мы берем на себя все эти сложности, и информация, предоставляемая ученым, действительно становится легко находимой и, если нужно, привязанной к его трудам и статьям.

— Не могли бы вы рассказать о достижениях figshare? Каков объем представленных данных, какие дисциплины?

— Около пяти миллионов файлов находятся в публичном доступе. При этом мы не говорим о множестве университетских репозиториев по всему миру, которые поддерживаются нашей технологией. Мы работаем примерно со 100 университетами, музеями, фондами, научными ассоциациями по всему миру. По дисциплинам, конечно, больше представлена биомедицина. Однако у гуманитарных наук есть масса контента, который некуда было выкладывать, — например, аудиозаписи песен неизвестных племен или карты. И сейчас от гуманитариев приходит все больше и больше данных, и мы очень рады этому.

— Если я правильно понимаю, вы гарантируете, что такие аудиозаписи будут храниться вечно?

— Для бесплатной версии — как минимум на десять лет, если речь идет об открытой для всех платформе figshare. Но вообще наша цель — хранить вечно. В этом и есть разница с GitHub или Dropbox, где в любой момент данные, загруженные вами, могут пропасть. Мы присваиваем цифровой идентификатор — DOI — и делаем так, чтобы данные были устойчивыми, для науки иначе нельзя. А дальше, если университету или организации нужно хранить данные у себя на сервере — пожалуйста. Нужно хранить их в «облаке», которое хостится, например, в России — пожалуйста. Мы никак это не ограничиваем и не влияем на то, где и как хранить данные, кому их показывать или не показывать – это всегда выбор ученых, университетов и лабораторий.

— Были случаи, когда выкладывание данных на figshare приводило к научным прорывам?

— Конечно. Одна команда провела визуализацию маршрутов перемещений из дома на работу — такое сложно показать в статичном pdf-файле. Они открыли первый массив данных — и о них написал Wired. Открыли второй — о них написал сайт BBC, и они получили премию как статистики года в Великобритании. Публикация в виде журнальной статьи вряд ли дала бы такой успех.

Другой пример — новая система нанопорового секвенирования генома. Несколько лабораторий начали соревноваться, кто первым его проведет, а представить результаты в журналах было слишком длительным процессом. На figshare можно оперативно загрузить данные, проставить время публикации и зафиксировать свой приоритет.

— Каковы ваши планы на будущее, особенно в плане работы в России?

— Мы работаем с головной компанией в регионе — Digital Science Россия & СНГ, университетами-партнерами Digital Science, ведем переговоры с университетами-участниками Проекта 5-100 по вопросу цифровизации научного контента. Европа, США и Китай активно начали работать в направлении открытости научных и образовательных данных. Россия наверняка будет двигаться в аналогичном направлении и рассматривать лучшие практики и мировые стандарты хранения и доступности научных данных. Мы планируем сотрудничать с российскими университетами, чтобы вместе решать эту задачу так, как это удобно российскому научному сообществу, правильно локализовать наше решение — технология это позволяет. А потом уже наступит время вместе подумать, какие крутые штуки можно будет делать с доступными данными. Если мы идем к цифровому будущему, искусственный интеллект сможет сам собирать массивы информации, искать и находить нечто новое.

Похожие новости

  • 02/09/2019

    С агрессией в Интернете поборется специальная программа

    ​Виртуальное пространство в жизни множества людей занимает сегодня важнейшее место. Интернет «переваривает» огромное количество разнообразных сведений и служит для самовыражения и обсуждения массы волнующих тем.
    168
  • 07/06/2019

    О соперничестве с Китаем и экспорте технологического суверенитета

    ​Человеческий страх — лучший контролер внедрения искусственного интеллекта, уверен специальный представитель президента по цифровому и технологическому развитию Дмитрий Песков. Однако пока ИИ слишком глуп, чтобы угрожать человечеству, насущный вопрос — кто будет в этой сфере, обгонит весь мир.
    243
  • 16/04/2019

    Восемь ответов на частые вопросы о СНЦ ВВОД

    Зачем нужен Сибирский национальный центр высокопроизводительных вычислений, обработки и хранения данных — СНЦ ВВОД? Откуда придут деньги на его создание? Как этот проект связан с синхротроном СКИФ? С другими проектами «Академгородка 2.
    509
  • 21/05/2016

    Андрей Гуртов: «В России очень талантливые специалисты, с которыми приятно сотрудничать»

    ​На факультете информационных технологий НГУ в рамках Дня открытых дверей для поступающих в магистратуру и аспирантуру ФИТ с лекцией выступил адъюнкт-профессор Университета Аалто (Хельсинки) Андрей Гуртов.
    1369
  • 30/11/2018

    «Академгородок 2.0» - флагманский проект региона

    ​Проект "Академгородок 2.0"  обретает конкретные черты. Его обсуждение ведется на самых разных уровнях. Как отметил полномочный представитель президента РФ в Сибирском федеральном округе Сергея Меняйло, опыта по реализации подобных проектов пока нет ни у федеральных, ни у региональных властей, а потому архиважным представляется объединение усилий.
    1396
  • 14/10/2017

    Академик Абел Аганбегян: за 25 лет можно было сделать неизмеримо больше

    ​Академик РАН, экс-ректор Академии народного хозяйства при Правительстве РФ, а ныне заведующий кафедрой РАНХиГС Абел Аганбегян на днях отметил свой 85-летний юбилей.  Он был экономическим советником Михаила Горбачева, его имя широко известно в научных кругах, его лекции слушали студенты ведущих мировых университетов мира, к нему обращался Нобелевский комитет с просьбой рекомендовать кандидатов на премию.
    809
  • 16/10/2018

    Академик Борис Патон: Эверест в науке. Часть 2

    ​"Чаепития в Академии" — постоянная рубрика Pravda.Ru. Писатель Владимир Степанович Губарев беседует с выдающимися учеными. Сегодняшним гостем проекта "Чаепития в Академии" можно назвать и великого русского ученого академика АН СССР и РАН, президента Академии наук Украины Бориса Евгеньевича Патона.
    723
  • 27/09/2019

    Почему новосибирский Академгородок предлагают оставить без особого статуса

    ЧС-ИНФО уже неоднократно поднимал вопрос о том, нужен ли новосибирскому Академгородку статус объекта культурного наследия, который был присвоен ему в 2014 году. Своей точкой зрения по этой теме делится ведущий научный сотрудник Института философии и права СО РАН, доктор философских наук Сергей Смирнов – один из инициаторов проектного семинара «Академгородок 2.
    524
  • 14/10/2016

    Академик Ивантер: мы повидали уже много санкций

    ​В последние дни в западной прессе вновь активно муссируется тема санкций против России. На этот раз за позицию Москвы по Сирии. Правда, направлены они будут, по информации Financial Times, не против российских компаний, а против высокопоставленных чиновников.
    1627
  • 16/01/2019

    Академик Асеев: синхротрон не решит все проблемы Академгородка

    «ЧС-ИНФО» продолжает серию публикаций с напутствиями новому губернатору Новосибирской области Андрею Травникову. В этот раз мы решили поговорить о развитии науки – с бывшим председателем СО РАН академиком Александром Асеевым.
    1127