Сибирские учёные комментируют высказывания об информационных системах и центрах для работы с большими научными данными, прозвучавшие на последнем заседании Совета по науке и образованию при Президенте РФ. 

– Глава РАН академик Александр Михайлович Сергеев заострил внимание на том, что Академия не может в полной мере выполнять возложенные на неё задачи экспертизы и прогнозирования без высокопроизводительных систем хранения и обработки информации, а ректор Московского госуниверситета им. М.В. Ломоносова Виктор Антонович Садовничий предложил создать такую систему единой, в национальном масштабе, на базе суперкомпьютера «Ломоносов». Эта проблема обсуждается не впервые, учеными разных регионов России, в том числе в «Науке в Сибири». 

Действительно, работа с большими данными – это мировой тренд, который нельзя игнорировать. Но с Big Data всё не просто: прежде всего в плане сбора научных данных и поступления информации в открытый доступ. Центр информационных технологий и систем (ЦИТиС), который упоминал А.М. Сергеев, собирает материалы в виде научных отчётов и проектов научных исследований. Это документы, которые отображают – в выборочном и видоизмененном виде – ничтожно малую часть данных, которые генерируются или используются непосредственно в ходе исследований. Зачастую учёному не доступна исходная информация, полученная его коллегой буквально за стенкой, в соседней лаборатории. Эти ограничения сложились исторически, они порождены объективными условиями. 

Как мы прекрасно знаем, данные, появившиеся в ходе текущей работы, служат основой для публикаций, для чего проходят определённую селекцию. В статью попадает только то, что наиболее наглядно иллюстрирует полученный научный результат – новое явление, эффект, закономерность и так далее. Владение исходными данными позволяет, при этом, сохранять научный приоритет, что сдерживает их публикацию. Поэтому нет и эффективно работающих инструментов «обобществления» таких данных. В наиболее развитых странах ситуация начинает меняться, и первичная информация в форме наборов данных (DataSet) становится таким же общедоступным научным материалом для анализа, как и формализованная в виде статей, монографий, отчётов. Разумеется, речь идёт о стопроцентно открытых, гражданских исследованиях, а не «спецтематиках», но их результаты достаточно просто отделить. Например, на одном космическом аппарате данные с одного сенсора могут использоваться в открытых научных исследованиях, другие – ни при каких обстоятельствах, это устанавливается соответствующими ведомствами. Кроме того, на пути всей информации к открытому доступу стоит экспертиза. Однако нужно учесть, что в условиях экспоненциального роста объёмов научной информации реально качественная экспертиза становится осуществима только с использованием интеллектуальных компьютерных систем.

Для того, чтобы мы начали формировать массивы действительно больших научных данных, в научной повседневности необходима настоящая, без преувеличения, революция.

В идеале все инструменты научной работы – от установки класса мегасайнс до обычного электронного микроскопа или томографа – должны в автоматическом режиме направлять все получаемые на них данные в общие хранилища с общим (или «почти общим») доступом.
Это же касается областей знания, напрямую не связанных с приборной базой: в гуманитарной сфере, например, все новые данные могут немедленно оцифровываться, будь то археологические находки или произведения фольклора. Требуется соответствующая трансформация и действующей системы организации науки. Но только административными мерами вопрос управления научными данными, их систематического сбора и обобществления не решить, главные изменения должны произойти на уровне личности исследователя, его мотиваций и стереотипов поведения.

Впрочем, необходимые перемены могут происходить поэтапно. Так или иначе, через какое-то время идеология общедоступности большинства первичных научных данных должна воплотиться в реальность. В контексте этой, пока что воображаемой, реальности и следует рассматривать вопрос степени централизации систем работы с Big Data, поднятые Виктором Садовничим и Александром Сергеевым. Последний ссылался на опыт Японии – страны во всех смыслах компактной, и являющейся технологическим лидером, в том числе в области телекоммуникаций. В России высший уровень централизации – например, привязывающий всё и вся к «Ломоносову» – трудно осуществим и малоэффективен.

Буквально на днях состоялось первое заседание координационного совета про проекту Сибирского национального центра высокопроизводительной обработки и хранения данных (СНЦ ВВОД) в рамках «Академгородка 2.0». Был поднят вопрос об эффективности взаимодействия с ресурсами Москвы для обеспечения вычислений и хранения научных данных – и получил отрицательную оценку минимум по двум причинам. Во-первых, за эти ресурсы настолько высока конкуренция (прежде всего в центральной России), что поневоле вспоминаются давние «очереди на машинное время». Второе, что сильно мешает – ограниченность чисто технических возможностей.

Например, проектируемая Институтом ядерной физики им. Г.И.Будкера СО РАН С-тау фабрика может генерировать до 9 гигабайт данных в секунду, что требует скорости передачи около 100 гигабит. Стогигабитных каналов в научной инфраструктуре России просто нет. Здесь, в новосибирском Академгородке, мы только планируем создать локальную сеть с такой пропускной способностью, ориентируясь на перспективу «2.0». У операторов дальней связи есть мощные каналы, но их использование требует серьёзных денег: канал ёмкостью 10 гигабит стоит порядка 500 000 рублей в месяц, а 100 гигабит будут стоить нелинейно дороже, так как эта пропускная способность уже на грани технологических возможностей операторов.

Наконец, на дальних расстояниях нарастают и другие технические проблемы, например, большие сетевые задержки передачи пакетов данных. Они возникают не столько по чисто географической причине, сколько за счёт активного оборудования между точками передачи и приёма (в нашем случае Новосибирском и Москвой).

Чем протяжённей дистанция, тем больше на ней единиц такого оборудования, каждая из которых увеличивает общую задержку.
Типичная сетевая задержка между нашими городами колеблется в диапазоне 50-100 миллисекунд, тогда как внутри сетей суперкомпьютерных и дата-центров она составляет микросекунды. Эти задержки мешают насытить даже ёмкие каналы, накладывая ограничения на реальную скорость передачи данных, в итоге и по сей день может наблюдаться ситуация, когда человек с чемоданом жёстких дисков летит в Москву, на тот же «Ломоносов», чтобы обсчитать свои данные.

Заметим, что всё вышесказанное относится к реалиям сегодняшнего дня, когда в общем (а также частично ограниченном) доступе находится малая толика данных, генерируемых всей российской наукой – академической, вузовской, отраслевой и прочей. Если же начнутся перемены, если объём размещаемой информации будет нарастать, нам не обойтись без региональных и макрорегиональных центров работы с Big Data, одним из которых должен стать СНЦ ВВОД.

Андрей Юрченко, кандидат физико-математических наук, заместитель директора Института вычислительных технологий СО РАН

Источники

С Big Data все не просто
Академгородок (academcity.org), 06/12/2018
С Big Data всё не просто
ИВТ СО РАН, 06/12/2018
Новосибирский ученый: с созданием Big Data в России все не просто
РИА Сибирь (ria-sibir.ru), 06/12/2018

Похожие новости

  • 17/07/2018

    В СО РАН создадут единую информационную систему с использованием технологии больших данных

    ​​​В Институте вычислительных технологий СО РАН считают: без единой системы передачи, хранения и обработки Big Data в Сибирском отделении невозможно развитие исследований на современном уровне. Общая коммуникационная сеть институтов Сибирского отделения формировалась с 1990-х годов по инициативе председателя СО РАН академика Валентина Афанасьевича Коптюга, поставившего академику Юрию Ивановичу Шокину при создании ИВТ СО РАН задачу информатизировать научную и организационную деятельность Отделения и институтов.
    439
  • 20/07/2018

    В СО РАН создадут единую информационную систему больших данных

    ​Создание единой системы передачи, хранения и обработки больших объемов данных (Big Data) в Сибирском отделении РАН позволит исследователям организовать полный цикл работы с данными, какими бы большими они ни были.
    250
  • 05/12/2018

    Эксперты обсудили взаимодействие с ресурсами Москвы в рамках «Академгородка 2.0»

    ​Состоялось первое заседание координационного совета по созданию сверхмощного Сибирского национального центра высокопроизводительных вычислений и обработки данных (СНЦ ВВОД) в рамках проекта «Академгородка 2.
    237
  • 15/06/2017

    Институт вычислительных технологий создает новую систему хранения научных данных

    ​В ИВТ СО РАН запущена в тестовую эксплуатацию первая очередь новой системы хранения данных, которая строится на основе открытой платформы Ceph. Система предназначена для размещения, обмена и долговременного хранения научных данных.
    782
  • 07/12/2017

    В новосибирском Академгородке обсудили цифровую экономику

    ​В рамках российской конференции DICR-2017 состоялся круглый стол "Наука - цифровой экономике". Коворкинг-центр "Точка кипения" на 13-м этаже технопарка новосибирского Академгородка собрал как участников конференции, так и специально приглашенных экспертов из сферы высокотехнологичного бизнеса.
    870
  • 02/02/2018

    Ученые ИВТ СО РАН занимаются математическим моделированием в медицине

    ​Клеточные белки и их сети играют важную роль в нормальном функционировании организма. Биологи сравнивают каждую такую сеть с оркестром, а дирижером (с относительно недавнего времени) считают микроРНК — множество малых некодирующих молекул РНК, которые регулируют почти все процессы и химические реакции в организме человека.
    513
  • 22/09/2017

    Между МСЦ РАН и ССКЦ СО РАН создан высокопроизводительный защищенный канал передачи данных

    Между двумя крупными российскими Центрами коллективного пользования – Межведомственным суперкомпьютерным центром Российской академии наук (МСЦ РАН, Москва) и Сибирским суперкомпьютерным центром Сибирского отделения РАН (ССКЦ СО РАН, Новосибирск) – создан высокопроизводительный защищенный канал передачи данных.
    870
  • 13/05/2017

    Как из палаток, динамита и ЭВМ развивалась сибирская наука: к юбилею СО РАН

    18 мая исполняется 60 лет Сибирскому отделению Российской академии наук, без которого невозможно представить НГУ. Да и Сибирское отделение было бы совсем другим, если бы его ряды регулярно не пополняли выпускники университета.
    1296
  • 09/08/2017

    Главные новости сибирской науки в июле 2017 года

    В результате анализа данных информационного портала ГПНТБ СО РАН «Новости сибирской науки» за июль 2017 г. выявлены самые рейтинговые сообщения по различным категориям. В разделе «Новости РАН» самый высокий рейтинг у сообщений: 6 июля -  Возможно, что уже к зиме РАН прекратит свое существование.
    2101
  • 20/06/2017

    Международная выставка «НТИ ЭКСПО» в Новосибирске

    ​​​Уникальная международная выставка достижений технологического развития "НТИ ЭКСПО" пройдет в рамках V Международного форума технологического развития "Технопром-2017" 20-22 июня в Новосибирске при поддержке правительства РФ, коллегии ВПК, Минпромторга России, Минэкономразвития России, МИДа РФ, правительства Новосибирской области.
    2078