Сибирские учёные комментируют высказывания об информационных системах и центрах для работы с большими научными данными, прозвучавшие на последнем заседании Совета по науке и образованию при Президенте РФ. 

– Глава РАН академик Александр Михайлович Сергеев заострил внимание на том, что Академия не может в полной мере выполнять возложенные на неё задачи экспертизы и прогнозирования без высокопроизводительных систем хранения и обработки информации, а ректор Московского госуниверситета им. М.В. Ломоносова Виктор Антонович Садовничий предложил создать такую систему единой, в национальном масштабе, на базе суперкомпьютера «Ломоносов». Эта проблема обсуждается не впервые, учеными разных регионов России, в том числе в «Науке в Сибири». 

Действительно, работа с большими данными – это мировой тренд, который нельзя игнорировать. Но с Big Data всё не просто: прежде всего в плане сбора научных данных и поступления информации в открытый доступ. Центр информационных технологий и систем (ЦИТиС), который упоминал А.М. Сергеев, собирает материалы в виде научных отчётов и проектов научных исследований. Это документы, которые отображают – в выборочном и видоизмененном виде – ничтожно малую часть данных, которые генерируются или используются непосредственно в ходе исследований. Зачастую учёному не доступна исходная информация, полученная его коллегой буквально за стенкой, в соседней лаборатории. Эти ограничения сложились исторически, они порождены объективными условиями. 

Как мы прекрасно знаем, данные, появившиеся в ходе текущей работы, служат основой для публикаций, для чего проходят определённую селекцию. В статью попадает только то, что наиболее наглядно иллюстрирует полученный научный результат – новое явление, эффект, закономерность и так далее. Владение исходными данными позволяет, при этом, сохранять научный приоритет, что сдерживает их публикацию. Поэтому нет и эффективно работающих инструментов «обобществления» таких данных. В наиболее развитых странах ситуация начинает меняться, и первичная информация в форме наборов данных (DataSet) становится таким же общедоступным научным материалом для анализа, как и формализованная в виде статей, монографий, отчётов. Разумеется, речь идёт о стопроцентно открытых, гражданских исследованиях, а не «спецтематиках», но их результаты достаточно просто отделить. Например, на одном космическом аппарате данные с одного сенсора могут использоваться в открытых научных исследованиях, другие – ни при каких обстоятельствах, это устанавливается соответствующими ведомствами. Кроме того, на пути всей информации к открытому доступу стоит экспертиза. Однако нужно учесть, что в условиях экспоненциального роста объёмов научной информации реально качественная экспертиза становится осуществима только с использованием интеллектуальных компьютерных систем.

Для того, чтобы мы начали формировать массивы действительно больших научных данных, в научной повседневности необходима настоящая, без преувеличения, революция.

В идеале все инструменты научной работы – от установки класса мегасайнс до обычного электронного микроскопа или томографа – должны в автоматическом режиме направлять все получаемые на них данные в общие хранилища с общим (или «почти общим») доступом.
Это же касается областей знания, напрямую не связанных с приборной базой: в гуманитарной сфере, например, все новые данные могут немедленно оцифровываться, будь то археологические находки или произведения фольклора. Требуется соответствующая трансформация и действующей системы организации науки. Но только административными мерами вопрос управления научными данными, их систематического сбора и обобществления не решить, главные изменения должны произойти на уровне личности исследователя, его мотиваций и стереотипов поведения.

Впрочем, необходимые перемены могут происходить поэтапно. Так или иначе, через какое-то время идеология общедоступности большинства первичных научных данных должна воплотиться в реальность. В контексте этой, пока что воображаемой, реальности и следует рассматривать вопрос степени централизации систем работы с Big Data, поднятые Виктором Садовничим и Александром Сергеевым. Последний ссылался на опыт Японии – страны во всех смыслах компактной, и являющейся технологическим лидером, в том числе в области телекоммуникаций. В России высший уровень централизации – например, привязывающий всё и вся к «Ломоносову» – трудно осуществим и малоэффективен.

Буквально на днях состоялось первое заседание координационного совета про проекту Сибирского национального центра высокопроизводительной обработки и хранения данных (СНЦ ВВОД) в рамках «Академгородка 2.0». Был поднят вопрос об эффективности взаимодействия с ресурсами Москвы для обеспечения вычислений и хранения научных данных – и получил отрицательную оценку минимум по двум причинам. Во-первых, за эти ресурсы настолько высока конкуренция (прежде всего в центральной России), что поневоле вспоминаются давние «очереди на машинное время». Второе, что сильно мешает – ограниченность чисто технических возможностей.

Например, проектируемая Институтом ядерной физики им. Г.И.Будкера СО РАН С-тау фабрика может генерировать до 9 гигабайт данных в секунду, что требует скорости передачи около 100 гигабит. Стогигабитных каналов в научной инфраструктуре России просто нет. Здесь, в новосибирском Академгородке, мы только планируем создать локальную сеть с такой пропускной способностью, ориентируясь на перспективу «2.0». У операторов дальней связи есть мощные каналы, но их использование требует серьёзных денег: канал ёмкостью 10 гигабит стоит порядка 500 000 рублей в месяц, а 100 гигабит будут стоить нелинейно дороже, так как эта пропускная способность уже на грани технологических возможностей операторов.

Наконец, на дальних расстояниях нарастают и другие технические проблемы, например, большие сетевые задержки передачи пакетов данных. Они возникают не столько по чисто географической причине, сколько за счёт активного оборудования между точками передачи и приёма (в нашем случае Новосибирском и Москвой).

Чем протяжённей дистанция, тем больше на ней единиц такого оборудования, каждая из которых увеличивает общую задержку.
Типичная сетевая задержка между нашими городами колеблется в диапазоне 50-100 миллисекунд, тогда как внутри сетей суперкомпьютерных и дата-центров она составляет микросекунды. Эти задержки мешают насытить даже ёмкие каналы, накладывая ограничения на реальную скорость передачи данных, в итоге и по сей день может наблюдаться ситуация, когда человек с чемоданом жёстких дисков летит в Москву, на тот же «Ломоносов», чтобы обсчитать свои данные.

Заметим, что всё вышесказанное относится к реалиям сегодняшнего дня, когда в общем (а также частично ограниченном) доступе находится малая толика данных, генерируемых всей российской наукой – академической, вузовской, отраслевой и прочей. Если же начнутся перемены, если объём размещаемой информации будет нарастать, нам не обойтись без региональных и макрорегиональных центров работы с Big Data, одним из которых должен стать СНЦ ВВОД.

Андрей Юрченко, кандидат физико-математических наук, заместитель директора Института вычислительных технологий СО РАН

Источники

С Big Data все не просто
Академгородок (academcity.org), 06/12/2018
С Big Data всё не просто
ИВТ СО РАН, 06/12/2018
Новосибирский ученый: с созданием Big Data в России все не просто
РИА Сибирь (ria-sibir.ru), 06/12/2018

Похожие новости

  • 17/07/2018

    В СО РАН создадут единую информационную систему с использованием технологии больших данных

    ​​​В Институте вычислительных технологий СО РАН считают: без единой системы передачи, хранения и обработки Big Data в Сибирском отделении невозможно развитие исследований на современном уровне. Общая коммуникационная сеть институтов Сибирского отделения формировалась с 1990-х годов по инициативе председателя СО РАН академика Валентина Афанасьевича Коптюга, поставившего академику Юрию Ивановичу Шокину при создании ИВТ СО РАН задачу информатизировать научную и организационную деятельность Отделения и институтов.
    616
  • 16/04/2019

    Восемь ответов на частые вопросы о СНЦ ВВОД

    Зачем нужен Сибирский национальный центр высокопроизводительных вычислений, обработки и хранения данных — СНЦ ВВОД? Откуда придут деньги на его создание? Как этот проект связан с синхротроном СКИФ? С другими проектами «Академгородка 2.
    196
  • 15/06/2017

    Институт вычислительных технологий создает новую систему хранения научных данных

    ​В ИВТ СО РАН запущена в тестовую эксплуатацию первая очередь новой системы хранения данных, которая строится на основе открытой платформы Ceph. Система предназначена для размещения, обмена и долговременного хранения научных данных.
    897
  • 20/07/2018

    В СО РАН создадут единую информационную систему больших данных

    ​Создание единой системы передачи, хранения и обработки больших объемов данных (Big Data) в Сибирском отделении РАН позволит исследователям организовать полный цикл работы с данными, какими бы большими они ни были.
    373
  • 07/02/2019

    Зимняя школа НГУ и ИВТ СО РАН выявила молодых лидеров IT

    ​150 студентов из регионов Сибири приняли участие в третьей зимней школе CompTech @ Nsk 2019, организованной Институтом вычислительных технологий СО РАН и факультетом информационных технологий Новосибирского государственного университета.
    312
  • 25/02/2019

    Новосибирский ученый - о войнах в киберпространстве

    Войны в киберпространстве и кибернетизация обычных войн, атаки без единого выстрела и диверсии без единого грамма взрывчатки… В новых реалиях помогает разобраться заместитель директора Института вычислительных технологий СО РАН Андрей Васильевич Юрченко.
    178
  • 17/04/2019

    Центр хранения и обработки данных может быть создан в Новосибирске к 2022 году

    ​Сибирский центр высокопроизводительных вычислений, обработки и хранения данных планируется создать к 2022 году. Он нужен, в том числе для обработки и хранения информации с источника синхротронного излучения "СКИФ" (создается по нацпроекту "Наука"), сообщил ТАСС замдиректора Института вычислительных технологий СО РАН Андрей Юрченко.
    255
  • 05/12/2018

    Эксперты обсудили взаимодействие с ресурсами Москвы в рамках «Академгородка 2.0»

    ​Состоялось первое заседание координационного совета по созданию сверхмощного Сибирского национального центра высокопроизводительных вычислений и обработки данных (СНЦ ВВОД) в рамках проекта «Академгородка 2.
    884
  • 13/05/2017

    Как из палаток, динамита и ЭВМ развивалась сибирская наука: к юбилею СО РАН

    18 мая исполняется 60 лет Сибирскому отделению Российской академии наук, без которого невозможно представить НГУ. Да и Сибирское отделение было бы совсем другим, если бы его ряды регулярно не пополняли выпускники университета.
    1501
  • 07/12/2017

    В новосибирском Академгородке обсудили цифровую экономику

    ​В рамках российской конференции DICR-2017 состоялся круглый стол "Наука - цифровой экономике". Коворкинг-центр "Точка кипения" на 13-м этаже технопарка новосибирского Академгородка собрал как участников конференции, так и специально приглашенных экспертов из сферы высокотехнологичного бизнеса.
    1164