Создание единой системы передачи, хранения и обработки больших объемов данных (Big Data) в Сибирском отделении РАН позволит исследователям организовать полный цикл работы с данными, какими бы большими они ни были. Об этом в интервью "Стимулу" заявил заместитель директора Института вычислительных технологий СО РАН Андрей Юрченко.

"Чтобы понять важность этого проекта, нужно признать: мы системно отстаем в области высокопроизводительных вычислений и высокопроизводительного анализа данных не только от западных коллег, но даже от российского бизнеса, в первую очередь от "Яндекса", - продолжил Андрей Юрченко. - С учетом набравшего обороты тренда на науку, основанную на интенсивном использовании данных (Data Intensive Science), это непростительно. Накопленный в Сибири потенциал в области вычислительных и информационных технологий не утрачен. И, создавая новую большую систему для работы с данными, мы, с одной стороны, опираемся на имеющийся задел, с другой - на интерес и огромный энтузиазм нашей молодежи к освоению нового и востребованного как в науке, так и в бизнесе направления - анализа больших данных".

Сейчас активно обсуждается программа "Академгородок 2.0", и в рамках этой программы в новосибирском Академгородке планируется создание ряда центров с установками класса мегасайнс. Они неизбежно будут генерировать новые научные данные, а изучаемые в ходе научных экспериментов процессы будут нуждаться в компьютерном моделировании. Это одна из ключевых посылок внесения в программу проекта создания центра высокопроизводительных вычислений, обработки и хранения данных СНЦ ВВОД. Без единой системы передачи, хранения и обработки больших объемов данных просто невозможно будет полностью раскрыть потенциал новых мегасайнс-проектов "Академгородка 2.0".

По словам Андрея Юрченко, основной движущей силой современной науки являются коллективы ученых. Поэтому организация работы с научными данными и становится самостоятельной проблемой: с одними и теми же данными работает множество исследователей, они должны иметь возможность их одинаково увидеть, одинаково понять их состав и происхождение, даже просто одновременно с ними работать. Для этого недостаточно старых инструментов в виде каталогов файлов. Нужна система каталогизации, описания данных, поддержка совместной работы с ними.

"На основе имеющегося опыта мы занимаемся разработкой системы, которая позволит исследователю организовать полный цикл работы с его данными, какими бы большими они ни были - это сбор данных с сенсоров, их описание и организация, обработка, анализ и, конечно, публикация, так как открытые научные данные стали важнейшим научным трендом последних лет. Имея такой инструмент, исследователь сможет меньше времени тратить на организацию работы с данными, и больше - непосредственно на их анализ. При этом в рамках концепции открытых данных он сможет получить доступ к данным других исследователей, отсюда и возможность найти новые закономерности, получить новые знания, а это и есть основная цель науки", - резюмирует Андрей Юрченко.

Большие данные в науке имеют два аспекта. Первый - разработка новых методов анализа таких данных и их организации. Наиболее интересным и перспективным с точки зрения получения новых знаний об окружающем нас мире и человеке становится одновременный анализ результатов множества экспериментов, интеграция в одном исследовании данных разнородных наблюдений. Из известных и понятных примеров можно назвать объединение экологического и социально-экономического мониторинга с мониторингом здоровья и качества жизни. У каждого из этих видов мониторинга есть множество параметров, взаимосвязь которых нужно установить, но есть у них и исходные данные, на основе которых и формируются такие интегральные параметры. Анализируя совместно исходные данные, можно обнаружить скрытые закономерности, которых не увидеть в интегральных характеристиках. А для того, чтобы одновременно работать с такого рода разнородной информацией, нужно решить множество проблем организации этих данных, их гармонизации. И, самое главное, надо разработать новые методы их совместного анализа, для чего придется интегрировать в единые цепочки обработки данных и традиционные методы анализа, и интеллектуальные, такие как машинное обучение и глубокое обучение. Такая работа - один из важнейших вызовов современной Data Science.

Второй аспект - использование и анализ больших данных, получаемых в ходе научных экспериментов. Современное исследовательское оборудование - цифровое, и оно генерирует множество разнородных данных. Чаще всего это данные различных измерений и фиксации физических экспериментов: от простых видеозаписей до "снимков" сканирующих микроскопов, от временных рядов тензодатчиков до секвенированных геномов. Данные разных экспериментов имеют разные объемы, но количество таких "оцифрованных" экспериментов растет с огромной скоростью, и общий объем генерируемых в итоге данных становится слишком большим. Одними из первых с этой лавиной данных столкнулись физики - самым ярким примером является, конечно, Большой адронный коллайдер, сенсоры которого генерируют петабайты данных в ходе только одного эксперимента. Для анализа таких объемов экспериментальных данных, извлечения из них полезной информации, формулировки научных выводов работает огромная распределенная система обработки данных, само создание которой стало большим научно-техническим вызовом для мирового научного сообщества. Теперь к физикам добавились и биологи с их геномными базами, и широкий спектр исследователей от метеорологов до геофизиков, использующих данные дистанционного зондирования Земли. Подтягиваются медики с базами изображений томографических, энцефалографических и других измерительных аппаратов. Все эти данные нужно какое-то время сохранять, организовывать работу с ними. Их компьютерный анализ - это и есть второй вызов больших данных в науке.

Похожие новости

  • 22/09/2017

    В Новосибирской области начнут контролировать посевы с помощью спутников

    ​Комплексную систему по контролю за состоянием посевов, предложенную учеными новосибирского Академгородка, опробуют с 2018 года. Экспертам на полях будут помогать беспилотники и спутники, сообщил в четверг в пресс-центре ТАСС в Новосибирске ведущий научный сотрудник Института цитологии и генетики СО РАН Дмитрий Афонников.
    518
  • 13/02/2018

    Цифровое земледелие повысит урожаи в Новосибирской области

    ​Планшет станет неизменным спутником агронома 21 века, а беспилотники будут выявлять очаги заражения в посевах, уверены ученые. Цифровое земледелие - страховка в условиях переменчивого климата Новосибирской области - позволит снизить риски и сократить потери будущего урожая.
    301
  • 10/05/2016

    Сибирские ученые усовершенствуют волоконные линии связи

    ​Методы, открытые специалистами Новосибирского государственного университета, Института вычислительных технологий СО РАН и зарубежных коммерческих компаний, можно применить при создании телекоммуникационных систем с высокой пропускной способностью.
    970
  • 20/06/2017

    Международная выставка «НТИ ЭКСПО» в Новосибирске

    ​​​Уникальная международная выставка достижений технологического развития "НТИ ЭКСПО" пройдет в рамках V Международного форума технологического развития "Технопром-2017" 20-22 июня в Новосибирске при поддержке правительства РФ, коллегии ВПК, Минпромторга России, Минэкономразвития России, МИДа РФ, правительства Новосибирской области.
    1649
  • 16/01/2018

    Ученые ИАиЭ СО РАН научили квадрокоптеры следовать за подвижной целью

    ​Беспилотные летательные аппараты сегодня находят применение во многих областях, однако исследователи продолжают совершенствовать их работу. Так, сотрудники Института автоматики и электрометрии СО РАН разработали метод, который позволяет дрону сопровождать движущийся объект.
    449
  • 21/06/2017

    Для развития аддитивных технологий стоит объединяться

    ​Как следует развивать аддитивные технологии? Готова ли Российская Федерация отказаться от зарубежных поставок? Обсуждение этих и ряда других вопросов прошло на круглом столе в рамках Международного форума технологического развития "Технопром-2017".
    906
  • 02/02/2018

    Алексей Шулунов: радиофотоника - одно из важнейших направлений электроники

    ​До второго десятилетия нынешнего века в промышленности планеты прошли и ныне проводятся три направления развитии - пара, электрона, атома. "В настоящее время в мире идет переход на четвертый уровень, основывающийся на технологиях фотона, - отметил известный руководитель отечественной оборонной промышленности, руководитель рабочей группы № 19 Научно-технического совета Военно-промышленной комиссии при правительстве РФ, академик МАИ Алексей Шулунов, - эти технологии используют свойства фотонов, частиц, не имеющих массы покоя и заряда, что позволяет преодолеть принципиальные физические ограничения "классической" электроники.
    880
  • 28/07/2017

    Нестоличная наука: новгородские викинги, миниатюрный лазер и нейросеть-кардиолог

    ​​Робот-разведчик, древняя птица, рентгеновская линза и другие открытия и разработки российских ученых, сделанные вне Москвы и Санкт-Петербурга. Великий Новгород Уникальное кладбище X-XI веков обнаружила экспедиция Института археологии РАН при раскопках в центре Новгорода.
    589
  • 13/04/2018

    Михаил Лаврентьев: «Мы подходим к борьбе с терроризмом из космоса»

    ​Новосибирский ученый дал интервью ко Дню космонавтики.О том, как в Новосибирск приезжал космонавт Алексей Леонов, зачем тренировать «космических фотографов» и как «продавать» космос, рассказал заведующий лабораторией ИАиЭ СО РАН профессор Михаил Лаврентьев, отвечая на вопросы в пресс-центре ТАСС.
    292
  • 12/07/2017

    В Новосибирской области создана 3D-фабрика в рамках программы реиндустриализации

    ​​"3D-​фабрика уже собрана на территории нашего предприятия, совместно с участниками «Сибирского металлурго-машиностроительного кластера» (СММ-кластер), и готова к тиражированию. В едином рабочем пространстве мы предусмотрели производство аддитивных порошков; их необходимый анализ и кондиционирование с формирование порошковых композиций, как сырья для 3D-принтера; подача порошка в принтер; печать готового изделия из металла.
    891