Использование технологий семантического веба, в том числе онтологий, является широко распространенной практикой при создании интеллектуальных систем и баз знаний. В большинстве случаев онтологии используются системными аналитиками и экспертами предметной области на этапах концептуализации и формализации знаний. 

При этом применяется различный инструментарий (например, Protégé, ONTOedit, Menthor Editor, Sema­phore Ontology Editor, OntoStudio, WebOnto, Fluent Editor), который в основном обеспечивает только ручное манипулирование концептами и отношениями. Слабая интеграция подобных систем с другими информационными источниками (например, с БД, текстами, таблицами, концептуальными моделями и др.) в части импорта понятий и отношений предметной области снижает эффективность данного процесса.

В качестве источника информации для автоматизированного формирования онтологий могут выступать электронные таблицы. В настоящее время в мире циркулирует большой объем электронных таблиц, представленных в форматах HTML, XLS, XLSX, CSV. Информация в данных таблицах характеризуется большим разнообразием и разнородностью компоновок, стилей, содержания, форм и форматов представления, а также высокой скоростью роста ее объема. Большой объем и свойства структуры таких таблиц делают их ценным источником в приложениях науки о данных и бизнес-аналитики. Однако, как правило, они не сопровождаются явной семантикой, необходимой для машинной интерпретации своего содержания так, как задумано их автором. Накапливаемая в таблицах информация часто является неструктурированной и нестандартизированной. Для проведения анализа этих данных необходимы их предварительное извлечении и трансформация к структурированному представлению в соответствии с заданной формальной моделью.

В работах предложен подход к автоматизированному анализу и преобразованию электронных таблиц в концептуальные модели предметной области в виде диаграмм классов UML. В данном исследовании предлагается применить этот подход для создания онтологических схем (онтологий на терминологическом уровне T-Box) в формате OWL2 DL. В качестве источника знаний и основы для автоматизированного формирования онтологических схем выбраны электронные таблицы, представленные в формате MS Excel, который является наиболее распространенным на сегодняшний день средством для представления структурированной информации в виде таблиц.

Таким образом, постановку задачи можно формализовать следующим образом: необходимо определить оператор T преобразования произвольных электронных таблиц:

T: ASXLSX -> OSOWL,

где ASXLSX – исходная произвольная электронная таблица в формате Excel (XLSX); OSOWL – целевая онтологическая схема в формате OWL2 DL.

Особенностью подхода является использование определенной канонической (реляционной) формы представления электронных таблиц, обеспечивающей унификацию входных данных.

Предлагаемый подход реализован в форме программного модуля расширения, а именно плагина PKBD.Onto для системы прототипирования продукционных экспертных систем – Personal Knowledge Base Designer (PKBD). Также рассмотрен пример применения предлагаемого подхода и модуля для создания онтологических схем в формате OWL при решении учебной задачи.

Подробное описание дается в статье «Разработка схем онтологий на основе преобразования электронных таблиц», авторы Н.О. Дородных, А.Ю. Юрин, А.В. Видия (Институт динамики систем и теории управления им. В.М. Матросова СО РАН, г. Иркутск).

Похожие новости

  • 11/08/2020

    Байкал оценят «цифрой»: о создании системы мониторинга экологии озера

    ​​Учёные из Сибири получили грант Министерства науки и высшего образования России в размере 300 млн рублей на создание фундаментальной основы и разработку технологий цифрового мониторинга и прогнозирования экологической обстановки на Байкале.
    2915
  • 24/08/2020

    Байкал нуждается не в шумных истериках, а в серьёзных исследованиях - мнение эксперта

    ​В последнее время Байкал привлекает внимание СМИ и общественности не красотой и богатством природы, а связанными с великим озером скандалами. То завод по розливу бутилированной воды, по мнению активистов, угрожает Байкалу обмелением.
    598
  • 16/02/2021

    Большая часть Якутии - в зоне повышенного сейсмориска?

    Ученые Академии наук Республики Саха (Якутия) установили закономерности процессов сейсмотектонической деструкции земной коры в пределах дельты Лены – новейшие структуры этой территории способны продуцировать сейсмические события с магнитудой Mw = 6.
    991
  • 08/10/2020

    Байкал спасут big data и фундаментальные изменения системы мониторинга

    ​Ученые Сибирского отделения Российской академии наук разработают новые методы мониторинга экологии, что в корне изменит всю систему наблюдений за природой. Пилотным объектом для разработки усовершенствованных исследований станет озеро Байкал, где будут измерять биологические и геологические процессы, что в будущем поможет контролировать экологическую обстановку в регионе.
    1109
  • 20/10/2020

    «Алиса»: Первой компьютерной школе Иркутска – 35 лет

    ​История «Алисы»  Можно ли в реальной жизни встретить говорящего Белого кролика или, скажем, Безумного шляпника? Оказывается, можно. Если войти в главный корпус Сибирского энергетического института, миновав дежурного, повернуть направо, потом налево и снова направо…В общем, по длинным коридорам и лабиринтам вы можете попасть в одно любопытное место.
    627
  • 09/09/2019

    Квантовое завтра. Каким быть компьютеру будущего

    ​Основы квантовых вычислений сформулировал в 1981 году Ричард Фейнман в лекции «Моделирование физики на компьютерах». Стоит упомянуть, что идею о возможности использовать для расчетов поведения квантовых систем другие квантовые системы еще за год до того высказывал советский математик Юрий Манин.
    1473
  • 30/11/2020

    Комплексные экспериментальные исследования аэрозольно-газовых примесей, метеорологических, радиационных и динамических характеристик атмосферы озера Байкал

    В июле-сентябре 2020 г. в рамках выполнения темы государственного задания ИФМ СО РАН № АААА-А17-117121140006-0, проекта РНФ №19-77-20058 сотрудниками лаборатории дистанционного зондирования атмосферы (зав.
    875
  • 19/09/2019

    Большие данные — большие вызовы

    ​В рамках VII Международного форума технологического развития «Технопром» обсудили возможности использования больших данных для науки, бизнеса и государства. В настоящий момент все они нуждаются в эффективных цифровых инструментах для решения широкого круга задач.
    1317
  • 17/02/2021

    Как свежие разработки сибирских учёных используются на практике? Репортаж с пресс-конференции Иркутского научного центра СО РАН

    2021 год объявлен Годом науки и технологий. А Сибирское отделение СО РАН (первоначально – Восточно-Сибирское) появилось 70 лет назад. Подразумевалось, что у него будет два направления работы: фундаментальные исследования и практическая часть по решению проблем региона.
    685
  • 01/02/2021

    Академик Игорь Бычков о проекте цифрового мониторинга Байкала на встрече с президентом РАН

    ​В августе 2020 года Институт динамики систем и теории управления имени В.М. Матросова выиграл грант министерства науки и высшего образования на разработку новых методов и технологий комплексного экологического мониторинга Байкальской природной территории и прогнозирования экологической обстановки.
    727