Реферат на тему семантический web

Обновлено: 05.07.2024

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бiлоконь В. А., Дудар З. В.

В данной статье сделан обзор структуры семантического Веба, рассмотрены основные компоненты модели. Рассмотрена структура семантического описания документов с помощью RDF. В результате работы сформулированы основные задачи, стоящие перед развитием семантического Веба и его использование для семантического поиска в рамках специализированной области

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бiлоконь В. А., Дудар З. В.

Использование технологий Semantic Web в информационно-вычислительной системе для анализа данных по окружающей среде

В данной статье сделан обзор структуры семантического Веба, рассмотрены основные компоненты модели. Рассмотрена структура семантического описания документов с помощью RDF. В результате работы сформулированы основные задачи, стоящие перед развитием семантического Веба и его использование для семантического поиска в рамках специализированной области

ИСПОЛЬЗОВАНИЕ СЕМАНТИЧЕСКОГО ВЕБА В КАЧЕСТВЕ

МОДЕЛИ ИНФОРМАЦИОННОГО ПРОСТРАНСТВА СЕТИ

Профессор, и.о. заведующего кафедрой* *Кафедра ПО ЭВМ

Семантический Веб - это будущее мировой информационной среды сети Интернет. Главное отличие семантического Веба от текущего глобального информационного пространства заключается в том, что компьютеры смогут обрабатывать и понимать информацию не только как данные, но и как знания. Единицей обмена информации на сегодняшний день является HTML страница, которая полностью ориентирована для удобства пользователя (человека). Компьютер в свою очередь исполняет роль хранения, пересылки и отображения данных:

• ресурсы (HTML страницы, картинки, видео) хранятся на сервере;

• по запросу пользователя ресурсы пересылаются на его персональный компьютер;

• ресурсы отображаются в удобном для пользователя виде.

Семантический Веб является связанной сетью информационных узлов, которые соединены друг с дру-

гом так, чтобы информация могла обрабатываться компьютером.

Можно рассматривать семантический Веб как эффективный способ представления данных в WWW, или как глобально связанную базу данных. Данный подход предлагает реализацию полной системы по автоматизированному созданию и хранению семантического ядра контента, расположенного во всемирной сети Интернет.

«Семантический Веб - это расширения текущего Интернета, в котором информация предоставляется с определенным значением, которое лучше позволит компьютерам и людям работать вместе. Идея заключается в том, чтобы иметь данные в сети Интернет, определенные и связанные между собой, чтобы их можно было использовать для эффективной автоматизации, исследования, интеграции и повторного использования в разных приложениях.

Профессор Джон Сова говорил, что семантический Веб является много-дисциплинарной темой, которая объединяет теории и методы трех областей:

• логика - формальные структуры и правила логического вывода;

• онтологии - описание типов сущностей, которые относятся к предметной области;

Веб, который мы все чаще всего подразумеваем под словом "Интернет", в свою очередь представляет собой сеть сайтов, использующих гиперссылки для переходов между страницами. Стоит сказать, что само существование Веба невозможно без существования инфраструктуры Интернета.

Технология семантического Веба разрешит компьютеру интерпретировать информацию, представленную в Интернете, наравне с людьми, для чего разработана графовая модель описания ресурсов RDF (Resource Description Framework).

Семантический Веб в общем виде это:

• интероперабельность данных между программными приложениями и организациями;

• набор интероперабельных стандартов для обмена знаниями;

• архитектура для взаимосвязанных сообществ и словарей.

2. Структура семантического Веба

Структуру семантического Веба можно рассмотреть в виде трех уровней: [2]

• базис, который состоит из уникальной глобальной идентификации ресурса, метаданных для декларирования фактов о ресурсах, и общего языка для выражения метаданных и знаний, который реализован с помощью онтологий для общедоступного понимания и общего словаря метаданных и правил для добавления новых метаданных и знаний;

• базовый сервис, например логический вывод и запросы к метаданным и онтологиям, разъяснение таких выводов, управление доверием (trust), агенты, поисковые системы, серверы онтологий;

• сервисы приложений, например сервис агентства путешествий.

Технологии, которые задействованы в разработке семантического Веба:

• объединение знаний (интеграция баз данных);

• всепроникающие вычисления (ubiquitous / pervasive computing) [2].

Логический план построения семантического Веба был предложен Тим Бернерс-Ли [4]:

• синтаксис для представления знаний, который использует ссылку на онтологии (RDF);

• язык описания онтологий (OWL);

• язык описания веб-сервисов (WSDL, OWL-S);

• инструменты чтения/разработки документов семантического Веба (Jena, Haystack, Protege);

• язык запросов к знаниям, которые записаны в RDF (SPARQL);

• логический вывод знаний;

• семантическая поисковая система (например, SHOE).

Фундаментальными основами семантического Веба являются:

• графовая модель представления слабо структурированных данных (OEM, Lore);

• формальная логика (логика первого порядка, базы знаний, фреймы);

• криптография с открытым ключом.

Запросы SPARQL Онтологии Правила RIF

Ядро RDF - обмен данными

Рисунок 1. Уровни семантического Веба

3. XML - расширяемый язык разметки

Язык XML (extensible Markup Language) [5] является простым, очень мощным и гибким текстовым форматом для описания разнородных документов произвольной структуры.

Функции XML языка: [2]

• представление синтаксиса для других языков разметки;

• семантическая разметка Web-страниц. XML-представление может использоваться на Web-стра-нице вместе с таблицей стилей XSL, что определяет корректный вывод на экран разных элементов;

• единый формат обмена данных. XML-представ-ление может передаваться между двумя применениями как объект данных.

Язык XML позволяет каждому создавать свой собственный формат документов, а после - создавать

документы в этом формате. Также документы могут содержать разметку, которая уточняет содержание контента документа. Разметка документа позволяет сделать его более "читаемым" для компьютера.

4. Общая схема описания ресурсов RDF

Стандарт RDF (Resource Description Framework) был предложен для описания предметной области ресурсов [6], принятый консорциумом W3C. Изначально RDF был предназначен для полного описания XML-ресурсов.

RDF является моделью описания метаданных, использующий синтаксис языка XML. Хотя модель данных языка XML является графом с обозначенными вершинами и не обозначенными дугами (т.е. без связей), модель данных RDF является графом с обозначенными как вершинами, так и дугами, который разрешает определять связи между сущностями [2].

Стандарт RDF включает две основные части - собственно способ описания ресурсов, а также способ задачи схем, по которым ресурс описывается.

Первая часть RDF [7] определяет простую модель для описания объекта, который рассматривается в качестве ресурса, как связей между ресурсами в терминах поименованных свойств и значений.

Вторая (RDF Schema - RDFS) служит для задачи структуры предметной области и аналогична диаграмме классов в UML.

На RDF можно описывать как структуру ресурса, так и связанную с ним предметную область. RDF описывает ресурсы в виде ориентированного размеченного графа - каждый ресурс может иметь свойства, которые в свою очередь также могут быть ресурсами или их коллекциями.

[O] - A -> [V]. Такая нотация довольно полезна, поскольку RDF разрешает менять местами объекты и значения.

Таким образом, каждый объект может играть роль значения, которое в графическом представлении отвечает цепочке из двух ребер с метками.

Также как XML Schema используется для определения словаря, RDF Schema разрешает разработчикам определять конкретный словарь для данных RDF (такой, как author) и указывать виды объектов, к которым могут применяться эти атрибуты. Другими словами, механизм RDF Schema предоставляет базовую систему типов для моделей RDF.

Таким образом, RDF предоставляет возможность формулировать утверждения в виде, пригодном для обработки компьютером и это является основой семантического Веба.

5. Схема RDF - простое моделирование данных.

Первым блоком семантического Веба над описанным выше синтаксисом является простая модель типизации данных.

Схема и онтология - это средства для описания содержания и связи между термами.

На основе RDF 23 января 2003 был предложен рабочий проект RDF Vocabulary Description Language 1.0: RDF Schema [8]. Схема RDF была разработана как простая модель типизации данных для RDF. Как указывается в документе, RDF является языком общего применения для представления информации в Интернет. Данная спецификация описывает как использовать RDF для описания RDF-словарей.

Она определяет базовый словарь, предназначенный для этих целей и принятые соглашения, которые могут быть использованы при создании приложений семантического Веба для поддержки более сложных словарей RDF-описаний. Язык описания словаря RDF определяет классы и свойства, которые могут быть использованы для описания других классов и свойств, а также производить некоторые более сложные вещи, такие, как создание диапазонов и областей для свойств [2].

Три наиболее важных понятия, которые дает нам RDF и схема RDF - это "Ресурс" (rdfs:Resource), "Класс" (rdfs:Class) и "Свойство" (rdfs:Property). Эти понятия являются "классами" в том понимании, что этим классам могут принадлежать термины.

Как уже было указано, RDF Schema определяется в терминах базовой информационной модели RDF - структуры графа, который описывает ресурсы и свойства.

Все словари RDF используют некоторую базовую структуру: они описывают классы ресурсов и типы связей между ресурсами. Эта общность разрешает использовать разнородные словари, созданные для машинной обработки, и отвечает требованиям по созданию метаданных, в которых утверждения могут быть получены из множества разнородных децентрализованных словарей, созданных различными сообществами по разным принципам и разными методами.

Описание с помощью RDF не ограничивается только описанием документов Интернет. Этот стандарт довольно универсальный и гибкий для того, чтобы описывать большинство типов структурированных данных.

Важной особенностью стандарта RDF, как и лежащего в его основе XML, является расширяемость. На RDF можно задать структуру описания источника, используя и расширяя встроенные понятия RDF-схем, такие как классы, свойства, типы, коллекции. Модель схемы RDF включает наследование; наследоваться могут как классы, так и свойства.

Таким образом, RDF целиком подходит на роль универсального языка описания семантики ресурсов и взаимосвязей между ними.

Однако, как утверждают сами авторы стандарта, RDF имеет и ряд отсутствующих свойств, которые они указывают как следующие:

• невозможность указания того, что два разных класса, определенных в разных схемах, фактически представляют одно и то же понятие;

• невозможность указания того, что два разных экземпляра (instances), определенные раздельно, фактически представляют один и самый субъект;

• невозможность определения новых классов в терминах операций (например, объединение и пересечение) над другими классами.

6. Практическая реализация семантического Веба

Технология семантического Веба позволяет решать следующие задачи: [2]

• независимость данных от приложений;

• семантическая интеграция данных;

• создание основы для повсеместного использование компьютерных агентов (сервисов).

Формирование семантического Веба станет возможным только при условии обеспечения более высокого уровня интероперабельности. Однако уже сейчас сделано много практических шагов по реализации данного проекта.

На базе поисковой системы Google недавно был представлен новый проект, который предоставил свои ресурсы для запросов агентам на выполнение поисковых функций и проверки правописания. Также представляет интерес новый проект по автоматическому созданию RDF-описаний и хранилища метаданных, создаваемый на базе Open Directory, поисковым механизмом Google.

Кроме того, необходимо также отметить и проект консорциума W3C SWAD-Europe, который занимается проблемой связи хранилищ семантических данных с используемыми реляционными системами баз данных, особенно лицензированных как Free Software / Open Source (FS/OS).

В настоящее время необходимо констатировать, что общий объем мета-информации достиг очень больших размеров и растет с каждым годом. Интерес к использованию данной информации также постоянно повышается.

На март 2007 года из анализа запросов поисковой системы Google видно, что обычными рядовыми пользователями были сделаны миллионы запросов к типу „RDF filetype:rdf" и только десятки тысяч к онтологи-ям "ontology filetype:owl".

Такие цифры говорят о популяризации идей семантического Веба и дают возможность реально начинать

использовать в полной мере мета-информацию в прикладной сфере.

В настоящее время существуют системы [9]:

• библиотеки для интерпретации стека языков RDF для всех популярных языков программирования (Jena, Redland, RDFLib);

• редакторы онтологий (Protege);

• системы рассуждений над онтологиями (Racer, KAON, FACT);

• семантические хранилища (Sesame, Kowari, YARS);

• семантические обозреватели (Simile, Piggy Bank, Gnowsis, Haystack);

• поисковики семантических данных (Swoogle);

• конверторы из разных форматов представления данных в/из RDF/XML (Aperture, RDFizers, D2R);

• прикладные программы (Bibster, FOAF Explorer).

Минимальный набор критериев, определяющих

Во-первых, приложение должно использовать информационные источники, которые:

• имеют различных владельцев, что предполагает отсутствие контроля за их развитием;

• являются гетерогенными (синтаксически, структурно, и семантически);

• содержат данные реального мира, т.е. источники должны быть больше, чем игрушечные примеры.

Во-вторых, приложение должно воспринимать открытый мир; это значит, что оно знает, что информация никогда не бывает полной и постоянно меняется.

В-третьих, приложение должно использовать некоторое формальное описание значения данных.

Также есть важные качества для приложения семантического Веба.

Приложение должно использовать источники данных в других целях или по-другому, чем первоначально было намечено. Также оно должно использовать контент мультимедийных документов. Пользователи должны быть в состоянии получить доступ к приложению на множестве языков или с других, отличных от PC, устройств.

Приложение должно использовать как статические, так и динамические знания, например, комбинация статических онтологий и динамических технологических процессов. Наконец, приложение должно быть масштабируемым (в терминах количества используемых данных и совместно работающих распределенных компонент).

В настоящее время становиться актуальной задача создания приложений второго поколения. Второе поколение приложений семантического Веба должны использовать весь огромный запас уже накопленной семантики.

Такие приложения второго поколения должны быть способны использовать:

• быть открытыми для семантических ресурсов;

• быть открытыми для работы с пользователем (user interaction).

В идеале они также должны уметь использовать не только данные семантического Веба, но и другие форматы данных, такие как фолксономии и т.п., следо-

вательно должны иметь мощные механизмы по автоматическому извлечению информации.

Семантический Веб обещает вполне ощутимые преимущества, дополнительные сервисы. Навигация в сети Интернет станет более осмысленной, а поиск информации - более точным. Пользователи смогут сами создавать страницы семантического Веба, давать собственные определения и вводить новые правила вывода, используя стандартное программное обеспечение [2].

В данной статье была рассмотрена структура семантического Веба, его основные составляющие компоненты. На основе проведенных исследований были сформулированы цели и задачи семантического Веба. Модель семантического Веба будет использована в работе по разработке семантических методов поиска информации применительно к специализированной области информационно-образовательных ресурсов:

• индексация и поиск информации;

• разработка и поддержка метаданных;

• разработка и поддержка методов аннотирования;

• представление Интернет в виде большой, интероперабельной базы данных;

• организация машинной добычи данных (data mining);

• обнаружение (discovery) и предоставление Веб-ориентированных сервисов;

• исследования в области интеллектуальных программных агентов.

В исследовательской работе семантический поиск на образовательных ресурсах является ключевым моментом, задачей которого является реализация поиска не только по ключевым словам, но и по семанти-

ке контента. В результате исследовательской работы должен быть обеспечен доступ не только к статичным информационным документам, но и к сервисам, которые предоставляют полезные услуги, а также использованы онтологии вместе с семантическими методами поиска информации.

2. "Поиск знаний в Internet. Профессиональная работа", Ландэ Д.В. - Санкт-Петербург, 2005.

Аннотация: В данной лекции описывается концепция "Семантической паутины", рассматриваются микроформаты и поисковые механизмы в Сети. В заключение лекции характеризуются дополнительные темы: раскрутка сайтов и использование служб статистики.

Презентацию к данной лекции Вы можете скачать здесь.

20.1. Семантический веб

20.1.1. Введение

Семантическая паутина ( Semantic Web ) – часть глобальной концепции развития сети Интернет, целью которой является реализация возможности машинной обработки информации, доступной во Всемирной паутине. Основной акцент концепции делается на работе с метаданными , однозначно характеризующими свойства и содержание ресурсов Всемирной паутины, вместо используемого в настоящее время текстового анализа документов. Термин впервые введен сэром Тимом Бернерсом-Ли в мае 2001 года в журнале " Scientific American" [1], и называется им "следующим шагом в развитии Всемирной паутины". В семантической паутине предполагается повсеместное использование, во-первых, универсальных идентификаторов ресурсов ( URI ), а во-вторых – онтологий и яз ыков описания метаданных .

Эта концепция была принята и продвигается Консорциумом W3 [2]. Для ее внедрения предполагается создание сети документов, содержащих метаданные о ресурсах Всемирной паутины и существующей параллельно с ними. Тогда как сами ресурсы предназначены для восприятия человеком, метаданные используются машинами ( поисковыми роботами и другими интеллектуальными агентами) для проведения однозначных логических заключений о свойствах этих ресурсов.

20.1.2. История

Semantic Web был задуман консорциумом W3 достаточно давно. С середины 90-х писались разные статьи и заметки, которые не привлекали особого внимания широкой общественности. Переломным моментом стала статья, опубликованная 17 мая 2001 г. в журнале Scientific American Тимом Бернерса-Ли, Джеймсом Хэндлером и Орой Лассила "The Semantic Web "

У этой статьи было одно назначение – привлечь внимание к Semantic Web всех, кого только можно было. Интерес к Semantic Web в 2001 году, конечно, появился, но профессиональные разработчики после прочтения этой статьи поняли, что до прихода Semantic Web еще должно пройти много времени, т.к. W3C не разработал к тому времени совершенно никаких технологий (кроме языка RDF ), которые могли бы хоть как-то помочь осуществить задуманное.

10 февраля 2004 г. на сайте W3C появляется описание языка " OWL " (язык описания онтологий ).

Через полгода новый язык описания онтологий OWL стал поддерживать редактор онтологий Protege – разработка Стенфордского Университета. В это же время Semantic Web начало активно интересоваться международное научное сообщество. В разных изданиях появляется вал статей по Semantic Web . Председатель Консорциума W3 Тим Бернерс-Ли получает орден Сера из рук Королевы Соединенного Королевства.

В 2005 г. на сайте W3 появляется описание RDF /A – синтаксиса, который уже сейчас позволяет встраивать метаданные RDF в документы XHTML.

10 марта 2006 г. выходит RDF /A Primer. Таким образом, уходя по цепочке XML - RDF -RDFS- OWL все дальше и дальше от существующей в сети HTML разметки Semantic Web был "привязан" к XHTML.

В 2006 г. также завершилась разработка языка запросов к RDF документам с SQL-подобным синтаксисом, его окончательное название – SPARQL .

20.1.3. Основные идеи

Semantic Web – это эволюция World Wide Web, информация в которой машинно-обрабатываемая (а не только ориентированная на обработку человеком), таким образом, позволяя браузерам или другим программным агентам производить поиск, распределять и комбинировать информацию намного проще [3]. Semantic Web предусматривает объединение этих разных видов информации в единую структуру, где каждому элементу "человеческой" информации будет соответствовать машинный код – специальный смысловой тэг.

Semantic Web в математической форме представляет собой разновидность графа – набора вершин, соединенных дугами. В Semantic Web роль вершин выполняют понятия базы знаний, а дуги (причем направленные) задают отношения между ними. Таким образом, семантическая сеть отражает семантику предметной области в виде понятий и отношений. Идея состоит в том, чтобы глобальной семантической сетью было подмножество систем, которые замкнуты на специфичных путях достижения достаточного удобства для машин. Таким образом, Семантическая Сеть сама собой не будет задавать выводящую машину. Она будет задавать валидность операции и требовать связей между ними.

Рассмотрим состояние современной глобальной сети и принципы работы современных поисковых систем [4].

Представление информации в сети:

  1. теги в HTML не несут семантической нагрузки;
  2. процент полезной информации меньше процента разметки;
  3. разметка, в том числе, из-за большой сложности и вложенности (например, проблема табличной верстки) содержит много ошибок.

Информация предназначена только для просмотра человеком, из чего вытекают следующие принципы работы поисковых систем сегодня:

  • весовые коэффициенты на основе расположения слов;
  • важность слова в зависимости от тега;
  • релевантность (т.е. сколько раз встречается данное слово в данном документе по отношению другим);
  • анализ "веса" ссылок в зависимости от количества ссылок указывающих на данную страницу.

Из-за этого возникают следующие проблемы:

  • машины не понимают и, следовательно, не анализируют смысл информации
  • поиск неудобен и сложен, часто результаты неудовлетворительные и не релевантные;
  • оптимизаторы ( SEO – Search Engine Optimizations) "играют" на несовершенстве алгоритмов поисковых систем , умышленно нарушая правильность разметки для кратковременного эффекта высоких позиций в поисковых запросах.

Но есть и ряд положительных тенденций, которые позволяют практически приблизиться к Semantic Web :

  • появилась возможность эффективно отделять разметку от оформления путем применения CSS;
  • на смену HTML пришла на замену разновидность XML языка описания документов – XHTML.

Для того чтобы решить все вышеперечисленные проблемы Консорциумом W3 рекомендовал решение – применение Semantic Web .

Семантическая паутина – это надстройка над существующей Всемирной паутиной, которая призвана сделать размещенную в ней информацию более понятной для компьютеров. Машинная обработка возможна в семантической паутине благодаря двум ее важнейшим характеристикам [7]:

  • Повсеместное использование универсальных идентификаторов ресурсов ( URI ). Традиционная схема использования таких идентификаторов в современном Интернете сводится к установке ссылок, ведущих на объект, им адресуемый. Очевидным свойством такой ссылки является возможность "загрузки" объекта, на который она указывает. Таким объектом может быть Веб-страница, файл произвольного содержания, фрагмент Веб-страницы, а также неявное указание на обращение к реально существующему физическому ресурсу по протоколу, отличному от HTTP (например, ссылки mailto:). Концепция семантической паутины расширяет это понятие, включая в него ресурсы, недоступные для скачивания. Адресуемыми с помощью URI ресурсами могут быть, например, отдельные люди, города и другие географические сущности, художественные артефакты и т. д. К идентификатору предъявляются несколько простых требований: он должен быть стр окой определенного формата, уникальной, а также адресующей реально существующий объект.
  • Повсеместное использование онтологий и языков описания метаданных . Современные методы автоматической обработки данных, доступных в Интернете, как правило, основаны на частотном и лексическом анализе текстового содержимого (хотя есть и исключения: Swoogle или Intellidimension Semantic Web Search Engine , например), которое прежде всего предназначено для восприятия человеком. В семантической паутине предлагается использовать форматы описания, доступные для машинной обработки (например, семейство форматов, часто упоминаемое в литературе как " Semantic Web family": RDF , RDF Schema или RDF -S и OWL ), в свою очередь, использующие URI для адресации описываемых и описывающих объектов, а также онтологии и дескриптивные логики в качестве базовых математических формализмов.

Пользователи получат массу вполне ощутимых преимуществ от реализации Семантической Сети. Когда все программы, будь то браузер, почтовый клиент или Веб-сайт, смогут понимать смысл той информации, с которой работает пользователь. Они смогут предоставлять ему дополнительные сервисы. Работа человека станет более эффективной, серфинг более осмысленным, а поиск в Интернете – более точным.

Здесь стоит отметить, что поисковые агенты получат возможность взаимодействовать не только с информацией, хранимой в сети и доступной ей для обработки, но еще и между собой. Это дает возможность, как проверять результат, полученный одним агентом, так и находить более качественное решение, а также уточнять полученные результаты. Это напоминает модель взаимодействия двух людей, обладающих определенными знаниями и ведущих диалог. Нельзя не заметить, что в данном случае у людей вероятно возникновение нового знания в результате этого диалога. То же самое можно сказать об агентах – в результате взаимодействия двух агентов может появиться новое для агента знание.

Однако при всей очевидной важности Semantic Web существует множество трудностей и неразрешимостей в его реализации.

Мечта логиков последнего столетия – найти язык, в котором все предложения были бы ложны или истины и, по возможности, без других вариантов. Эта попытка ограничить язык, чтобы избежать возможность внутренних противоречивых утверждений, которые не могут быть разделены только на истину и ее отсутствие.

В Semantic Web это выглядит как сугубо академическая проблема: когда на самом деле нечто оперирует с массой недостоверной информации с любой точки зрения и ограничивается тем, что использует для ограничения подсистемы Веб. Очевидно, оно не должно иметь возможность выводить внутренне-противоречивые утверждения, но это не страшно, когда язык достаточно мощный, чтобы описать это. Действительно, достоверные системы должны дать нам мощность сказать "Утверждение ложно" и цикл, который, если верить замкнутому противоречию будет разрешен сам по себе или преднамеренно. Типичный ответ системы, которая ищет утверждения, приводящие к внутреннему противоречию, возможно, будет похож на результат поиска противоречия из того же источника [5].

Проблема ложности не только в возможности выразить парадокс, но и в возможности, учитывая парадокс вывода иметь возможность вывести ложность.

Очень важным моментом является то, как информация будет представлена в сети. Тут есть определенные требования.

Системы представления знаний должны обладать следующими свойствами [4]:

  • они должны иметь по возможности компактный синтаксис;
  • в них должна быть четко определенная семантика такая, чтобы любой мог сказать, что это означает;
  • она должна обладать достаточными описательными возможностями, чтобы представлять знания человека;
  • она должна иметь эффективный, мощный и понимаемый механизм вывода;
  • она должна иметь возможность работать с большими базами данных.

Доказана сложность достижения третьего и четвертого пункта одновременно [4]. Бинарные модели позволяют снизить сложность достижения этих пунктов. Когда отношения простые, их легче описать и произвести вывод на них. Отметим, что любую n -арную модель можно привести к бинарной, упростив вычисления и сложность создания агента, который будет с ней работать.

Все это позволяет расширить возможности поиска, поиск в сети становится не просто сбором документов и оценки связи слов, например, стоящих друг от друга на определенном расстоянии, которым при формировании результатов запроса расставляются веса, влияющие на их порядок при выдаче

Таким образом, достигается один из главных эффектов Semantic Web – получение нового, "синтетического" смысла, выводимого на связях документов, содержавших этот смысл только потенциально. Такой результат, очевидно, следует понимать как первый этап извлечения "глубинной" семантики первого уровня.

С другой стороны, это уже означает, что, получив отношения между документами, можно шагнуть гораздо дальше простой выдачи текстовой информации. Можно не только выдать результаты, можно их, как минимум, проанализировать и подготовить, а на следующем шаге – создать автоматизированные системы обработки этой информации, тем самым, решив целый ряд практических проблем.

Технологии Semantic Web могут быть использованы в разных прикладных областях. Например, в области интеграции данных, в результате чего данные из разных источников и в разных форматах могут быть интегрированы в одном приложении; в области описания и классификации ресурсов для обеспечения более качественных, учитывающих предметную область, средств поиска информации; в области каталогизации, для описания содержимого и взаимосвязей между Веб-сайтами, страницами, или цифровыми библиотеками; в области программных агентов с развитой логикой, для облегчения распространения информации; в области рейтинговых систем; при описании коллекций страниц которые логически составляют один документ; для описания прав интеллектуальной собственности Веб-страниц и во многих других.

Для того чтобы достичь целей описанных выше, важнее всего иметь возможность определить и описать взаимоотношения между данными (т.е. ресурсами) в Сети. Это не слишком сильно отличается от использования гиперссылок в современном Интернете, которые связывают текущую Веб-страницу с другой: гиперссылки определяют связь между текущей страницей и целевой. Одним из главных отличий является то, что в Семантической сети такие связи могут быть установлены между любыми двумя ресурсами – отсутствует само понятие: "текущая страница". Другое важное отличие это то, что связь (т.е. ссылка) сама – поименована, в то время как ссылки используемые людьми в (традиционном) Интернете не именуются, и их роль выводится читателем. Определение таких связей позволяет организовать более качественный и автоматический обмен данными. RDF , который является одним из фундаментальных строительных блоков, из которых состоит Семантическая Паутина , предоставляет формальные средства для такого обмена.

На эту основу, опираются дополнительные строительные блоки. Приведем несколько примеров.

  • Инструменты для формирования более точной и детальной классификации и описания характеристик таких отношений. Это гарантирует способность к взаимодействию и более сложные виды автоматической обработки. Например, сообщество может договориться о том, какое имя использовать для описания ссылки связывающей страницу с календарем. Это имя затем может быть использовано множеством разных пользователей и приложений без необходимости каждый раз переопределять такие имена (например, RDF Schemas, OWL , SKOS).
  • Инструменты для запроса информации, описанной с помощью таких отношений (например, SPARQL ).
  • В более сложных случаях существуют специальные инструменты для определения логических взаимосвязей между ресурсами и связями. Например, если ссылка связывает человека с его/ее e-mail адресом, то вполне оправданно провозгласить, что e-mail адрес – уникален, т.е. адрес не разделяется среди нескольких человек (например, OWL , Rules).
  • Инструменты для извлечения из и для связывания с традиционными источниками данных, для того, чтобы гарантировать их способность обмениваться информацией с другими источниками (например, GRDDL, RDF ).

Как и все инновационные технологии, Semantic Web претерпевает эволюцию: сначала развивается в исследовательских лабораториях, затем получает поддержку Open Source сообщества, потом появляются небольшие специализированные "стартапы", и, наконец, технология начинает получать широкую поддержку со стороны бизнеса. Так же, классическая Всемирная Паутина изначально была разработана в центре Физики Высоких Энергий.

В настоящее время, Semantic Web все чаще и чаще используется маленькими и большими компаниями. Oracle , IBM, Adobe, Software AG, или Northrop Grumman – только некоторые, из больших корпораций, которые уже воспользовались этой технологией, и продают как инструменты, так и целостные бизнес решения. Крупные прикладные области, такие как медицина, заинтересованы в тех средствах интеграции данных, которые предоставляет Semantic Web .

20.1.4. Технологии и инструменты

20.1.4.1. Стек стандартов Semantic Web

Десятилетиями создатели информационных технологий упускали из виду предмет своей деятельности – информацию. Точнее, информация присутствовала, но как-то неявно, обычно ее отождествляли с данными. Semantic Web – одно из тех явлений в мире ИТ, которые заставляют всерьез задуматься о различии между данными и информацией [6].

Предшествующий опыт подсказывает, что для создания Semantic Web следует построить информационную коммуникационную модель, аналогичную семиуровневой модели OSI (но в приложении к Веб) и ориентированную на обмен информацией, а не данными. Именно так и поступил Бернерс-Ли. Начиная с 1998 года, он популяризирует разработанную им многоуровневую модель Semantic Web . В наиболее наглядном виде она может быть оформлена в форме стека уже существующих и проектируемых стандартов. На рис. 20.1 и рис. 20.2 представлена редакция стека, датируемая 2000-м и 2005 годом. Используемые для построения модели понятия и конструкции достаточно сложны и специфичны, поэтому опишем эти модели на самом поверхностном уровне.

Семантический веб

Хотя XHTML и XSLT довольно ограничены в возможностях, их использование позволяет разработчикам добавлять семантическую информацию при минимуме дополнительных усилий.

Даниил Фертф

Хотя XHTML и XSLT довольно ограничены в возможностях, их использование позволяет разработчикам добавлять семантическую информацию при минимуме дополнительных усилий.

Для Тима Бернерса-Ли идея Семантического веба (Semantic Web) лежит в основе будущего Всемирной паутины. Совместно коллегами из World Wide Web Consortium (W3C) Бернерс-Ли интенсивно работает над инфраструктурой для этого нового этапа жизни веба. Однако что именно скрывается за словами "семантический веб", понятно еще далеко не до конца.

Веб для машин

Общее определение целей будущего веба выглядит очень заманчиво и амбициозно. Семантический веб - это не технология, а идеология. Для Бернерса-Ли Семантический веб -- это следующая ступень эволюции Интернета. Нынешний веб нацелен исключительно на предоставление информации людям и может эффективно читаться только людьми. "Вместо этого Семантический веб разрабатывает языки для выражения информации в форме, доступной для машинной обработки". То есть Семантический веб - это веб не для людей, а для машин, это комплекс технологий, позволяющих машинам лучше разбираться в Интернете, что, в свою очередь, сделает веб более полезным для людей.

Неудивительно, что такая цель делает рамки Семантического веба расплывчатыми и неопределенными. Для решения данной задачи может быть применено множество способов и технологий. Некоторые XML-разработчики испытывают устойчивое предубеждение по отношению к "Педантическому вебу", как они в шутку называют концепцию Бернерса-Ли, из-за того, что она опирается на технологию RDF (Resource Description Framework). Источником структурированной информации для машины может являться множество синтаксисов. Но если оставить в стороне споры о технологиях, то мы вынуждены будем признать ценность Семантического веба как инструмента, способного решать серьезные коммуникационные проблемы, причем прежде всего те из них, которые сейчас отнимают у нас больше всего времени: усовершенствование возможностей поиска, сортировки и классификации информации. Тем или иным способом, но лицо веба непременно изменится, и он вновь предложит нам новые возможности для общения и взаимодействия.

Никто не спорит, что развитие идей Семантического веба только началось. Однако на разработчиков глобальная картина не производит впечатления, если ее нельзя заставить работать. На сегодня главным вкладом в осуществление целей Семантического веба стал язык XML. Высвобождая информацию из непроницаемых, нерасширяемых форматов, XML являет собой универсальный синтаксический фундамент, на котором могут строиться решения проблем представления данных и отношений между ними. О XML мы подробно писали в статье "Вавилонские проблемы XML" (см. "Сетевой журнал", №1/2001). Поэтому здесь мы остановимся на других технологиях, являющихся ключевыми для этого шага развития Семантического веба. Это XHTML, XSLT и RDF.

XHTML и XSLT: потенциал простых технологий

Как ни удивительно, мощным инструментом Семантического веба является HTML собственной персоной, а точнее его расширение - XHTML (Extensible HTML). Большинство людей знакомо с "мета"-ярлыками, которые могут быть использованы для запечатления метаданных о документе в целом. Хотя они, как правило, не используются в сегодняшнем вебе, все же XHTML предлагает несколько возможностей внедрения семантических подсказок в разметку, что позволяет машинам воспринимать содержание веб-страницы не только как текст. Эти инструменты оперируют атрибутами класса, чаще всего используемыми с таблицами стилей. Их строгое применение может позволить машине извлекать данные со страницы, предназначенной для человеческого восприятия.

Семантический веб - это веб не для людей, а для машин.

В то время как ASP-компании размышляют о добавлении SOAP (Simple Object Access Protocol) и других подобных интерфейсов к своим системам для предоставления удаленного доступа к приложениям, XHTML представляет им возможность избежать бремени поддержания двух интерфейсов (браузера и SOAP) путем внедрения машинно-считываемой информации непосредственно в HTML. Ценность и удобство простых веб-технологий еще не исчерпали своего потенциала.

Когда дополнительная информация внедрена в HTML-страницу, программе необходимо преобразовать ее в нужный формат. И здесь может пригодится другая технология W3C - XSLT (Extensible Stylesheet Language Transformations), расширяемые стилевые таблицы для преобразования языков. В общем смысле XSLT обеспечивает преобразование данных с XML-разметкой, созданной с использованием одного словаря, в простой текст, обычный HTML, или в данные с XML-разметкой, использующей любой другой словарь. Технология XSLT способна выделить и преобразовать дополнительные данные, внедренные с помощью XHTML. Она представляет собой отличный мост между старой HTML-технологией и зарождающимися XML-приложениями Семантического веба.

Хотя XHTML и XSLT достаточно ограничены в возможностях, их использование позволяет веб-разработчикам добавлять семантическую информацию при минимуме дополнительных усилий. Поступали предложения внедрить внутрь HTML-страниц RDF, но техника использования XSLT выглядит гораздо привлекательнее и проще. Мало кто хочет учить RDF, и это становится барьером для создания семантически богатых страниц.

RDF: сеть по тройкам

Эффективность данной информационной модели вне всяких сомнений, однако предлагаемый W3C синтаксис RDF-модели, который опирается на синтаксические спецификации XML (этот вариант называется RDF/XML), по мнению многих, крайне неуклюж. Сейчас предлагаются другие синтаксисы, например, RDF-модели могут быть реализованы с использованием SOAP-правил. Если верно, что вся информация в сети может быть описана посредством RDF-троек, то синтаксис особого значения не имеет. Однако большие вопросы у специалистов вызывают универсальные идентификаторы URI.

Если у нас есть информационная модель, то появляется необходимость в описании характеристик модулируемых объектов. Например, мы хотим сказать, что у "Контакта" должны быть характеристики - имя, роль и организация. Здесь-то и начинают работать RDF-схемы - они определяют RDF-словарь, который может быть использован для определения "Контакта". Это позволяет всем пользователям ресурса типа "Контакт" иметь общие ожидания его характеристик и отношений с ресурсами прочих типов.

RDF-схемы немного отличаются от XML-схем структуры документов (таких, как DTD или XML Schema) тем, что они определяют не разрешенный синтаксис, а вместо этого классы, характеристики и их взаимосвязи: они действуют напрямую на уровне информационной модели, а не на синтаксическом уровне. В масштабах всего веба ключевой технологией являются именно RDF-схемы, поскольку они позволяют машинам выводить собственные умозаключения по поводу информации, собранной в Сети.

Сложнейшей проблемой в этой области является не какая-либо сетевая технология, а непосредственно само формальное описание объектов и их взаимоотношений, т. е. то, что называется онтологией. Пока отсутствуют индустриальные онтологии для, допустим, автомобильных деталей, будут существовать ограничения для использования Семантического веба в сфере автомобильного производства. Такие организации, как Dublin Core Metadata Initiative, уже некоторое время занимаются разработкой подобных словарей и добились определенного прогресса в отношении как самих онтологий, так и инструментов управления ими. Фактически сейчас уже идет процесс по продвижению RDF-схем еще на шаг вперед в определении онтологий. MIT/LCS приступил к разработке языка описания онтологий DAML (DARPA Agent Markup Language). Его название можно перевести как "язык разметки DARPA-агента", что, памятуя о военном предназначении DARPA, звучит несколько угрожающе.

Идеи Семантического веба уже вызвали немалый шум в сообществе XML-разработчиков, и этот процесс, несомненно, будет продолжаться. К тому же за последние полгода резко повысилась активность W3C и MIT/LCS в области Семантического веба и заметно увеличился интерес сообщества к RDF. Споры ведутся о пользе этой технологии, сложности использования RDF и т. д. Создание семантически богатых документов - сравнительно несложное дело, усилия уходят в основном на сбор, сортировку и уточнение данных. Несмотря на простоту связки XHTML/XSLT отправной точкой для Семантического веба пока что остается RDF. Однако идея Семантического веба - веба, доступного для машинного чтения, - может быть осуществлена с помощью очень многих технологий. И хотя некоторые жалуются на отсутствие четкого определения Семантического веба, его поистине глобальный подход в полной мере отражает то незаметное, но радикальное воздействие, которое он окажет на Сеть.

Эта концепция была принята и продвигается Консорциумом W3. Для её внедрения предполагается создание сети документов, содержащих метаданные о ресурсах Всемирной паутины и существующей параллельно с ними. Тогда как сами ресурсы [2] предназначены для восприятия человеком, метаданные используются машинами (поисковыми роботами и другими интеллектуальными агентами) для проведения однозначных логических заключений о свойствах этих ресурсов.

Содержание

Основная идея

Семантическая паутина — это надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в ней информацию более понятной для компьютеров. Машинная обработка возможна в семантической паутине благодаря двум её важнейшим характеристикам:


Граф визитной карточки основателя Википедии в формате RDF. Все элементы этого графа (как узлы, так и дуги) являются

Критика

Практическая реализуемость

Несмотря на все преимущества, предоставляемые семантической паутиной в случае её внедрения, существуют сомнения в возможности её полной реализации.

Дублирование информации

Необходимость описания метаданных так или иначе приводит к дублированию информации. Каждый документ должен быть создан в двух экземплярах: размеченным для чтения людьми, а также в машинно-ориентированном формате. Этот недостаток семантической паутины был главным толчком к созданию так называемых микроформатов и языка RDFa. Последний является вариантом языка RDF и отличается от него тем, что не определяет собственного синтаксиса, а предназначен для внедрения в XML-атрибуты XHTML-страниц.

Реализация

Языки описания


Техническую часть семантической паутины составляет семейство стандартов на языки описания, включающее XML Schema, RDF, RDF Schema, OWL, а также некоторые другие. Располагая их в порядке повышения уровня абстракции, реализуемого тем или иным языком, получаем:

  • XML Schema определяет ограничения на структуру XML-документа. Стандартный синтаксический анализатор языка XML в состоянии проверить произвольный XML-документ на соответствие его структуры так называемой схеме документа, описанной в XML Schema.
  • RDF представляет собой простой способ описания экземплярных данных в формате субъект-отношение-объект, в котором в качестве любого элемента этой тройки используются только идентификаторы ресурсов. Существует стандартизованное отображение этих троек на XML-документы предопределённой структуры (т. е. консорциумом W3 определена схема XML-документов, содержащих RDF-описания), а также на другие форматы представления (например, в нотацию N3).
  • RDF Schema описывает набор атрибутов (здесь их точнее назвать отношениями), таких, как rdfs:Class , для определения новых типов RDF-данных. Языком поддерживается также отношение наследования типов rdfs:subClassOf .
  • OWL расширяет возможности по описанию новых типов (в частности, добавлением перечислений), а также позволяет описывать новые типы данных RDF Schema в терминах уже существующих (например, определять тип, являющийся пересечением или объединением двух существующих).

Логический вывод

Форматы описания метаданных в семантической паутине предполагают проведение логического вывода на этих метаданных, и разрабатывались с оглядкой на существующие математические формализмы в этой области. Математическое обоснование тех или иных конструкций языка описания необходимо для проведения заключений о свойствах программ, обрабатывающих данные в этом формате.

Простая структура предикатов языка RDF, в свою очередь, позволяет использовать при его обработке опыт из теорий логических баз данных, логики предикатов, и т. д.

Проекты

Дублинское ядро

RSS (версий 0.90 и 1.0)

Помимо недостатков, RSS унаследовал и все достоинства форматов из семейства семантической паутины: гибкость RSS позволяет использовать его не только для проверки на наличие новой информации на регулярно обновляющихся сайтах, но и для подкастов, и торренткастов (см. Broadcatching).

Заметим, что формат RSS версии 2.0, хотя и не является форматом, основанным на RDF, позволяет внедрение произвольного XML-содержимого, находящегося в собственных пространствах имён XML. Это позволяет использовать RDF-описания также и в нём (используя пространство имён rdf ).

Семантические веб-сервисы

В то время как совокупность ресурсов и их метаданных можно считать статической частью семантической паутины, её динамическую часть представляют т. н. семантические веб-сервисы — законченные элементы программной логики с однозначно описанной семантикой, доступные через Интернет и пригодные для поиска, композиции и выполнения.

Технически, семантический веб-сервис отличается от обычного веб-сервиса наличием не только описания интерфейса (обычно на языке типов данных, передаваемых сервису, возвращаемых значений и генерируемых ошибок, но и семантического описания всех его характеристик. Заметим, что дублирования данных, упомянутого в числе недостатков семантической паутины, здесь не происходит: WSDL-описания изначально были предназначены для машинной обработки.

Потенциальная выгода от использования семантических веб-сервисов заключается в возможности автоматического поиска (а также композиции) программными агентами подходящих сервисов для решения поставленных задач. Тем не менее, сложность этой задачи в её общей формулировке пока позволяет добиваться некоторых положительных результатов только в узкоспециализированных отраслях, явным образом выигрывающих от внедрения сервисно-ориентированной архитектуры, например в интеграции корпоративных приложений.

Читайте также: