🔍 Поиск готовых работ

🔍 Поиск работ

МЕТОДЫ И ИНСТРУМЕНТАЛЬНЫЕ СРЕДСТВА ПОСТРОЕНИЯ СЕМАНТИЧЕСКИХ WEB-ПОРТАЛОВ

Работа №200609

Тип работы

Диссертация

Предмет

информатика

Объем работы190
Год сдачи2005
Стоимость700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
10
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 5
Глава 1. Порталы и семантические технологии 14
1.1. Анализ существующих подходов к реализации портала 14
1.1.1. Понятие портала и классификация порталов 14
1.1.2. Функции портала 17
1.1.3. Архитектура портала 20
1.2. Семантические технологии в порталах 23
1.2.1. Онтологический подход к представлению знаний 25
1.2.1.1. Понятие онтологии 26
1.2.1.2. Классификация онтологий 29
1.2.1.3. Языки описания онтологии 32
1.2.2. Семантические метаданные 35
1.2.2.1. Понятие семантических метаданных 35
1.2.2.2. Структура и языки описания семантических метаданных 37
1.3. Анализ существующих применений семантических технологий в
порталах 40
Выводы по главе 46
Глава 2. Исследование и разработка семантического ядра портала 47
2.1. Анализ вариантов использования онтологии 47
2.2. Место и функции семантического ядра портала 55
2.3. Сервер онтологий 61
2.3.1. Выбор языка описания онтологии 61
2.3.2. Определение онтологии, основанной на дескриптивной логике .... 64
2.3.3. Свойства языка OWL 67
2.3.4. Функции и структура сервера онтологий 71
2.4. Сервер семантических метаданных 74
2.4.1. Структура семантических метаданных 74
2.4.2. Функции и структура сервера семантических метаданных 78
2.5. Использование семантического ядра портала 80
Выводы по главе 82
Глава 3. Разработка методов и алгоритмов для семантического ядра портала 83
3.1. Состав и структура онтологической модели для использования в
семантическом портале 83
3.2. Метод формирования семантических метаданных 87
3.3. Метод вычисления семантической близости элементов онтологии 91
3.3.1. Вычисление семантической близости двух понятий 92
3.3.2. Вычисление семантической близости двух экземпляров 93
3.3.3. Вычисление семантической близости понятия экземпляру 96
3.3.4. Вычисление семантической близости экземпляра понятию 96
3.3.5. Вычисление семантической близости двух отношений 97
3.3.6. Вычисление семантической близости двух атрибутов 97
3.3.7. Вычисление близости конкретных значений 98
3.4. Метод вычисления близости семантических метаданных 99
3.5. Метод фильтрации множества кандидатов 103
3.6. Применение методов вычисления семантической близости и
фильтрации множества кандидатов 108
Выводы по главе 111
Глава 4. Проектирование, программная реализация и апробация семантического ядра портала 113
4.1. Проектирование и программная реализация семантического ядра портала 113
4.1.1. Проектирование и программная реализация сервера онтологий .. 114
4.1.2. Проектирование и программная реализация сервера семантических
метаданных 123
4.1.3. Вспомогательные функции 129
4.1.4. Степень программной реализации семантического ядра портала 130
4.2. Тестирование семантического ядра портала 131
4.2.1. Тестирование функции аннотирования объектов 131
4.2.2. Тестирование функции семантического поиска 135
4.2.3. Тестирование функции категоризации 141
4.2.4. Тестирование функции выработки рекомендации 142
4.3. Применение семантического ядра в порталах 146
4.3.1. Портал «Petroleum Engineers Virtual Network» 147
4.3.2. Портал «Корпоративная система управления знаниями» 150
Выводы по главе 153
ЗАКЛЮЧЕНИЕ 154
СПИСОК ЛИТЕРАТУРНЫХ ИСТОЧНИКОВ 156
ПРИЛОЖЕНИЯ 169
Приложение 1. Краткая характеристика порталов уровня предприятия ... 169 Приложение 2. Характеристики проектов по использованию семантических технологий в порталах 171
Приложение 3. Вычисление близости элементов семантических метаданных без учета наследования и с учетом наследования 174
Приложение 4. UML-диаграммы проектирования семантического ядра портала 178
Приложение 5. Состав и структура тестового рубрикатора документов .. 184 Приложение 6. Документы по апробации результатов диссертационного исследования 185


Совершенствование существующих и разработка новых подходов к сбору, хранению, обработке и распространению информации является неотъемлемой частью процесса развития информационных технологий и информационных систем (ИС). Необходимость такого совершенствования во многом обусловлена непрерывным ростом количества электронных документов и их доступности, что на ряду со слабой структурированностью информационных фондов осложняет управление информацией и работу пользователей с ней. Существующие подходы к работе с информацией становятся не достаточно эффективными.
Для решения проблемы совершенствования доступа к растущему объему информации и информационным услугам, предоставляемым многочисленными источниками информации, специалистами была предложена концепция Web-порталов. Web-портал является программной системой, которая призвана обеспечить унифицированный доступ к информации, хранящейся во множестве разнородных информационных источников. Web-портал структурирует информацию и предоставляет средства для ее поиска.
Различные виды Web-порталов разрабатываются и внедряются в России и за рубежом. Перспективность данного подхода к интеграции и структуризации информации отмечается аналитиками и подтверждается пользователями. Огромное число пользователей сети Интернет обращаются к услугам различных поисковых Web-порталов, таких как «Yahoo!»
(http://www.yahoo.com) или «Яндекс» (http://www.yandex.ru), а современные компании, такие как концерн Volkswagen, корейская вещательная корпорацию KOBACO или немецкая фармацевтическая корпорация Schering AG, внедряют [1] корпоративные Web-порталы, предлагаемые ведущими разработчиками данного класса программных продуктов.
Применение Web-порталов для интеграции источников информации и структуризации ее растущего объема поставило вопрос о повышении качества обработки информации в Web-порталах. Наиболее существенно проблема роста объема информации сказывается на качестве поиска в Web-порталах. Примером, демонстрирующим необходимость перехода на новый качественный уровень, является функционирование поисковых Web-порталов в сети Интернет. Обычно они предоставляют услуги двух типов: поиск по рубрикатору и полнотекстовый поиск. Если необходимая пользователю информация сосредоточена в какой-либо рубрике, то ему лучше воспользоваться возможностью просмотра этой рубрики, так как точность категоризации информации в рубрикаторе находится на очень высоком уровне. Это объясняется тем, что наполнение рубрикатора осуществляется вручную или полуавтоматически с участием модераторов Web-портала, которые учитывают смысл структурируемой информации. В свою очередь точность и полнота результатов полнотекстового поиска существенно ниже, чем у поиска по рубрикатору, так как информация обрабатывается без учета семантики информации. С ростом объема обрабатываемой информации возможность наполнения рубрикатора снижается - модераторы Web-портала не справляются с объемом информации. Если же пользователь обращается к полнотекстовому поиску, то проблема обработки большого объема информации возлагается на него самого - на поисковый запрос Web-портал выдает огромное количество результатов, среди которых пользователь должен дополнительно искать необходимую информацию. В настоящее время в Web-порталах информация обрабатывается на синтаксическом уровне, то есть без учета таких свойств естественного языка как синонимия, полисемия и омонимия. Это приводит к снижению качества обработки информации и в том числе к неудовлетворительным результатам поиска [2].
Для перехода на новый качественный уровень при обработке информации необходимо вести обработку на семантическом уровне, то есть учитывать ее смысл.
За последние несколько лет активное развитие получило направление в информационных технологиях, занимающееся проблемами учета семантики в рамках информационных систем. Это направление исследует семантические технологии, позволяющие создавать новый класс ИС. Созданные на основе семантических технологий ИС отличаются от традиционных тем, что:
• ИС при обработке информации в некоторой фиксированной предметной области использует знания из этой предметной области;
• знания предметной области выражаются явно - в виде модели (частично или полностью);
• модель выражает смысл терминов (понятий) предметной области через связи между ними;
• модель отражает различные точки зрения на предметную область.
Рассматриваемые в данном диссертационном исследовании Web- порталы являются многопользовательскими ИС, которые предоставляют унифицированный доступ к различным информационным источникам и программным приложениям. Web-порталы, как правило, обрабатывают большой объем информации. С учетом этого применение в рамках Web-портала новых подходов и методов к обработке информации имеет высокую практическую значимость, а исследование подходов и разработка методов построения Web- портала на основе семантических технологий являются актуальными.
В настоящее время исследования в области развития и внедрения семантических и портальных технологий ведутся как в России, так и за рубежом. Тем не менее, необходимо, констатировать значительный разрыв по количеству исследований в этой области между отечественным и зарубежным научным сообществом.
В качестве основополагающих исследований отечественных авторов нужно выделить [2-6]. Ряд работ по использованию семантических технологий поддерживается Российским Фондом Фундаментальных Исследований также, в том числе «Исследование принципов семантического поиска текстовой информации на основе использования интеллектуальных и статистических методов» (03-01-00572, Харин Н. П., МАДИ, Москва), «Инструментальные программные средства семантического поиска текстовой информации, использующие интеллектуальные и статистические методы» (04-07-90328, Михайловский О. В., РосНИИИТ и АП, Москва); осуществляется также поддержка проектов в области разработки порталов, например, «Технология разработки специализированных Интернет-порталов знаний по гуманитарным наукам» (04-01-00884, Загорулько Ю. А., ИСИ СО РАН, Новосибирск). К сожалению, результаты выполненных проектов недостаточно публикуются и с ними трудно ознакомиться в сети Интернет.
Более многочисленными и доступными в сети Интернет являются результаты исследований и внедрений семантических технологий в структуру Web-порталов, выполненных зарубежными учеными [7-18]. Среди них можно выделить такие крупные проекты как «OntoWeb: Ontology-based information exchange for knowledge management and electronic commerce» [16] или «ODESeW: Automatic generation of knowledge portals for intranets and extra- nets» [18].
В результате анализа выполненных исследований необходимо отметить их недостаточность в области использования семантических технологий для описания семантики контента объектов Web-порталов. В соответствии с [19] объект может быть рассмотрен в трех разных аспектах - структура, контекст и контент. В большинстве исследований семантические технологии применяются для описания контекста объекта, в то время как в Web- порталах значительный интерес представляет описание семантики объектов с точки зрения контента.
В рамках данного исследования анализируется отечественный и зарубежный опыт создания семантических Web-порталов и предлагается новый подход к использованию семантических технологий в Web-порталах.
Целью диссертационного исследования является разработка методов использования семантических технологий в Web-порталах для реализации информационных процессов в них с учетом семантики контента объектов.
Для достижения поставленной цели исследования необходимо решить следующие задачи:
• разработать архитектуру семантического ядра Web-портала;
• разработать методы семантического описания контента объектов Web- портала;
• разработать методы использования описаний объектов Web-портала для реализации его функций на семантическом уровне.
Объектом исследования являются технологии построения Web- порталов.
Предметом исследования являются подходы и методы использования семантических технологий в Web-порталах для реализации информационных процессов на семантическом уровне.
Методы исследования. В ходе диссертационного исследования были использованы модели и методы теории множеств, профессиональнологический анализ и обобщение, метод экспертных оценок, методы объектно-ориентированного проектирования и программирования.
Научная новизна результатов исследования заключается в следующем:
• разработан метод семантического описания объектов Web-портала с точки зрения контента, использующий предложенную автором структуру семантических метаданных;
• разработан метод вычисления семантической близости метаданных, основанный на известном методе определения сотипности;
• разработаны методы поиска, категоризации и формирования рекомендации объектов Web-портала с учетом семантики их контента, основанные на методе вычисления близости семантических метаданных;
• разработана архитектура семантического ядра Web-портала, реализующего функции описания семантики контента объектов, поиска, категоризации и предоставления рекомендаций.
Практическая значимость исследования заключается:
• в программной реализации разработанного автором семантического ядра Web-портала;
• в применении предложенных методов для разработки семантического Web-портала для современной IT-компании;
• в возможности использования созданного семантического ядра Web- портала в системах управления знаниями [20].
На защиту выносятся:
1. метод семантического описания объектов Web-портала;
2. метод вычисления семантической близости метаданных;
3. методы поиска, категоризации и формирования рекомендации объектов Web-портала;
4. архитектура семантического ядра Web-портала.
Апробация. Основные научные положения и отдельные результаты работы докладывались и обсуждались на следующих конференциях:
• Международная научно-практическая конференция студентов, аспирантов и молодых ученых «Современные техника и технологии 2003»;
• Международная научно-практическая конференция студентов, аспирантов и молодых ученых «Современные техника и технологии 2004»;
• Международная научно-практическая конференция «Современные средства и системы автоматизации 2004».
Предложенные подходы и методы были протестированы в процессе практической реализации Web-порталов. Результаты исследования использовались при разработке и реализации Web-портала для «Центра профессиональной подготовки специалистов нефтегазового дела» ТПУ и Web-портала системы управления знаниями компании «ЭлеСи».
Диссертационное исследование выполнялось в соответствии с проектом «Создание информационно-программной среды научно
образовательного комплекса Томска для работы со знаниями и объектами интеллектуальной собственности» (контракт № 2093 от 1.11.2002) в рамках Федеральной Целевой Программы «Интеграция науки и высшего образования России на 2002-2006 годы» и темой научно-исследовательской работы, проводимой по заданию Министерства образования Российской Федерации (регистрационный номер 1.38.99) «Исследование методов представления, структуризации и контекстного поиска явных и неявных знаний для построения систем управления знаниями».
Публикации. По теме диссертационного исследования опубликовано 9 печатных работ, в том числе одна в реферируемом издании [21]. Имеется свидетельство государственного координационного центра информационных технологий об отраслевой регистрации разработки «Web-портал для работы с явными и неявным знаниями организации» в Отраслевом фонде алгоритмов и программ (свидетельство №4608; авторы Тузовский А. Ф., Васильев И. А., Козлов С. В., Усов М. В.; дата выдачи 29.04.2005).
Личный вклад автора. Все результаты, составляющие основное содержание диссертации, получены автором самостоятельно. В опубликованных работах лично автором обоснованы варианты использования семантических технологий в информационных системах в общем [22] и в частности в Web-порталах [20, 23, 24], пояснены разработанные методы описания семантики объектов Web-портала и вычисления их семантической близости [21, 25], описано разработанное семантическое ядро Web-портала [21] и приведены варианты применения разработанных методов и алгоритмов в работе Web-порталов [21, 26, 27, 28].
Структура и объем диссертации. Диссертация состоит из введения, 4 глав, заключения, списка литературных источников из 117 наименований и 6 приложений. Содержит 56 рисунков и 36 таблиц.
В первой главе рассматривается понятие Web-портала и их классификация по различным критериям. На основании анализа описаний существующих Web-порталов определяются их отличительные особенности и предлагается обобщенная архитектура, включающая инфраструктуру и множество функциональных модулей. Для современных Web-порталов отмечается проблема увеличения объема обрабатываемой информации, снижающая качество информационных процессов. Обосновывается, что решение данной проблемы возможно путем использования семантических технологий. Анализируется текущее состояние развития семантических технологий и существующие проекты по их использованию в Web-порталах. На основании анализа отмечается доминирующая роль онтологических моделей для целей представления семантики информации и недостаточность исследований в области описания семантики объектов Web-портала с точки зрения контента.
Во второй главе анализируются и обобщаются существующие в литературе варианты использования онтологий в информационных системах, в общем. Предлагаются варианты использования онтологий для реализации информационных процессов в Web-портале с учетом семантики контента объектов. С целью создания семантического Web-портала предлагается структура семантического ядра портала, реализующего предложенные варианты использования онтологии и позволяющего обрабатывать информацию с учетом ее семантики. Семантическое ядро состоит из сервера онтологий и сервера семантических метаданных. Рассматривается структура и функции указанных серверов. Описывается разработанная структура семантических метаданных для представления семантики контента объектов Web-портала.
В третьей главе описываются разработанные автором методы использования онтологий, обеспечивающие реализацию информационных процессов в Web-портале с учетом семантики объектов. Обосновывается структура онтологий для обеспечения работы семантического ядра портала. Поясняется метод формирования семантических метаданных, позволяющий описывать семантику контента объектов. Приводится подробное описание разработанных методов вычисления семантической близости элементов онтологии и метаданных, позволяющих количественно оценить схожесть семантических описаний объектов Web-портала. Предлагаются варианты применения разработанных методов для реализации функций семантического поиска, категоризации и формирования рекомендаций.
В четвертой главе описывается программная реализация разработанного семантического ядра. Поясняются основные программные интерфейсы, классы и компоненты, включенные в реализацию сервера онтологий и сервера семантических метаданных. Излагается методика тестирования разработанных методов и полученные результаты тестирования. Описываются результаты внедрения разработанных методов, алгоритмов и соответствующего программного обеспечения при создании семантических Web-порталов различного уровня.
Автор выражает благодарность профессору Ямпольскому В. З. за внимание к работе, замечания и методическую помощь во многом способствовавшие улучшению качества окончательного варианта рукописи. Автор признателен доценту Тузовскому А. Ф. за ценные консультации и всестороннюю поддержку данного исследования.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Диссертация посвящена решению научно-технической задачи разработки методов и инструментальных средств для создания семантических Web-порталов. Разработанное по результатам исследований семантическое ядро портала, реализующее предложенные методы формирования и обработки семантических метаданных объектов портала, может служить основой для создания семантических порталов в различных предметных областях.
В ходе диссертационного исследования получены следующие основные результаты:
1. Выполнен анализ существующих подходов к разработке семантических порталов. Выявлена доминирующая роль онтологического подхода к созданию семантических порталов. Показано, что с помощью онтологий может решаться широкий круг задач повышения качества работы информационных систем.
2. Проведен анализ и обобщение возможных вариантов использования онтологий в информационных системах. Для реализации информационных процессов в портале с учетом семантики объектов предложены варианты использования онтологии.
3. Разработан состав и структура семантического ядра портала. Ядро состоит из сервера онтологий и сервера семантических метаданных. Функциональность семантического ядра портала основывается на логическом формализме представления знаний - дескриптивной логике. В соответствии с указанным формализмом выбраны языки записи онтологии и семантических метаданных для использования в семантическом ядре портала. Обоснована структура онтологии, обеспечивающая работу семантического ядра портала.
4. Разработан метод формирования семантических метаданных для создания описаний объектов портала. Разработаны методы вычисления семантической близости элементов онтологии и метаданных, формализующие использование понятия сотипности. Указанные методы применены в функциях семантического поиска, категоризации и формирования рекомендаций.
5. Выполнена программная реализация разработанного семантического ядра портала, составившая в общей сложности более 16 тысяч строк кода. Осуществлено тестирование программного кода на сгенерированном множестве семантических метаданных.
6. Разработанные структуры, методы и алгоритмы построения семантических Web-порталов, а также соответствующее программное обеспечение, внедрены в двух организациях (ЗАО «ЭлеСи», Центр профессиональной переподготовки специалистов нефтегазового дела ТПУ) при создании для них семантических порталов различного уровня


1. IBM case studies for WebSphere software [Электронный ресурс]. - Режим
доступа: http://www-
306.ibm.com/software/success/cssdb.nsf/customerVW?OpenView&Start=1& Count=1000&ExpandView&RestrictToCategory=wssoftware
2. Поляков В. Н. Интеллектуальная поисковая машина. Концептуальный проект // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2000 17-20 октября 2000 г. - Казань: изд-во «Сэлэт», 2000. - Выпуск 5. - С. 87-119.
3. Поляков В. Н., Бодров Д. А. Проблемы создания эффективных поисковых машин // Обработка текста и когнитивные технологии. Сборник научных статей. - 2002. - Выпуск 7. - С. 48-71.
4. Нариньяни А. С. Кентавр по имени ТЕОН: Тезаурус + Онтология // Труды международного семинара «Диалог'2001» по компьютерной лингвистике и ее приложениям. - 2001. - Том 1. - С. 184-188.
5. Россеева О. И., Загорулько Ю. А. Организация эффективного поиска на основе онтологий // Труды международного семинара «Диалог'2001» по компьютерной лингвистике и ее приложениям. - 2001. - Том 2. - С. 333342.
6. Боровикова О. И., Загорулько Ю. А. Организация порталов знаний на основе онтологий // Труды международного семинара «Диалог'2002» по компьютерной лингвистике и интеллектуальным технологиям. - 2002. - Том 2. - С. 76-82.
7. Mizoguchi R. A step towards ontological engineering // Proc. of the 12th National Conference on AI of JSAI. - 1998. - P. 24-31.
8. Borst W. N. Construction of engineering ontologies for knowledge sharing and reuse. PhD Thesis. University of Tweenty, Enschede, Netherlands. Centre for Telematica and Information Technology. - 1997. - 243 p.
9. Guarino N. Understanding, building and using ontologies // International Journal of Human-Computer Studies, February/March 1997. - Volume 46. - Issue 2-3. - P. 293-310.
10. Takeda H. Ontologies [Электронный ресурс]: презентация. - Режим доступа: http://www-kasm.nii.ac.jp/~takeda/lectures/soken/ontologies-for-
lecture04.pdf
11. Uschold M., Gruninger M. Ontologies: principles, methods and applications // Knowledge Engineering Review. - June 1996. - Volume 11(2). - P. 93-113.
12. Gruber T. R. Towards principles for the design of ontologies used for knowledge sharing // International Journal of Human-Computer Studies. - 1995. - Volume 43. - P. 907-928.
13. Studer R., Benjamins V. R., Fensel D. Knowledge engineering: principles and methods // Proc. of the conference on data and knowledge engineering. - 1998. - Volume 25. -Issue 1-2. - P. 161-197.
14. Gomez-Perez A. Evaluation of ontologies // International journal of intelligent systems. - 2001. - Volume 16(3). - P. 391-409.
15. Staab S., Angele J., Decker S. et al. Semantic community web portals // Proc. of the 9th international World Wide Web conference. - Amsterdam: Elsevier Science, 2000. - P. 473-491.
...117


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ