Тема: Вопросно-ответные системы на основе обработки текстов на естественном языке с применением технологий распределенных вычислений
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 5
Обзор литературы 6
Глава 1. Подходы к построению вопросно-ответных систем 8
1.1. Подход на основе техник Information Retrieval 8
1.2. Подход на основе обработки естественных языков 11
1.2.1. Лямбда-исчисление в категориально-контекстных грам-матиках 11
1.2.2. Контекстно-категориальная грамматика, синтаксический
тип. 12
1.2.3. Контекстно-категориальная грамматика, семантический
тип. 15
1.2.4. Обощенный лексикон 17
1.2.5. Обучение 19
1.2.6. Обобщенный алгоритм обучения 24
Глава 2. Программный комплекс для построения вопросно-ответных систем 26
2.1. Cornell Semantic Parsing Framework 26
2.2. Фреймворк Akka 26
2.2.1. Акторная модель вычислений 27
2.2.2. Библиотеки и модули фреймворка Akka 30
2.2.3. Пример обработки сообщений актором во вреймворке Akka. 31
Глава 3. Разработка распределенного алгоритма обучения SPF. ... 33
3.1. Схема параллельного алгоритма обучения 33
3.2. Реализация параллельного алгоритма обучения 36
3.3. Сериализация в параллельном алгоритме обучения 38
3.4. Бенчмарки алгоритма 39
Заключение 41
Дальнейшая работа 42
📖 Введение
вопросно-ответные системы, голосовые помощники и всевозможные “умные ассистенты”. Как правило, в реализациях подобного рода проектов
имеется нечто общее, а именно — способность понимать информацию, поступающую от пользователя, и проводить ее анализ.
Очевидно, что раз подобные ассистенты являются массовыми продуктами, то должны обрабатывать информацию пользователя способом,
наиболее простым для последнего. Такими способами для пользователя
являются передача голосовых и текстовых команд на естественном языке,
носителем которого он является.
Получается, чтобы быть успешной на рынке, система должна уметь
обрабатывать сообщения на естественном языке, что является непростой
исследовательской и инженерной задачей. Наиболее яркими примерами подобных систем являются Siri от Apple, Cortana от Microsoft, Google now,
ask.com, IBM Watson и др.
На данный момент существует множество способов, с помощью которых достигается некоторое понимание пользовательских сообщений машиной. Эти способы грубо можно разделить на три группы:
• подходы, основанные на техниках information retrieval (IR based
approach),
• подходы, основанные на обработке естественных языков и баз знаний
(knowledge based approach),
• подходы, комбинирующие предыдущие две техники (и некоторые другие, например, deep machine learning).
3В настоящий момент наибольшее распространение получили IR based
системы, в силу многих причин: хорошее развитие аппарата математической статистики, внедрение mapreduce, и др. Но с другой стороны, более
перспективным направлением является подход на основе баз знаний, который и будет далее рассматриваться в данной работе.
Важной подзадачей задачи трансформирования сообщений на естественном языке в сообщения, понимаемые машиной, в системах с базами
знаний является задача отображения сообщения в логическую форму в
некоторых условных обозначениях. Это непростая задача. Ее основными
сложностями являются:
• сложная формализация задачи,
• плохо представленные данные для обучения,
• большие объемы вычислений.
Рассмотрим подробнее последний пункт. К сожалению, из-за особенностей естественных языков, а точнее в основном из-за присутствующих в
них неоднозначностей, задача построения системы с открытой предметной
областью (open-domain system), с некоторой относительно высокой точностью преобразующую сообщения на естественном языке в интерпретируемые машиной логические выражения, сильно усложняется. Поэтому строят
системы, основанные на базах знаний лишь в некоторой предметной области (domain-closed system). Это одна из многих причин большого количества вычислений: модификацию, обучение и тестирование систем необходимо проводить многократно для различных предметных областей.
Наличие подобных сложностей обусловливает актуальность данной
работы.
✅ Заключение
• произвести обзор предметной области;
• разработать распределенный существующего алгоритма обучения SPF
"на бумаге";
• обеспечить кроме количественоого роста (увеличения производительности алгоритма) качественный рост параллельной реализации;
• произвести тестирование разработанного алгоритма.
Поставленные задачи успешно решены. В данной работе рассмотрены возможности для параллелизации алгоритма обучения SPF. А также
представлена реализация распределенного алгоритма. Результатом работы
является достигнутое ускорение алгоритма при работе на нескольких машинах.



