Тип работы:
Предмет:
Язык работы:


Распределенный анализ и обработка содержимого документов для юридической фирмы

Работа №48263

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы63
Год сдачи2018
Стоимость4340 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
264
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 5
Глава 1. Системный анализ поставленной задачи 6
1.1 Интеллектуальный анализ и обработка текстов 6
1.2 Распределенные представления слов 8
1.3 Латентно - семантический анализ (Алгоритм LSA) 10
1.4 Технология word2vec 10
1.5 Алгоритм GloVe 14
1.6 Технология кластеризации по комитетам (алгоритм CBC) 17
1.7 Обработка крупных участков текста и свёрточные сети 23
1.8 Рекурсивные нейронные сети и синтаксическое разложение 26
1.9 Выводы 30
Глава 2. Разработка модуля обработки и анализа 31
2.1 Требования к разрабатываемому модулю 31
2.2 Распределенная модель обработки данных на основе сообщений 32
2.2.1 Концепция шаблона "распределенных рабочих" 32
2.2.2 Балансировка нагрузки 39
2.3 Выводы 47
Глава 3. Реализация предложенного метода обработки 48
3.1 Разработка распределенного словаря 48
3.2 Построение распределенного математического пространства 48
3.2.1 Построение матриц нормализованных форм слов и документов....48
3.2.2 Сингулярное разложение пространства значений 50
3.2.3 Проекция документов на пространство 51
3.3 Выводы 55
ЗАКЛЮЧЕНИЕ 56
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 57
ПРИЛОЖЕНИЕ А 58
ПРИЛОЖЕНИЕ Б

Задача обработки текстовой информации изложенных естественным языком в целом трудоемка, но очень перспективна как задача машинного обучения. Обработка текстовой информации, содержащейся в сотнях и тысячах документах, необходима для анализа данных, выявления тональности текста, определения точных данных содержащихся в тексте. Предполагается, что любой изложенный на естественном языке текст в документе состоит не просто из набора выражений или слов, а из некоторых тематических абзацев, которые раскрываются написанными словами [1, 2, 3].
Представив набор текстов как матрицу встречаемости слов в документах, можно искать интересующие темы с помощью методов разложения пространства матрицы. Для решения подобных задач существует большое множество различных алгоритмов и методов оптимизации, в частности тематическая модель вероятностного семантического анализа или модифицированный метод градиентного спуска. Но большинство методов из-за своей итерационной природы имеют схожие проблемы, как например остановка в локальных оптимумах и зависимость от начального приближения. Задача выявления скрытых тем предполагает участие человека для оценки качества модели по списку наиболее часто встречаемых слов в теме. На практике обученные модели часто сложны для интерпретации человеком из-за того, что некоторые темы непонятны, состоят из слишком большого числа общеупотребимых слов, имеют в себе слова из совершенно разных областей.
Одной из модификацией методов является поиск матриц с определённой структурой. Этого можно добиться, добавляя в задачу ограничения разреженности или декорреляции или более жёстких требований однозначного соответствия между темами и небольшим набором слов, что модифицирует оптимизируемый функционал и позволяет избежать локальных оптимумов с нежелательными значениями параметров. С другой стороны, добиться лучшего решения можно с помощью выбора хорошего начального приближения, избежав попадания в неудачную область параметров.
Целью данной работы является анализ и обработка содержимого документов для юридической фирмы. Этого можно достичь, применяя машинное обучение. В документообороте любой крупной юридической фирмы требуется определить тематику, тональность, содержание и достоверность изложенных текстов в подписанных документах. Для это необходимо привлекать большое количество юридически грамотных специалистов, что влечет финансовые траты фирме. Уменьшить эти затраты возможно с помощью обучения вычислительных моделей, которые будут анализировать и обрабатывать содержимое документов.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В выпускной квалификационной работе были рассмотрены следующие задачи:
- системный анализ поставленной задачи;
- разработка модуля обработки и анализа;
- реализация предложенного метода обработки.
Синтаксический разбор и распределенные представления слов - это основные этапы для многих задач обработки естественного человеческого языка. Как видно, существует множество методов и алгоритмов позволяющих осуществлять обработку текстов документов, с целью понимания их содержания и определения смысловой нагрузки обученным программным обеспечением.
Для осуществления поставленной задачи применим алгоритм CBC и метод синтаксического разложения.
Использование распределенной кластерной структуры реализованной в библиотеках Akka и Akka2 для языка программирования Scala позволяет реализовать систему по обработке и анализу данных текстовых документов для нужд юридической фирмы.
Рассмотренный способ построения рабочих структур, для решения задач распределенной обработки данных, с применением менеджера BalancingDispatcher, может быть развернут на разных узлах системы. Но это не единственная методика реализации. Она может быть скорректирована.
Использование алгоритмов сингулярного разложения матриц (алгоритм SVD) документов и алгоритма кластеризации по комитетам (CBC), и развертывание этих алгоритмов на рассмотренных в главе 2 программных распределенных "работниках", позволяет реализовать способ обработки и анализа текстов цифровых документов.



[1] Исаев Г. Н. Проектирование информационных систем: учеб. пособие / Г.Н. Исаев. - М.: Издательство «Омега-Л», 2013. - 424 с.: ил., табл.;
[2] Каляев И. А., Лохин В. М., Макаров И. М., Манько С. В., Романов М. П., Юревич Е. И. Интеллектуальные роботы: учебное пособие для вузов / под общей ред. Е.И. Юревича / И.А. Каляев, В.М. Лохин, И.М. Макаров и др. - М.: Машиностроение, 2007. - 360 с.: ил.;
[3] Акименко Т. А., Аршакян А. А., Будков С. А., Ларкин Е. В. Промышленный робот с информационной системой управления. // Известия Тульского государственного университета. №4. 2013.-133-138стр.;
[4] Николенко С., Кадурин Е., Архангельская Е. Глубокое обучение. - СПб.: Питер, 2018. - 480 с.: ил.;
[5] Свободная энциклопедия Википедия [Электронный ресурс] / URL: https://ru.wikipedia.org/wiki/Word2vec;
[6] Свободная энциклопедия Википедия [Электронный ресурс] / URL: https://ru.wikipedia.org/wiki/Рекуррентная_нейронная_сеть;
[7] Кун Р.,Ханафи Б.,Аллен Дж. Реактивные шаблоны проетирования. - СПб.: Питер, 2018. - 416 с.:ил.;
[8] Build Reactive Applications on JVM | Typesafe [Электронный ресурс] / URL: typesafe.com/activator/template/akka-distributed-workers;
[9] Build Reactive Applications on JVM | Typesafe [Электронный ресурс] / URL: typesafe.com/activator/templates#filter:akka
[10] Akka [Электронный ресурс] / URL: akka.io;
[11] Balancing Workload Across Nodes with Akka2 [Электронный ресурс]
/ URL: letitcrash.com/post/29044669086/balancing-workload-across-nodes-with-
akka-2;


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ