Тема: Распределенный анализ и обработка содержимого документов для юридической фирмы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Системный анализ поставленной задачи 6
1.1 Интеллектуальный анализ и обработка текстов 6
1.2 Распределенные представления слов 8
1.3 Латентно - семантический анализ (Алгоритм LSA) 10
1.4 Технология word2vec 10
1.5 Алгоритм GloVe 14
1.6 Технология кластеризации по комитетам (алгоритм CBC) 17
1.7 Обработка крупных участков текста и свёрточные сети 23
1.8 Рекурсивные нейронные сети и синтаксическое разложение 26
1.9 Выводы 30
Глава 2. Разработка модуля обработки и анализа 31
2.1 Требования к разрабатываемому модулю 31
2.2 Распределенная модель обработки данных на основе сообщений 32
2.2.1 Концепция шаблона "распределенных рабочих" 32
2.2.2 Балансировка нагрузки 39
2.3 Выводы 47
Глава 3. Реализация предложенного метода обработки 48
3.1 Разработка распределенного словаря 48
3.2 Построение распределенного математического пространства 48
3.2.1 Построение матриц нормализованных форм слов и документов....48
3.2.2 Сингулярное разложение пространства значений 50
3.2.3 Проекция документов на пространство 51
3.3 Выводы 55
ЗАКЛЮЧЕНИЕ 56
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 57
ПРИЛОЖЕНИЕ А 58
ПРИЛОЖЕНИЕ Б
📖 Введение
Представив набор текстов как матрицу встречаемости слов в документах, можно искать интересующие темы с помощью методов разложения пространства матрицы. Для решения подобных задач существует большое множество различных алгоритмов и методов оптимизации, в частности тематическая модель вероятностного семантического анализа или модифицированный метод градиентного спуска. Но большинство методов из-за своей итерационной природы имеют схожие проблемы, как например остановка в локальных оптимумах и зависимость от начального приближения. Задача выявления скрытых тем предполагает участие человека для оценки качества модели по списку наиболее часто встречаемых слов в теме. На практике обученные модели часто сложны для интерпретации человеком из-за того, что некоторые темы непонятны, состоят из слишком большого числа общеупотребимых слов, имеют в себе слова из совершенно разных областей.
Одной из модификацией методов является поиск матриц с определённой структурой. Этого можно добиться, добавляя в задачу ограничения разреженности или декорреляции или более жёстких требований однозначного соответствия между темами и небольшим набором слов, что модифицирует оптимизируемый функционал и позволяет избежать локальных оптимумов с нежелательными значениями параметров. С другой стороны, добиться лучшего решения можно с помощью выбора хорошего начального приближения, избежав попадания в неудачную область параметров.
Целью данной работы является анализ и обработка содержимого документов для юридической фирмы. Этого можно достичь, применяя машинное обучение. В документообороте любой крупной юридической фирмы требуется определить тематику, тональность, содержание и достоверность изложенных текстов в подписанных документах. Для это необходимо привлекать большое количество юридически грамотных специалистов, что влечет финансовые траты фирме. Уменьшить эти затраты возможно с помощью обучения вычислительных моделей, которые будут анализировать и обрабатывать содержимое документов.
✅ Заключение
- системный анализ поставленной задачи;
- разработка модуля обработки и анализа;
- реализация предложенного метода обработки.
Синтаксический разбор и распределенные представления слов - это основные этапы для многих задач обработки естественного человеческого языка. Как видно, существует множество методов и алгоритмов позволяющих осуществлять обработку текстов документов, с целью понимания их содержания и определения смысловой нагрузки обученным программным обеспечением.
Для осуществления поставленной задачи применим алгоритм CBC и метод синтаксического разложения.
Использование распределенной кластерной структуры реализованной в библиотеках Akka и Akka2 для языка программирования Scala позволяет реализовать систему по обработке и анализу данных текстовых документов для нужд юридической фирмы.
Рассмотренный способ построения рабочих структур, для решения задач распределенной обработки данных, с применением менеджера BalancingDispatcher, может быть развернут на разных узлах системы. Но это не единственная методика реализации. Она может быть скорректирована.
Использование алгоритмов сингулярного разложения матриц (алгоритм SVD) документов и алгоритма кластеризации по комитетам (CBC), и развертывание этих алгоритмов на рассмотренных в главе 2 программных распределенных "работниках", позволяет реализовать способ обработки и анализа текстов цифровых документов.



