Тип работы:
Предмет:
Язык работы:


Кластерный анализ говоров русского языка на основе больших лингвистических баз данных

Работа №53327

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы34
Год сдачи2017
Стоимость4380 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
112
Не подходит работа?

Узнай цену на написание


Введение
Часть 1. Общая формулировка
1.1. Определение
1.2. Предмет кластеризации
1.3. Этапы кластеризации
1.4. Нормализация данных
1.5. Алгоритмы кластеризации
1.6. Оценка кластеризации
Часть 2. Ход работы
2.1. Выбор алгоритмов кластеризации
2.2. Архитектура ПО
2.3. Кластеризация
Заключение

На сегодняшний день по-прежнему остается актуальной проблема сущности языка, его диалектов, особенностей. Многочисленные исследования посвящены данной теме. Русский язык, распространенный на огромной территории и дающий пеструю картину региональных языковых вариантов, еще долго останется предметом изучения диалектологии, несмотря на то, что под влиянием современной культуры происходит необратимый процесс унификации русского языка, нивелировки народных говоров.
Во многих регионах ведется работа над словарями и атласами, фиксирующими словарный состав местных говоров. Это формирует огромные массивы данных, требующие тщательного анализа и корректной интерпретации. На современном этапе развития технологий данная работа практически невозможна без применения компьютерных вычислений и обработки данных. Но разработка такого рода программ не является тривиальной задачей.
Применительно к данному классу задач можно выделить следующий стек технологий: нейронные сети, классификация, кластеризация и регрессия. Каждая из приведенных технологий решает свой спектр задач, но в сумме все они ориентированы на обработку и анализ данных. Алгоритмы классификации позволяют соотнести группу объектов с заранее заданными классами. Алгоритмы регрессии позволяют выявить зависимость между исследуемыми переменными. Алгоритмы кластеризации позволяют разбить исходную группу объектов на подгруппы, схожие по некоторым внешним характеристикам. Нейронные сети в свою очередь являются более сложным в работе инструментом, но позволяют решать более широкий спектр задач. Каждую из приведенных технологий можно в той или иной мере использовать в лингвистике, но данная дипломная работа затрагивает лишь кластерный анализ.
Почему затрагивается только данный стек технологий? Есть ли возможность решить поставленные задачи не прибегая к помощи озвученных выше алгоритмов? Да, такие технологии существуют, но являются узкоспециализированными. В качестве примера можно привести алгоритмы лемматизации и стемминга на основе известных словарей и корпусов, таких как: oDict, Национальный Корпус Русского Языка (НКРЯ), OpenCorpa и др. Суть этих алгоритмов состоит в анализе слов и предложений, но не годится для всеобъемлющей оценки признаков языка. С этой задачей прекрасно справятся алгоритмы кластеризации.
Целью данной дипломной работы является разработка инструмента кластеризации атрибутивных баз данных русских говоров. Конечный программный продукт позволит лингвистам без труда воспользоваться современными технологиями в области анализа данных и провести машинную сегментацию без особых усилий.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данной выпускной квалификационной работы было разработано программное обеспечение, позволяющее произвести кластеризацию лингвистических баз данных не обладая при этом специализированными знаниями. Все необходимые материалы для правильной кластеризации, специализированные именно на данных проекта Х, представлены в справке программы “Help”. Благодаря этом приложение теперь каждый желающий, интересующийся лингвистикой и работой проекта Х, сможет воспользоваться им без особого труда.
Стоит отметить, что у разработанного приложения есть место для развития. Исходный код программы может быть взять за основу более крупного сервиса, или же использовать его модульно, что является неотъемлемым плюсом выбранной архитектуры.
В работе были рассмотрены самые популярные алгоритмы кластеризации данных, был проведен их сравнительный анализ, выявлены их сильные и слабые стороны.



Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ