Тема: Классификации говоров татарского языка
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Постановка задачи 8
Глава 2. Теоретическая часть 9
2.1 Обзор алгоритмов кластеризации 9
2.2 Анализ системы признаков, заложенной в атласе 13
2.3 Выбор алгоритмов кластеризации и метрики в пространстве признаков 18
Глава 3. Программная реализация и исследование 24
3.1 Анализ особенности исходных данных 24
3.2 Алгоритм кластеризации транзакционных данных CLOPE 26
Описание алгоритма 26
Реализация алгоритма. „30
Результаты работы CLOPE. .„.34
3.3 Алгоритм кластеризации транзакционных данных ROCK 43
Описание алгоритма 43
Реализация алгоритма 48
Результаты алгоритма ROCK 51
3.4 Алгоритм k-медондов с метрикой на основе расстояния Лнвенштснна 65
Описание алгоритма ......65
Реализация 68
Результаты „69
3.5 Сравнение результатов 70
Заключение 72
Список литературы 74
Приложение
📖 Введение
Эти плоскости, создавая единую картину о языке в целом, могут по- разному объяснять лингвистические различия. Для того, чтобы характеристика отражалась в лингвистической истории языка, она должна передаваться от одного поколения к другому.
Индивидуальные лингвистические характеристики различных конструкций одного и того же языка могут достаточно сильно отличаться в разных группах одного и того же этноса в зависимости от условий его проживания, влияния соседних этносов, истории его развития. При наличии существенных различий в языке выделяют диалекты и говоры. Важной задачей является изучение корреляции между языковыми различиями и географией проживания различных этнических групп населения.
Диалектометрия занимается количественным изучением и интерпретацией лингвистических данных. Методы, используемые в диалектометрии, восходят к задачам глубинного анализа данных (data mining), которые применяются в различных областях сферы жизнедеятельности человека.
Очень часто перед исследователями встают задачи описания структуры сложных объектов, характеризующихся большим числом признаков. Для
В настоящей работе рассматривается задача классификации диалектов и говоров татарского языка, используя методы диалектометрии, на базе лингвистических признаков, которые собирались в течение многих лет специалистами лингвистами и нашли отражение в атласе диалектов и говоров татарского языка.
Татарский язык широко распространен по всему миру. Территория наибольшего распространения языка - Республики Татарстан и Башкортостан. Кроме этого, татарский язык распространен и используется в некоторых районах следующих субъектов России: Марий Эл, Удмуртия, Чувашия, Мордовия, Челябинская, Оренбургская, Свердловская, Тюменская, Ульяновская, Самарская, Астраханская, Саратовская, Нижегородская, Пензенская, Рязанская, Тамбовская, Курганская, Томская область, Пермский край, а также широко распространен в отдельных районах Узбекистана, Казахстана и Киргизии.
Языковые атласы служат эмпирической базой данных, которая детально документирует большое количество диалектных контуров. Различные широко известные численные методологии классификации используются для извлечения и визуализации основной модели из огромного количества данных, найденных в языковых атласах. Довольно часто для классификации говоров и диалектов используется кластерный анализ.
Кластеризация представляет собой задачу разбиения заданного множества объектов на различные подмножества, называемые кластерами, таким образом, чтобы кластеры состояли из схожих по свойствам объектов, при этом объекты разных классов отличались. Эта задача является одной из фундаментальных в области интеллектуального анализа данных.
Цель кластеризации - получить разбиение на содержательные классы, при этом полученные кластеры должны отображать естественную структуру исходных данных. Предполагается получить классификацию объектов по группам таким образом, чтобы степень сходства двух представителей одной группы была максимальной и минимальной в противном случае.
При этом, поскольку отсутствует наилучший критерий качества кластеризации, существует много различных алгоритмов, которые решают одну и ту же задачу. Число кластеров, как правило, неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием. Результат кластеризации во многих алгоритмах существенно зависит от метрики, определяющей степень схожести или различия объектов, выбор которой обычно определяется экспертом и также чаще всего субъективен. В метрических пространствах “схожесть” или различие векторов, как правило, определяется через норму расстояния. При этом, может рассматриваться как непосредственно взаимное расстояние между векторами признаков, так и расстояние между такими векторами и некоторым формируемым кластером. Поэтому при использовании любого существующего алгоритма важно понимать его достоинства и недостатки, учитывать природу данных, с которыми он лучше работает.
Задача нахождения количества групп в множестве данных является одной из основополагающих и трудоёмких в кластерном анализе данных. Кластеризация применяется в очень широком спектре научных областей: статистика, финансовая математика, экономика, биология, оптимизация, в информатике для "интеллектуального" анализа данных, сегментации изображений, распознавания образов, сжатия данных и др.
В зависимости от особенностей конкретной задачи, кластеризация может иметь различные цели:
- определение структуры множества данных, путем разбиения его на группы схожих объектов;
- выделение объектов, не подходящих ни к одному из кластеров;
- упрощение работы с данными, когда рассматриваются не целые классы данных, а лишь типичные представители классов.
Цель данной работы состоит в автоматической классификации говоров татарского языка на базе электронного атласа татарских народных говоров и разработка системы для анализа качества алгоритмов кластеризации для выбранной системы признаков, а также анализ полученных результатов и их сравнение с экспертным вариантом, предложенным лингвистами ИЯЛИ АН РТ.
Составление атласа говоров того или иного языка, используя компьютерные технологии - очень актуальная и малорешенная в нашей стране проблема. Этому есть ряд причин:
1) Недостаточно данных по отдельным диалектам для исследования этого вопроса;
2) Не изучен вопрос, какой сфере языка надо отдать предпочтение при составлении данных, чтобы получить хорошие результаты: фонетике, морфологии, лексике или синтаксису языка; нет единого вопросника, который учитывает метрические характеристики языковых конструкций;
3) Сложность выполнения программы сбора информации по языковым явлениям в различных населенных пунктах; сложность поиска носителей диалектов в современном коммуникационном обществе, в котором наблюдается смешивание языковых свойств различных языков.
В некоторых странах подобные задачи уже решались. В ходе исследований изучался опыт зарубежных ученых по автоматической классификации говоров болгарского языка. Ее авторы - Питер Аутзагерс,
В главе 1 рассматриваются теоретические аспекты задачи кластеризации, дается постановка задачи. В главе 2 описаны используемые методы анализа алгоритмов кластеризации. В главе 3 описаны особенности программной реализации и архитектуры алгоритмов кластеризации, а также приведен сравнительный анализ полученных результатов. В разделе 4 резюмированы результаты дипломной работы. Приведен список использованной литературы, интернет-ресурсов и приложение, содержащее таблицы с данными о разбиении нашего множества объектов на кластеры в отдельных случаях, карты говоров и различные информационные таблицы, полученные и использованные в процессе исследования.
✅ Заключение
В дипломной работе были рассмотрены разные меры близости и алгоритмы кластеризации. Поскольку программа сбора материала была составлена в 1959 году и не предполагала возможности автоматической классификации говоров, достаточно затруднительно было построение подходящих метрик в пространстве языковых явлений.
Качество результатов разбиения на кластеры проверялось сравнением с экспертным разбиением множества населенных пунктов на кластеры, проведенным лингвистами ИЯЛИ АН РТ в электронной версии атласа татарских народных говоров.



