Введение 3
Глава 1. Постановка задачи 8
Глава 2. Теоретическая часть 9
2.1 Обзор алгоритмов кластеризации 9
2.2 Анализ системы признаков, заложенной в атласе 13
2.3 Выбор алгоритмов кластеризации и метрики в пространстве признаков 18
Глава 3. Программная реализация и исследование 24
3.1 Анализ особенности исходных данных 24
3.2 Алгоритм кластеризации транзакционных данных CLOPE 26
Описание алгоритма 26
Реализация алгоритма. „30
Результаты работы CLOPE. .„.34
3.3 Алгоритм кластеризации транзакционных данных ROCK 43
Описание алгоритма 43
Реализация алгоритма 48
Результаты алгоритма ROCK 51
3.4 Алгоритм k-медондов с метрикой на основе расстояния Лнвенштснна 65
Описание алгоритма ......65
Реализация 68
Результаты „69
3.5 Сравнение результатов 70
Заключение 72
Список литературы 74
Приложение
Филологи и, в целом, ученые рассматривают лингвистические различия, имеющиеся в языках различных народностей, в трех часто пересекающихся плоскостях: социальной, исторической и лингвистической. Социальная плоскость определяет эти различия как признак социальной идентичности. Историческая плоскость предполагает, что на протяжении некоторого времени становление лингвистических атрибутов происходило по-разному. Изучая лингвистические различия, особенно шаблоны необычных лингвистических особенностей, можно лучше понять старые формы языка, возможно, даже реконструировать шаблоны общего развития языка.
Эти плоскости, создавая единую картину о языке в целом, могут по- разному объяснять лингвистические различия. Для того, чтобы характеристика отражалась в лингвистической истории языка, она должна передаваться от одного поколения к другому.
Индивидуальные лингвистические характеристики различных конструкций одного и того же языка могут достаточно сильно отличаться в разных группах одного и того же этноса в зависимости от условий его проживания, влияния соседних этносов, истории его развития. При наличии существенных различий в языке выделяют диалекты и говоры. Важной задачей является изучение корреляции между языковыми различиями и географией проживания различных этнических групп населения.
Диалектометрия занимается количественным изучением и интерпретацией лингвистических данных. Методы, используемые в диалектометрии, восходят к задачам глубинного анализа данных (data mining), которые применяются в различных областях сферы жизнедеятельности человека.
Очень часто перед исследователями встают задачи описания структуры сложных объектов, характеризующихся большим числом признаков. Для
В настоящей работе рассматривается задача классификации диалектов и говоров татарского языка, используя методы диалектометрии, на базе лингвистических признаков, которые собирались в течение многих лет специалистами лингвистами и нашли отражение в атласе диалектов и говоров татарского языка.
Татарский язык широко распространен по всему миру. Территория наибольшего распространения языка - Республики Татарстан и Башкортостан. Кроме этого, татарский язык распространен и используется в некоторых районах следующих субъектов России: Марий Эл, Удмуртия, Чувашия, Мордовия, Челябинская, Оренбургская, Свердловская, Тюменская, Ульяновская, Самарская, Астраханская, Саратовская, Нижегородская, Пензенская, Рязанская, Тамбовская, Курганская, Томская область, Пермский край, а также широко распространен в отдельных районах Узбекистана, Казахстана и Киргизии.
Языковые атласы служат эмпирической базой данных, которая детально документирует большое количество диалектных контуров. Различные широко известные численные методологии классификации используются для извлечения и визуализации основной модели из огромного количества данных, найденных в языковых атласах. Довольно часто для классификации говоров и диалектов используется кластерный анализ.
Кластеризация представляет собой задачу разбиения заданного множества объектов на различные подмножества, называемые кластерами, таким образом, чтобы кластеры состояли из схожих по свойствам объектов, при этом объекты разных классов отличались. Эта задача является одной из фундаментальных в области интеллектуального анализа данных.
Цель кластеризации - получить разбиение на содержательные классы, при этом полученные кластеры должны отображать естественную структуру исходных данных. Предполагается получить классификацию объектов по группам таким образом, чтобы степень сходства двух представителей одной группы была максимальной и минимальной в противном случае.
При этом, поскольку отсутствует наилучший критерий качества кластеризации, существует много различных алгоритмов, которые решают одну и ту же задачу. Число кластеров, как правило, неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием. Результат кластеризации во многих алгоритмах существенно зависит от метрики, определяющей степень схожести или различия объектов, выбор которой обычно определяется экспертом и также чаще всего субъективен. В метрических пространствах “схожесть” или различие векторов, как правило, определяется через норму расстояния. При этом, может рассматриваться как непосредственно взаимное расстояние между векторами признаков, так и расстояние между такими векторами и некоторым формируемым кластером. Поэтому при использовании любого существующего алгоритма важно понимать его достоинства и недостатки, учитывать природу данных, с которыми он лучше работает.
Задача нахождения количества групп в множестве данных является одной из основополагающих и трудоёмких в кластерном анализе данных. Кластеризация применяется в очень широком спектре научных областей: статистика, финансовая математика, экономика, биология, оптимизация, в информатике для "интеллектуального" анализа данных, сегментации изображений, распознавания образов, сжатия данных и др.
В зависимости от особенностей конкретной задачи, кластеризация может иметь различные цели:
- определение структуры множества данных, путем разбиения его на группы схожих объектов;
- выделение объектов, не подходящих ни к одному из кластеров;
- упрощение работы с данными, когда рассматриваются не целые классы данных, а лишь типичные представители классов.
Цель данной работы состоит в автоматической классификации говоров татарского языка на базе электронного атласа татарских народных говоров и разработка системы для анализа качества алгоритмов кластеризации для выбранной системы признаков, а также анализ полученных результатов и их сравнение с экспертным вариантом, предложенным лингвистами ИЯЛИ АН РТ.
Составление атласа говоров того или иного языка, используя компьютерные технологии - очень актуальная и малорешенная в нашей стране проблема. Этому есть ряд причин:
1) Недостаточно данных по отдельным диалектам для исследования этого вопроса;
2) Не изучен вопрос, какой сфере языка надо отдать предпочтение при составлении данных, чтобы получить хорошие результаты: фонетике, морфологии, лексике или синтаксису языка; нет единого вопросника, который учитывает метрические характеристики языковых конструкций;
3) Сложность выполнения программы сбора информации по языковым явлениям в различных населенных пунктах; сложность поиска носителей диалектов в современном коммуникационном обществе, в котором наблюдается смешивание языковых свойств различных языков.
В некоторых странах подобные задачи уже решались. В ходе исследований изучался опыт зарубежных ученых по автоматической классификации говоров болгарского языка. Ее авторы - Питер Аутзагерс,
В главе 1 рассматриваются теоретические аспекты задачи кластеризации, дается постановка задачи. В главе 2 описаны используемые методы анализа алгоритмов кластеризации. В главе 3 описаны особенности программной реализации и архитектуры алгоритмов кластеризации, а также приведен сравнительный анализ полученных результатов. В разделе 4 резюмированы результаты дипломной работы. Приведен список использованной литературы, интернет-ресурсов и приложение, содержащее таблицы с данными о разбиении нашего множества объектов на кластеры в отдельных случаях, карты говоров и различные информационные таблицы, полученные и использованные в процессе исследования.
Целью данной работы является изучение возможностей применения методов многомерного статистического анализа к анализу информации по говорам татарского языка, собранной во время многолетних полевых экспедиций лингвистов ИЯЛИ АН РТ. В частности ставилась задача определения возможности применения собранных данных для автоматической кластеризации татарских говоров по множеству населенных пунктов, в которых проводилось анкетирование. Поскольку основная цель работы заключалась в оценке возможностей автоматических способов кластеризации, было принято решение ограничиться исследованием говоров в населенных пунктов в пределах Республики Татарстан. Именно эта часть атласа наиболее полно и разносторонне представляет географию основных говоров и диалектов татарского языка. Основная задача заключалась в классификации татарских говоров и диалектов по данному региону, используя анализ пространства языковых явлений, описанных в базе данных электронного атласа татарских говоров.
В дипломной работе были рассмотрены разные меры близости и алгоритмы кластеризации. Поскольку программа сбора материала была составлена в 1959 году и не предполагала возможности автоматической классификации говоров, достаточно затруднительно было построение подходящих метрик в пространстве языковых явлений.
Качество результатов разбиения на кластеры проверялось сравнением с экспертным разбиением множества населенных пунктов на кластеры, проведенным лингвистами ИЯЛИ АН РТ в электронной версии атласа татарских народных говоров.
1. X Guan, J You CLOPE: a fast and effective clustering algorithm for transactional data,
2. Sudipto Guha; Rajeev Rastogi; Kyuseok Shim. Rock: A Robust Clustering Algorithm for Categorical Attributes
3. Peter Houtzagers, John Nerbonne, Jelena Prokic. Quantitative and Traditional Classifcations of Bulgarian Dialects Compared. 2010.
4. John Nerbonne, Jelena Prokic. Recognizing Groups Among Dialects. 2009.
5. Daniel Huson, David Bryant. Application of Phylogenetic Networks in Evolutionary Studies. 2006.
6. Kaufman, L. Clustering by means of medoids, in Statistical Data Analysis Based on the I - Norm and Related Methods/ L. Kaufman, P. J. Rousseeuw, Y. Dodge, 1987. - C.405-416.
7. Tibshirani R., Walther G., Hastie T. Estimating the number of clusters in a data set via the gap statistic // Journal of the Royal Statistical Society. Ser. B. 63. 2001.-C.411-423.
8. Поляков B.H., Соловьев В.Д. Компьютерные модели и методы в типологии и компаративистике. 2006.
9. Салимов Ф.И., Рамазанова Д.Б., Пилюгин А.Г., Салимов Р.Ф. Электронная версия атласа татарских народных говоров// Вестник татарского государственно-гуманитарного педагогического университета, 2012, изд-во КГУ, с.205-210
10. Мандель И. Д. Кластерный анализ.— М.: Финансы и Статистика, 1988.
11. Gary Simons. Recognizing patterns of divergence and convergence in a matrix of lexicostatistic relations. Workpapers in Papua New Guinea Languages 21 107-134
12. В. И. Левенштейн. Двоичные коды с исправлением выпадений, вставок и замещений символов. Доклады Академий Наук СССР, 1965.