📄Работа №132317

Тема: КЛАСТЕРИЗАЦИЯ ЯЗЫКОВЫХ ВЫРАЖЕНИЙ В КОРПУСЕ ТЕКСТОВ НА ОСНОВЕ СТОХАСТИЧЕСКОГО РАНЖИРОВАНИЯ

📝

Тип работы Магистерская диссертация

📚

Предмет Филология

📄

Объем: 77 листов

📅

Год: 2016

👁️

4870 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

ВВЕДЕНИЕ
ГЛАВА 1. ОСНОВНЫЕ ИДЕИ И МЕТОДЫ КЛАСТЕРНОГО АНАЛИЗА
ГЛАВА 2. ЛИНГВИСТИЧЕСКИЕ ОСНОВАНИЯ АВТОМАТИЧЕСКОЙ КЛАСТЕРИЗАЦИИ ТЕКСТОВ ПО КЛЮЧЕВЫМ СЛОВАМ И КОНСТРУКЦИЯМ
ГЛАВА 3. АВТОМАТИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ ТЕКСТОВ В НОВОСТНОМ КОРПУСЕ С НАЗНАЧЕНИЕМ
КЛЮЧЕВЫХ СЛОВ – МЕТОК КЛАСТЕРОВ
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ

📖 Введение

В последние годы электронные корпуса становятся всё объемнее и разнообразнее, а количество информации в интернете увеличивается в геометрической прогрессии. Такой объем данных зачастую не поддается ручной обработке. Возникает естественная задача автоматически упорядочить коллекцию, объединяя в одну группу тематически близкие документы. Стандартные методы кластеризации, решающие данную задачу, не позволяют, однако же, определить тему той или иной группы. Если определять тему вручную, можно столкнуться с рядом проблем. Во-первых, для этого потребуется прочитать несколько документов из каждой группы – это далеко не всегда удобно. Во-вторых, очень часто автоматическая классификация, учитывающая внутренние свойства документов, не вполне согласуется с классификацией, выполненной человеком. Поэтому в качестве меток для каждого класса удобно использовать ключевые слова или выражения, характерные именно для соответствующего класса.
Цель данной работы – решение задачи автоматической кластеризации новостных документов и расстановка списка тематических меток для каждого класса. В качестве тематических меток выделяются не только ключевые слова, но и биграммные конструкции, при этом учитывается степень связи элементов каждой биграммы.
Традиционные методы выделения тематических меток словам, отвечающим сразу нескольким классам ставят меньший вес, чем словам, характерным исключительно для данного класса. Для новостных документов это не вполне отвечает интуитивному представлению иерархии ключевых слов: такие темы, как война в Сирии, должны, как нам кажется, иметь больший вес, поскольку задают контекст всего документа или кластера. Поэтому в работе предлагается новый, двухэтапный подход к составлению списка тематических меток.
Работа состоит из трех глав в соответствии с решаемыми задачами.
Первая глава посвящена кластеризации. В ней определяются понятия классификации и кластеризации, описываются наиболее используемые методы кластерного анализа и предлагаются различные метрики для оценки качества кластеризации. В последнем разделе дается общий обзор применения методов кластеризации в лингвистических задачах.
Вторая глава описывает лингвистический контекст нашего исследования – грамматику конструкций. Это молодая отрасль науки, изучающая сложным образом организованные объекты языка, функционирующие как единое целое, и возникающие в ходе взаимодействия и взаимопроникновения явлений морфологического, синтаксического, семантического и других уровней языка. Теория, развитая в работах А. Стефановича и Ст. Гриса, используется в данной работе при извлечении осмысленных биграммых меток. В следующих разделах главы обозреваются научные работы в области проставления тематических меток и выделения ключевых слов.
Третья глава содержит эксперимент, соответствующий поставленной цели. Эксперимент проводится в несколько этапов. На первом этапе производится разделение документов на два кластера. На втором этапе выделяются ключевые слова, характерные для каждого кластера. На третьем этапе полученные списки ключевых слов расширяются биграммными конструкциями, и полученные конструкции оцениваются по степени тематической направленности. На четвертом этапе после повторной кластеризации небольшим группам документов проставляются тематические метки.
Для кластеризации документов используются методы, реализованные в библиотеке Scikit-learnязыка Python. В ходе работы была написана программа, реализующая описанные эксперименты. Мы использовали наиболее популярные статистические критерии, необходимые для выделения ключевых слов и конструкций, описанные в монографии А.И. Кобзаря «Прикладная и математическая статистика».
Результаты, полученные в ходе выполнения данной работы, могут найти свое применение при разработке новостных порталов. Главная идея и отличительная особенность данной работы – двухэтапная кластеризация для выделения ключевых слов – основывается на идее условного разделения документов на два класса: «серьезные» и «несерьезные», лексика которых существенно отличается. Такое условие характерно именно для новостных корпусов.
Приступая к решению поставленных задач, отметим неоценимую помощь, оказанную доцентом кафедры математической лингвистики О.А. Митрофановой, при подготовке данной работы.

✅ Заключение

В данной работе была представлена автоматическая кластеризация документов с присвоением тематических меток. Для проведения экспериментов была написана компьютерная программа, позволяющая кластеризовать документы и выделять тематические метки из корпуса новостных текстов, используя множество тонких настроек алгоритма.
Мы считаем, что поставленная цель достигнута – документы кластеризованы, конструкции выделены, тематические метки расставлены. Развивая идеи Стефановича, мы смогли извлечь достаточно неплохие тематические конструкции, которые почти не требуют постобработки. Но это не значит, что на этом следует остановиться.
Полученные результаты можно назвать промежуточными и, в зависимости от дальнейшего направления работы, их можно адаптировать в ту или иную сторону, поэтому в программу уже заложена возможность тонкой настройки на всех уровнях работы.
В дальнейшем мы планируем приступить к разработке рекомендательных систем для сайта Рупостерс. После проведения дополнительных экспериментов и подготовки черновой версии алгоритма мы планируем связаться с руководителем портала и предложить внедрить алгоритм на сайт, но это потребует дополнительные ресурсы.
А данную работу можно считать оконченной.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

Новая философская энциклопедия в 4-х томах / под ред. Степина В.С. — М.: Ин-т философии РАН, Нац. обществ.-науч. фонд, Мысль, 2000—2001.
Энциклопедический словарь Брокгауза и Ефрона в 86 т. — СПб.АО «Ф. А. Брокгауз — И. А. Ефрон», 1890—1907.
Плюта В. Сравнительный многомерный анализ в экономических исследованиях — М.: Статистика, 1980.—152 с.
Терентьев П. В. Метод корреляционных плеяд / Вестник ЛГУ.—1959.—№ 9.— С. 137—141.
Trion R. G. Cluster analysis. — L.: Ann Arbor Edwards Bros. — 1939. — 139 p.
Мандель И.Д. Кластерный анализ — М.: Финансы и статистика, 1988 — 176 с.
Воронцов К.В. Машинное обучение (курс лекций) — публикация на сайте http://www.machinelearning.ru
Jain A., Murty M., Flynn P. Data clustering: A review // ACM Computing Surveys. — 1999. — Vol. 31, no. 3. — Pp. 264–323.
Лагутин М. Б. Наглядная математическая статистика. — М.: П-центр, 2003.
Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999.
Rosenberg A. and HirschbergJ. Detecting pitch accent using pitch-corrected energy-based predictors. — In Interspeech, 2007
Четвёркин И. И. Кластеризация оценочных слов по тональности на основе марковских цепей // Новые информационные технологии в автоматизированных системах. Вып. 16 / 2013.
Шмулевич, М. М., Пивоваров, В. С., Киселев,М. В. Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к анализу тематической структуры новостного потока, а также ее динамики. – Уральский федеральный университет, 2005
Aggarwal, CharuC., ChengXiangZhaiA survey of text clustering algorithms // Mining Text Data, 77–128. Springer, 2012.
Savova, Guergana, T. Pedersen, A. Purandare, A.Kulkarni Resolving ambiguities in biomedical text with unsupervised clustering approaches – University of Minnesota Supercomputing Institute Research Report, 2005
Schütze, H. Automatic word sense discrimination // Computational linguistics 24 / 1. – MIT Press, 1998. С. 97–123.
Navigli, R. Word Sense Disambiguation: A Survey // ACM Computing Surveys 41 (2). – ACM, 2009. C. 1–69.
Lin, D.; Pantel, P. Discovering word senses from text // 8th International Conference on Knowledge Discovery and Data Mining (KDD). - Edmonton, Canada, 2002. C. 613–619.
Lin, D. Automatic retrieval and clustering of similar words // 17th International Conference on Computational linguistics (COLING). - Montreal, Canada, 1998. C. 768–774.
Филлмор Ч. Дело о падеже; Дело о падеже открывается вновь. - В кн.: Новое в зарубежной лингвистике, вып. X. - М., 1981
Fillmore Ch.J. 1982c – Frame semantics // Linguistics in the morning calm: Selected papers from the SICOL-1981. – Seoul: Hanship, 1982. – P. 111- 137.
Fillmore, Ch. J.; Kay, P.; O’Connor, M. C. 1988. Regularity and idiomaticity in grammatical constructions: The case of LET ALONE // Language, 64.3, 501—538
Goldberg, A. 1995. Constructions: A Construction Grammar Approach to Argument Structure. Chicago: University of Chicago Press.
Stefanowitsch, A.; Gries, S. Th. 2003. Collostructions: investigating the interaction between words and constructions // International Journal of Corpus Linguistics 8.2, 209—43.
Gries, Stefan Th., Anatol Stefanowitsch 2004. Extending collostructional analysis: a corpus-based perspective on ‘alternations’. International Journal of Corpus Linguistics 9 (1). Pp. 97–129
Stefanowitsch, A., Gries, S. Th. 2005. Covarying collexemes // Corpus Linguistics and Linguistic Theory 1.1, 1—43.
Woolf B. The log likelihood ratio test [the G-test]. Methods and tables for tests of heterogeneity in contingency tables // Ann. HumanGenetics. 1957. V. 21. P. 397-409.
Кендалл М. Дж., Стьюарт А, Статистические выводы и связи. — М.: Наука, 1973.
Luhn H.P. A Statistical Approach to Mechanized Encoding and Searching of Literary Information. IBMJournalofResearchandDevelopment. 1957, vol. 1, no. 4, pp. 309–317.
Солтон Д. Автоматическое индексирование и реферирование // Динамические библиотечно-информационные системы. - Москва: Изд. Мир, 1979. - С. 90–132.
Соколов, А.Н. Внутренняя речь и понимание // Ученые записки государственного научно-исследовательского ин-та психологии. – М., 1941. - Т.2. - С. 99-146
Камшилова, О.Н. Малые формы научного текста: ключевые слова и аннотация (информационный аспект) //Известия Российского государственного педагогического университета им. А.И. Герцена. - 2013. - № 156. - С. 106-117.
Сахарный, Л.В. Набор ключевых слов как тип текста /Л.В. Сахарный, А.С. Штерн //Лексические аспекты в системе профессионально-ориентированного обучения иноязычной речевой деятельности. – Пермь: Перм. политехн. ун-т, 1988. - С. 34−51
Виноградова Н.В., Иванов В.К. Современные методы автоматизированного извлечения ключевых слов из текста // Информационные ресурсы России. – Москва : ФГБУ "Российское энергетическое агентство" Минэнерго РФ, 2015.
Шереметьева, С.О. Методы и модели автоматического извлечения ключевых слов / С.О. Шереметьева, П.Г. Осминин //Вестник Южно-Уральского государственного ун-та. - 2015. - № 1, т.12. - С. 76-81.
Абрамов, Е.Г. Подбор ключевых слов для научной статьи //Научная периодика: проблемы и решения. - 2011. - № 2. - С. 35−40.
Гринева, М. Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов /М. Гринева, М. Гринев //Труды Института системного программирования РАН. Т.16. - 2009. - С. 155-165.
БольшаковаЕ.И., Клышинский Э.С., Ландэ Д.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика – Москва, 2011
Баканова, Н.Б. Исследование ключевых слов как инструмент оптимизации управления электронными документами [Электронный ресурс] /Н.Б. Баканова, И.В. Усманова //Современные проблемы науки и образования: электрон. науч. журн. – 2014. - № 2.
Н.Э. Ефремова, Е.И. Большакова, А.А. Носков, В.Ю. Антонов Терминологический анализ текста на основе лексико-синтаксических шаблонов –Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегод. Междунар. конф. «Диалог‘2010». Вып. 9(16). - Москва: Изд-во РГГУ, 2010. - С. 124-129.
Маннинг, К.Д. Введение в информационный поиск: пер. с англ. – Вильямс, 2011
Рубцова, Ю.В. Методы автоматического извлечения терминов в динамически обновляемых коллекциях для построения словаря эмоциональной лексики на основе микроблоговой платформы Twitter // Доклады ТУСУРа. – Томск, 2014. - № 3(33). – С. 140-144
Лукашевич, Н.В. Комбинирование признаков для автоматического извлечения терминов /Н.В. Лукашевич, Ю.М. Логачев // Вычислительные методы и программирование. Т.11. - 2010. - С. 108-116.
Миронова Д.М. Автоматизированная классификация древних рукописей по степени текстовой близости (На материале 525 списков славянского Евангелия от Матфея XI-XVI вв.). Автореф. дис. канд. филол. наук. СПб., 2016.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (210830)

Статьи

»» Все статьи

Вход в личный кабинет