Тип работы:
Предмет:
Язык работы:


Автоматическое выявление социолингвистических данных на материале дневников проекта «Прожито»

Работа №144567

Тип работы

Дипломные работы, ВКР

Предмет

лингвистика

Объем работы108
Год сдачи2024
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
41
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 4
1 Социолингвистический анализ текстов: методы и подходы в составлении
портрета автора 9
1.1 Введение в социолингвистику и ее значение для анализа текстов 9
1.2 Социолингвистический портрет как лингвистический феномен 12
1.3 Дневниковые записи как источник лингвистических данных 14
1.3.1 Характеристика корпуса дневниковых записей «Прожито» 17
Выводы к главе 1 19
2 Классификация текстов с помощью методов машинного и глубинного
обучения 22
2.1 Бинарная и мультиклассовая классификация текстов 23
2.2 Методы предварительной обработки и векторизации текстов 25
2.3 Основы машинного обучения для классификации текстов 28
2.3.1 Модели обучения с учителем 29
2.3.2 Модели обучения без учителя 31
2.4 Основы глубинного обучения для классификации текстов 33
2.4.1 Сверточные нейронные сети 41
2.4.2 Рекуррентные нейронные сети 44
2.5 Оценка моделей классификации 48
Выводы к главе 2 49
3 Описание экспериментов по классификации социолингвистических
атрибутов 52
3.1 Сбор корпуса дневниковых записей 52
3.2 Предобработка текстов 53
3.3 Эксперименты по выделению признаков для моделей глубинного
обучения 56
3.4 Классификация дневниковых записей 60
3.4.1 Классификация дневниковых записей по полу авторов 62
3.4.2 Классификация дневниковых записей по возрастным группам
авторов 70
3.4.3 Классификация временного периода создания дневниковой записи
75
Выводы к главе 3 85
ЗАКЛЮЧЕНИЕ 88
СПИСОК ИСПОЛЬЗОВАНННЫХ ИСТОЧНИКОВ 94
ЭЛЕКТРОННЫЕ РЕСУРСЫ 100
ПРИЛОЖЕНИЕ А Примеры данных из выгруженного корпуса 101
ПРИЛОЖЕНИЕ Б Вспомогательные функции для создания общего корпуса текстов 104
ПРИЛОЖЕНИЕ В Вспомогательные функции для предобработки текстов 106
ПРИЛОЖЕНИЕ Г Вспомогательные функции для формирования векторных
представлений 109
ПРИЛОЖЕНИЕ Д Функция для поиска глаголов прошедшего времени с использованием морфонализатора 111

Задача составления профиля автора, социолингвистического портрета, призвана выявлять демографическую информацию об авторах текстов, такую как возраст, пол, уровень образования на основе анализа текста. Важность этой задачи неуклонно возрастает в современном мире, где анализ данных становится центральным элементом в стратегическом планировании и принятии решений. Профилирование авторов позволяет не только углубить понимание личности создателя текста, но и находить применение в самых разных областях: от правоохранительной деятельности и судебно­
медицинских экспертиз до маркетинга и персонализированной рекламы. Особенно велика ценность таких анализов при разработке систем, способных определять авторство анонимных или псевдонимных текстов.
Целью исследования является подбор методов и архитектур алгоритмов глубинного обучения, с наиболее высокой точностью предсказывающих скрытые атрибуты по тексту, такие как гендер, возраст автора и время создания записи. Объектом является связь особенностей языка и демографических признаков в дневниковых записях. Предмет - анализ связи между особенностями языка в дневниковых записях и такими признаками, как гендер, возраст авторов текстов и время создания записи. Для достижения поставленной цели исследования необходимо учитывать разнообразные факторы, влияющие на структуру и содержание текстов. Например, возраст автора может сказываться на выборе лексики, структуре предложений и общем стиле письма. Пол также может оказывать влияние на языковые особенности, женщины и мужчины могут выражать свои мысли и эмоции по- разному. Особое внимание уделяется изучению того, как особенности использования языка коррелируют с демографическими признаками авторов, и как эта информация может быть интегрирована в алгоритмы машинного обучения для создания точных и эффективных предиктивных систем. Примеры таких исследований включают анализ языковых особенностей в дневниках, публикациях в социальных сетях и других письменных источниках, что открывает новые возможности для научного сообщества, программ сохранения исторических и культурных текстов и бизнеса в оценке и моделировании поведенческих паттернов различных групп населения.
Исследование проводится на материале дневниковых записей проекта «Прожито»1 - цифрового архива личных документов из частных собраний. Корпус содержит записи более 9 тысяч авторов, начиная с XVIII столетия. Дневниковые записи представляют собой уникальный источник данных, отражающих индивидуальные мысли, эмоции и опыт каждого автора.
Для достижения цели были поставлены следующие задачи:
1. Исследовать вопрос социолингвистического портрета как феномен и специфику дневниковых записей как лингвистического источника;
2. Составить характеристику корпуса дневников проекта «Прожито»;
3. Изучить существующие решения в области бинарной и мультиклассовой классификации текстов в машинном и глубинном обучении;
4. Собрать корпус дневниковых записей проекта «Прожито» для обучения моделей машинного обучения;
5. Осуществить предобработку текстов для подачи в модель;
6. Провести сравнительный анализ различных подходов к выделению признаков и архитектур моделей на данных дневниковых записей для определения наилучшего метода;
7. Проанализировать результаты экспериментов и оценить производительность моделей;
8. Подготовить выводы о точности в предсказании скрытых атрибутов по тексту, о связи между языковыми особенностями и демографическими признаками и о подходящих алгоритмах для их предсказания.
В процессе достижения поставленной цели использовались следующие методы: моделирование для построения алгоритмов глубинного обучения, эксперимент для проверки эффективности моделей, сравнение различных подходов, статистический анализ и социолингвистический анализ. При описании материала использовался метод научного описания, включающий приемы классификации единиц, анализа, количественных подсчетов.
...

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Проведенное исследование по подбору методов и архитектур алгоритмов глубинного обучения, направленных на предсказание скрытых атрибутов по тексту, таких как гендер, возраст автора и время создания записи, позволило автоматически выявить важные связи между особенностями языка и демографическими признаками. Дневниковых записи из проекта «Прожито» являются ценным источником данных для исследований в области социолингвистики и машинного обучения. В процессе исследования были выполнены задачи по изучению социолингвистического портрета, сбору и предобработке текстов, сравнительному анализу различных подходов к выделению признаков и архитектур моделей, а также оценке производительности алгоритмов.
Социолингвистический портрет как методологический инструмент, позволяет глубже понять взаимодействие между языком и обществом, а дневниковые записи выступают важным источником для исследования языка в его естественном и «необработанном» виде. Использование машинного и глубинного обучения приносит новые методологические возможности, значимо расширяя возможности анализа текстов и интерпретации социальных различий.
Приведены и проанализированы основные модели машинного обучения, такие как логистическая регрессия и наивный байесовский классификатор, используемые для обучения с учителем, и алгоритм K-means для обучения без учителя. Описаны принципы построения и применения нейронных сетей, включая выбор активационных функций, методы нормализации и стратегии оптимизации, а также эффективные архитектуры для задач, связанных с пониманием контекста и последовательностей в тексте - одномерные сверточные и рекуррентные сети. Рассмотрены различные подходы к векторизации текстов, такие как Bag of Words, TF-IDF и Word Embeddings, показана важность правильного выбора методов для повышения точности классификации. Подчеркивается значимость глубокого обучения, особенно с использованием одномерных сверточных и рекуррентных сетей, для улучшения результатов классификации текстов. Внедрение современных подходов в конфигурацию нейронных сетей, включая нормализацию, регуляризацию и оптимизацию, является критическим для достижения высоких результатов. Ключевые метрики, такие как точность, полнота и F1- мера, помогают эффективно оценивать модели классификации текстов.
Был собран корпус, содержащий 2 139 дневников, 437 230 текстов, 39 544 413 токенов. Текст с максимальным количеством токенов содержал 9 855 единиц. Средняя длина предобработанных текстов составила 90 токенов.
Эксперименты по методам векторизации текста с влиянием отрезка анализа и шага разбиения на значение точности показали, что уменьшение длины отрезка анализа вело к снижению значений точности, в случае шага разбиения исходного текста на обучающие векторы уменьшение повышало значение точности. Также эксперименты с такими методами как Bag of Words и Word Emdeddings показали преимущество второго алгоритма из-за учета семантической информации, лучшей обработки редких слов и уменьшения размерности входных данных.
Лучшей нейросетевой моделью для предсказания гендера автора текста стала модель, комбинирующая архитектуры LSTM и ConvlD (87%). Значение точности работы логистической регрессии, выбранной базовой, составило 89%. Для задачи бинарной классификации была предложена эвристика с сохранением форм прошедшего времени, основанная на гипотезе поднятия точности в силу введения дневников чаще всего от первого лица, что является следствием сохранения маркера рода в русском языке. С помощью Pymorphy2 был написан морфоанализатор, позволяющий сохранить формы прошедшего времени из исходных текстов в предобработанных текстах. Несмотря на очевидные недостатки подхода, заключающиеся в явлении морфологической и синтаксической омонимии и в ошибках при автоматическом распознавании форм, точности моделей выросли примерно на 3%, что является хорошим результатом в условиях исходных высоких показателей точности близких к значениям 90%.
...


1. Батура Т. В. Методы автоматической классификации текстов // Программные продукты и системы. 2017. Т. 30. № 1. С. 85-99.
2. Белл Р. Социолингвистика: цели, методы и проблемы. [Пер. с англ.]. М.: Междунар. отношения. 318 с.
3. Богданова Е. В. Языковые особенности жанра дневника // Филологические науки. Вопросы теории и практики. 2008. №. 1-1. С. 28-33.
4. Бызов А. А. Интеллектуальный анализ текстов в социальных науках // Социология: методология, методы, математическое моделирование. 2019. №. 49. С. 131-160.
5. Галушкин А. И. Нейронные сети: основы теории. / А. И. Галушкин. Изд- во: Горячая линия. Телеком, 2012. 496 с.
6. Гольдберг Й. Нейросетевые методы в обработке естественного языка / пер. с англ. А. А. Слинкина. М. : ДМК Пресс, 2019. 282 с.
7. Евгеньева А. П. Малый академический словарь. М. : Институт русского языка Академии наук СССР. 1957-1984. URL: https://rus-academic- dict.slovaronline.com/ (дата обращения: 13.11.2023).
8. Жерон О. Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow. / О. Жерон. Вильямс, 2018. 688 с.
9. Зализняк А. А. Дневник: к определению жанра // Новое литературное обозрение. 2010. №. 106. С. 162-180.
10. Казанцев А. А., Прохоров М. В., Худякова П. С. Обзор подходов к классификации текстов актуальными методами // Экономика и качество систем связи. 2021. №. 1 (19). С. 57-67.
11. Кирилина А. В. Гендер и язык. Антология. М. : Языки славянской культуры, 2005. 624 с.
12. Крысин Л. П. Очерки по социолингвистике / Л. П. Крысин. М. : ФЛИНТА, 2021. 360 с.
13. Литературная энциклопедия: Словарь литературных терминов: В 2-х т. / Под ред. Н. Бродского, А. Лаврецкого, Э. Лунина, В. Львова- Рогачевского, М. Розанова, В. Чешихина-Ветринского. М.; Л. : Изд-во Л. Д. Френкель, 1925. URL: https://rus-literary-terms.slovaronline.com/ (дата обращения: 13.11.2023).
14. Лутошкина В. В. и др. Открытый электронный архив эго-документов “Прожито”: сохранение личных историй // Человек, сообщества, государства в социально-гуманитарных исследованиях : Сборник материалов XVIII Всероссийской (с международным участием) научной конференции студентов, магистрантов, аспирантов и молодых ученых / отв. ред. В. В. Расколец. 2023. № 18. С. 92-97.
15. Мельниченко М. А., Тышкевич Н. Б. "Прожито" от рукописи до корпуса: сбор, разметка, анализ дневниковых текстов // Цифровая гуманитаристика: ресурсы, методы, исследования. 2017. С. 134-137.
... всего 70 источников


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ