Тема: Оценка влияния уровня читабельности текста на популярность отзывов в сервисе «Кинопоиск»
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Теория и методология исследования роли читабельности в оценке популярности отзывов 6
1.1 Определение понятия «читабельность» 6
1.2 Обзор формул, использующихся для оценки удобочитаемости 8
1.3 О сервисе «Кинопоиск» 16
1.4 Рецензии 18
1.5 Понятие коэффициента корреляции 20
1.5.1 Коэффициент корреляции Пирсона 21
1.5.2 Коэффициенты корреляции Спирмена и Кендалла 22
Глава 2. Эксперимент по оценке влияния уровня читабельности на популярность отзывов в сервисе «Кинопоиск» 24
2.1. Общее описание эксперимента 24
2.2. Сбор корпуса отзывов и его метаразметка 24
2.3. Разметка сложности собранных отзывов 25
2.4. Проблемы при сборе корпуса и их решение 29
2.5. Описание корпуса текстов 32
2.6. Расчет корреляции 36
2.7. Общие показатели корреляции 38
2.8. Частные показатели корреляции 40
2.9. Алгоритм выделения признаков 46
2.10. Поиск аномалий в зависимости цепи «популярность» – «читабельность» 48
2.11. Анализ результатов 50
Заключение 52
Список литературы 55
Приложение 1. Листинг программы сбора корпуса 58
Приложение 2. Примеры аномальных рецензий 62
📖 Введение
Было разработано более 200 формул для определения индекса удобочитаемости текста. Основная часть формул работает со статистическими и синтаксическими метриками текста (длина слова, количество слогов, средние показатели), однако некоторые формулы используют иные метрики, например, количество «трудных» слов, а также индекс абстрактности лексики.
Данная работа нацелена на определение степени влияния уровня удобочитаемости текстов рецензий на кинофильмы на сервисе «Кинопоиск». В работе проверяется, связано ли значение индекса удобочитаемости по пяти формулам (указанных ниже) с уровнем популярности отзывов. Наличие или отсутствие такой связи позволит оценить, насколько релевантно использование формул для определения индекса удобочитаемости текстов в данном дискурсе в целом.
Цель работы: определить, связан ли уровень удобочитаемости по существующ,им метрикам с популярностью отзывов на сервисе «Кинопоиск».
Для достижения поставленной цели были поставлены следующие задачи:
• изучить существующие метрики для определения индекса читабельности текста;
• собрать корпус рецензий на фильмы в сервисе «Кинопоиск»;
• провести статистический анализ полученных данных;
• провести корреляционный анализ читабельности собранных отзывов;
• проанализировать полученные результаты.
Материалом для исследования стали более трех тысяч текстов рецензий, написанных пользователями к фильмам на русском языке в сервисе «Кинопоиск».
Актуальность работы заключается в необходимости определения
релевантности использования метрики удобочитаемости текстов в контексте ее
влияния на популярность рецензий на кинофильмы в сервисе «Кинопоиск».
Новизну работы обуславливает отсутствие исследований,
сконцентрированных на выявлении зависимости между популярностью
пользовательских отзывов и их индексом удобочитаемости.
Структура работы: работа состоит из Введения, двух глав, Заключения, списка литературы и двух приложений. В первой главе рассматриваются теоретические предпосылки исследования. Вторая глава посвящена описанию проведенного эксперимента и анализу полученных в ходе работы результатов.
✅ Заключение
Материалом для исследования выступили более трех тысяч текстов рецензий, написанных пользователями к фильмам на русском языке в сервисе «Кинопоиск». Корпус отзывов был собран и размечен по ряду параметров, среди которых основные показатели для вычисления читабельности текста (длина слов, предложений; количество слогов, слов в тексте; средние показатели), которые были в дальнейшем использованы для определения индексов читабельности по пяти наиболее распространенным формулам:
• SMOG;
• ARI;
• Coleman-Liau;
• Flesch-Kinkaid;
• Dale-Chale.
Результаты вычислений также были занесены в корпус. Наконец, в таблицу были включены данные о популярности рецензий. Под популярностью в данной работе мы понимаем общий отклик пользователей на отзыв, то есть суммарное количество положительных и негативных отметок.
Далее мы провели корреляционный анализ, целью которого стало выявление зависимости между показателями индексов удобочитаемости рецензии и ее популярностью. Данный анализ был проведен при помощи коэффициентов Пирсона, Спирмена и Кендалла. Анализ показал отсутствие корреляций между удобочитаемостью отзыва, посчитанной по указанным формулам, популярностью.
В работе также был проведен анализ отзывов с помощью алгоритма выделения признаков (Геариге 8е1ес11оп), который опять же указал на отсутствие значимости такой метрики как удобочитаемость текста в контексте связи с популярностью рецензии на кинофильм.
Наконец, нами был выполнен поиск аномалий в связи «читабельность»-
«популярность». Было выявлено, что существует большое количество рецензий,
имеющих хорошие (низкие) показатели читабельности, при этом плохие (низкие)
показатели популярности. Более того, часто встречается и противоположная
ситуация, когда встречаются тексты с плохими (высокими) показателями
удобочитаемости, при этом имеющие хорошие (высокие) показатели
популярности.
Исследование показало, что использование указанных индексов
удобочитаемости текстов на русском языке в качестве метрики в контексте
популярности отзывов не совсем корректно, так как наблюдается отсутствие связи
между показателями читабельности и показателями отклика у отзыва. Мы
предполагаем, что причина данного явления может быть связана с отсутствием
разработанных и протестированных формул именно для русского языка.
Наконец, под сомнение была поставлена корректность работы используемого АР1, так как изначально данное программное обеспечение опиралось на формулы, используемые для исследования текстов на английском языке. Тем не менее, применение формул удобочитаемости в исследовании англоязычных текстов также не всегда может давать валидные результаты [4].
Полученный результат указывает на то, что формулы для определения индексов удобочитаемости текстов необходимо совершенствовать, в особенности, формулы, применяемые для определения читабельности текстов на русском языке. Для усовершенствования существующих (разработки новых коэффициентов на основе имеющихся «англоязычных» формул) или же создания новых формул необходимо проведения ряда исследований, в частности, с применением алгоритмов машинного обучения, а также психо- и нейролингвистических исследований вопроса простоты усваивания прочитанного текста реципиентом.





