Тип работы:
Предмет:
Язык работы:


ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТА НА ПРИМЕРЕ WEB-ПОРТАЛА REDDIT

Работа №38184

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы83
Год сдачи2019
Стоимость7300 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
272
Не подходит работа?

Узнай цену на написание


Введение 3
1. Постановка задачи 4
2. Алгоритм TextRank 4
2.1. Модель TextRank 5
2.2. Неориентированные графы 6
2.3. Взвешенные графы 7
2.4. Текст как граф 8
2.5. Извлечение предложений 9
2.6. Алгоритм Стеммер Портера 11
2.7. Определение английского стеммера 12
3. Анализ тональности комментариев 14
4. Reddit API 16
5. Реализация 19
5.1. Алгоритм TextRank 19
5.2. Анализ эмоциональной окраски 19
5.3. Reddit API 20
5.4. БД SQLite 20
5.5. Интерфейс 20
6. Эксперименты 24
6.1. Тестирование алгоритма TextRank 24
6.2. Данные с Reddit 36
7. Вывод 50
Заключение 51
Список литературы 52
Приложение


Количество электронной информации в интернете растет каждый день. В основном, она представлена в виде текста. Из него можно извлечь большую пользу. Особую ценность такая информация представляет для крупных компаний, но даже там не всегда находятся человеческие ресурсы для обработки большого количества дынных. Но сбор информации — это только начало, необходимо ее обработать и выделить самое важное. На помощь приходит такое направление, как обработка естественного языка. Одна из задач данного направления - автоматизированное обобщение текста (АОТ). АОТ помогает сжать текстовую информацию и предоставить ее кратко, с основными моментами исходного документа, для того чтобы упростить обработку огромного количества данных. При обобщении документа делается попытка создать репрезентативное краткое содержание всего документа, путем нахождения наиболее информативных предложений. Для АОТ существуют алгоритмы, разработанные в разное время. Они основываются на различном математическом аппарате и на других алгоритмах. Каждый из них имеет свои преимущества и недостатки. АОТ окажет огромное влияние на нашу жизнь в будущем, с ростом информационных источников и постоянно растущей издательской деятельности, эта технология просто необходима.
Помимо задачи автоматизированного обобщения, существует задача классификации данных. Решение этой задачи важно для анализа и оценки данных. Также к ней сводится ряд других задач, например: определение текстов по их тематике, эмоциональной окраски и др.
Решение задач автоматизированного обобщения и классификации должно быть результативным, а для этого необходимы реальные данные. Их можно получить путем парсинга html страниц, различных социальных сетей и информационных ресурсов. Но некоторые порталы предоставляют доступ для получения информации напрямую. Это очень удобно и позволяет получить актуальную информацию для анализа.
Данная работа посвящена реализации алгоритма TextRank для автоматизированного обобщения текста. А также прикладным задачам: получению данных с интернет-портала Reddit и определению эмоциональной окраски комментариев.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В этой работе был исследован алгоритм TextRank, использующий метод извлечения. Алгоритм был протестирован на реальных данных: сюжеты фильмов и сообщения с web-портала Reddit. Учитывая, что алгоритм работает только с текстом, не используя корпуса слов и глубокое обучение, он показал хорошие результаты и справился со своей задачей. Эксперименты показали, что при обобщении текстов, имеющих законченную историю, сжатие лучше проводить не более чем в два раза, т.к. теряются некоторые детали. Но если необходимо получить некоторую сводку из различных источников, или понять основные моменты, то степень сжатия уже зависит от того, насколько детализированный текст нужен.
На примере портала Reddit видно, как хорошо работает алгоритм, когда данные были взяты из разных сообщений на одну тему. Ситуация, где он может быть полезен - сбор информации с разных информационных ресурсов, и выделение самого важного. Конечно, TextRank не может конкурировать с алгоритмами, основанными на методе абстрактного обобщения. Но даже абстрактный метод не дает 100% результата. По моему мнению, данный алгоритм является конкурентоспособным и может быть использован, когда необходимо получить из огромного количества данных краткий текст, где собраны самые важные детали.



1. Силен, Д. Основы Data Science и Big Data. Python и наука о данных [Текст] / Д. Силен, А. Мейсман, А. Мохамед. - Санкт-Петербург: Питер, 2018. - 336 с.
2. Mihalcea, R. Textrank: Bringing order into texts [Текст] / R. Mihalcea, P. Tarau / Association for Computational Linguistics. - 2004. - С. 1 - 6.
3. The English (Porter2) stemming algorithm [Электронный ресурс]. - Режим
доступа: http://snowball.tartarus.org/algorithms/english/stemmer.html. - (Дата
обращения: 05.06.2019).
4. PRAW: The Python Reddit API Wrapper [Электронный ресурс]. - Режим
доступа: https://praw.readthedocs.io/en/latest/index.html. - (Дата обращения:
01.06.2019) .
5. Кашина О. А. Анализ данных. Конспект лекций [Текст] / Казань / 2018
6. Brin, S. The anatomy of a large-scale hypertextual Web search engine [Текст] / S. Brin, L. Page / Computer Networks and ISDN Systems. - 1998. - С. 1 - 7.
7. Алгоритм HITS и PageRank [Электронный ресурс]. - Режим доступа: https://ru.wikipedia.org/wiki/%D0%90%D0%BB%D0%B3%D0%BE%D1%80%D0 %B8%D 1%82%D0%BC HITS#%D0%90%D0%BB%D0%B3%D0%BE%D 1%80% D0%B8%D 1%82%D0%BC HITS %D0%B8 PageRank. - (Дата обращения:
29.05.2019)
8. Domingos, P. On the optimality of the simple Bayesian classifier under zero-one loss [Текст] / P. Domingos, M. Pazzani / Machine Learning. - 1997. - С. 103 - 137.
9. Lawrence, P. The PageRank Citation Ranking: Bringing Order to the Web [Текст] / P. Lawrence, S. Brin, R. Motwani, T. Winograd / Algorithms. - 1998. - С. 10 - 37.
10. Ландэ, Д. В. Навигация в сложных сетях: модели и алгоритмы (рус.) [Текст] / Д. В. Ландэ, А.А. Снарский, И.В. Безсуднов. - Москва: Интернетика, 2009. - 264 с.
11. Википедия [Электронный ресурс] / The Irony of Fate. - Режим доступа: https://en.wikipedia.org/wiki/The Irony of Fate. - (Дата обращения: 03.06.2019).
12. Википедия [Электронный ресурс] / Inception. - Режим доступа: https://en.wikipedia.org/wiki/Inception. - (Дата обращения: 03.06.2019).
13. Википедия [Электронный ресурс] / Titanic (1997 film). - Режим доступа: https://en.wikipedia.org/wiki/Titanic (1997 film) . - (Дата обращения: 04.06.2019).

Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ