Тип работы:	Предмет:	Язык работы:

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТА НА ПРИМЕРЕ WEB-ПОРТАЛА REDDIT

Работа №	38184
Тип работы	Бакалаврская работа
Предмет	информатика
Объем работы	83
Год сдачи	2019
Стоимость	7300 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено	272

Не подходит работа?

Узнай цену на написание

Содержание

Введение 3
1. Постановка задачи 4
2. Алгоритм TextRank 4
2.1. Модель TextRank 5
2.2. Неориентированные графы 6
2.3. Взвешенные графы 7
2.4. Текст как граф 8
2.5. Извлечение предложений 9
2.6. Алгоритм Стеммер Портера 11
2.7. Определение английского стеммера 12
3. Анализ тональности комментариев 14
4. Reddit API 16
5. Реализация 19
5.1. Алгоритм TextRank 19
5.2. Анализ эмоциональной окраски 19
5.3. Reddit API 20
5.4. БД SQLite 20
5.5. Интерфейс 20
6. Эксперименты 24
6.1. Тестирование алгоритма TextRank 24
6.2. Данные с Reddit 36
7. Вывод 50
Заключение 51
Список литературы 52
Приложение

Введение

Количество электронной информации в интернете растет каждый день. В основном, она представлена в виде текста. Из него можно извлечь большую пользу. Особую ценность такая информация представляет для крупных компаний, но даже там не всегда находятся человеческие ресурсы для обработки большого количества дынных. Но сбор информации — это только начало, необходимо ее обработать и выделить самое важное. На помощь приходит такое направление, как обработка естественного языка. Одна из задач данного направления - автоматизированное обобщение текста (АОТ). АОТ помогает сжать текстовую информацию и предоставить ее кратко, с основными моментами исходного документа, для того чтобы упростить обработку огромного количества данных. При обобщении документа делается попытка создать репрезентативное краткое содержание всего документа, путем нахождения наиболее информативных предложений. Для АОТ существуют алгоритмы, разработанные в разное время. Они основываются на различном математическом аппарате и на других алгоритмах. Каждый из них имеет свои преимущества и недостатки. АОТ окажет огромное влияние на нашу жизнь в будущем, с ростом информационных источников и постоянно растущей издательской деятельности, эта технология просто необходима.
Помимо задачи автоматизированного обобщения, существует задача классификации данных. Решение этой задачи важно для анализа и оценки данных. Также к ней сводится ряд других задач, например: определение текстов по их тематике, эмоциональной окраски и др.
Решение задач автоматизированного обобщения и классификации должно быть результативным, а для этого необходимы реальные данные. Их можно получить путем парсинга html страниц, различных социальных сетей и информационных ресурсов. Но некоторые порталы предоставляют доступ для получения информации напрямую. Это очень удобно и позволяет получить актуальную информацию для анализа.
Данная работа посвящена реализации алгоритма TextRank для автоматизированного обобщения текста. А также прикладным задачам: получению данных с интернет-портала Reddit и определению эмоциональной окраски комментариев.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

Курсовые Статьи Диплом Рязань

Заключение

В этой работе был исследован алгоритм TextRank, использующий метод извлечения. Алгоритм был протестирован на реальных данных: сюжеты фильмов и сообщения с web-портала Reddit. Учитывая, что алгоритм работает только с текстом, не используя корпуса слов и глубокое обучение, он показал хорошие результаты и справился со своей задачей. Эксперименты показали, что при обобщении текстов, имеющих законченную историю, сжатие лучше проводить не более чем в два раза, т.к. теряются некоторые детали. Но если необходимо получить некоторую сводку из различных источников, или понять основные моменты, то степень сжатия уже зависит от того, насколько детализированный текст нужен.
На примере портала Reddit видно, как хорошо работает алгоритм, когда данные были взяты из разных сообщений на одну тему. Ситуация, где он может быть полезен - сбор информации с разных информационных ресурсов, и выделение самого важного. Конечно, TextRank не может конкурировать с алгоритмами, основанными на методе абстрактного обобщения. Но даже абстрактный метод не дает 100% результата. По моему мнению, данный алгоритм является конкурентоспособным и может быть использован, когда необходимо получить из огромного количества данных краткий текст, где собраны самые важные детали.

Литература

1. Силен, Д. Основы Data Science и Big Data. Python и наука о данных [Текст] / Д. Силен, А. Мейсман, А. Мохамед. - Санкт-Петербург: Питер, 2018. - 336 с.
2. Mihalcea, R. Textrank: Bringing order into texts [Текст] / R. Mihalcea, P. Tarau / Association for Computational Linguistics. - 2004. - С. 1 - 6.
3. The English (Porter2) stemming algorithm [Электронный ресурс]. - Режим
доступа: http://snowball.tartarus.org/algorithms/english/stemmer.html. - (Дата
обращения: 05.06.2019).
4. PRAW: The Python Reddit API Wrapper [Электронный ресурс]. - Режим
доступа: https://praw.readthedocs.io/en/latest/index.html. - (Дата обращения:
01.06.2019) .
5. Кашина О. А. Анализ данных. Конспект лекций [Текст] / Казань / 2018
6. Brin, S. The anatomy of a large-scale hypertextual Web search engine [Текст] / S. Brin, L. Page / Computer Networks and ISDN Systems. - 1998. - С. 1 - 7.
7. Алгоритм HITS и PageRank [Электронный ресурс]. - Режим доступа: https://ru.wikipedia.org/wiki/%D0%90%D0%BB%D0%B3%D0%BE%D1%80%D0 %B8%D 1%82%D0%BC HITS#%D0%90%D0%BB%D0%B3%D0%BE%D 1%80% D0%B8%D 1%82%D0%BC HITS %D0%B8 PageRank. - (Дата обращения:
29.05.2019)
8. Domingos, P. On the optimality of the simple Bayesian classifier under zero-one loss [Текст] / P. Domingos, M. Pazzani / Machine Learning. - 1997. - С. 103 - 137.
9. Lawrence, P. The PageRank Citation Ranking: Bringing Order to the Web [Текст] / P. Lawrence, S. Brin, R. Motwani, T. Winograd / Algorithms. - 1998. - С. 10 - 37.
10. Ландэ, Д. В. Навигация в сложных сетях: модели и алгоритмы (рус.) [Текст] / Д. В. Ландэ, А.А. Снарский, И.В. Безсуднов. - Москва: Интернетика, 2009. - 264 с.
11. Википедия [Электронный ресурс] / The Irony of Fate. - Режим доступа: https://en.wikipedia.org/wiki/The Irony of Fate. - (Дата обращения: 03.06.2019).
12. Википедия [Электронный ресурс] / Inception. - Режим доступа: https://en.wikipedia.org/wiki/Inception. - (Дата обращения: 03.06.2019).
13. Википедия [Электронный ресурс] / Titanic (1997 film). - Режим доступа: https://en.wikipedia.org/wiki/Titanic (1997 film) . - (Дата обращения: 04.06.2019).

КУПИТЬ

Работу высылаем на протяжении 30 минут после оплаты.

Заказать работу

Заявка на оценку стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (130850)

Новости

06.01.2018

Помощь студентам и аспирантам в выполнении работ от наших партнеров

Помощь в выполнении учебных и научных работ на заказ ОФОРМИТЬ ЗАКАЗ

дальше

»» Все новости

Статьи

»» Все статьи

Заказать работу

Заявка на оценку стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Логин
Пароль

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТА НА ПРИМЕРЕ WEB-ПОРТАЛА REDDIT

Тип работы

Бакалаврская работа

Предмет

информатика

ПУБЛИКУЕТСЯ ВПЕРВЫЕ

Просмотрено

272

Заказать работу

Каталог работ (130850)

Новости

Статьи

Заказать работу