Введение 2
Постановка задачи 4
Анализ существующих подходов 6
BTE 6
CRF 8
Web2Text 9
BoilerNet 10
Языковые модели 12
Практическая часть 16
Подготовка данных 16
Архитектура модели 19
Реализация модели 22
Результаты 24
Список литературы 25
В наше время объем информации растёт с огромной скоростью, за 5 лет с 2015-2020 годы количество информации, произведённой человечеством, выше, чем за всю предыдущую историю, и темпы роста только увеличиваются. Так уж вышло, что достаточно большая часть этой информации хранится в интернете, и рано или поздно появляется необходимость её обработать, однако тут появляется первая проблема: далеко не вся информация, доступная в интернете, может быть скачана в удобной для обработки и использования форме: в виде таблицы, текста и т.д. Как известно интернет состоит из web-страниц, и если мы захотим использовать как источник различные сайты, например новостные ресурсы или страницы со статьями, то обнаружим, что помимо основного содержимого на странице присутствует большое количество так называемого шаблонного контента, сюда относится навигация сайте, контекстная реклама, комментарии, ссылки на другие страницы и т.д., таким образом, прежде чем получить необходимые данные в чистом виде, придётся избавиться от всего шаблонного контента - это называется задачей удаления шаблонного контента, или задача извлечения основного содержимого.
Подходы к решению вышеописанной задачи начали появляться ещё в начале 2000-х с ростом популярности всемирной паутины, уже тогда на страницах начали размещать множество лишней информации, поэтому на сегодняшний день решений существует немало, от простых алгоритмов основанных на правилах, до сложных моделей, использующих глубокое обучение и большое количество признаков, генерируемых вручную. Однако я не нашёл подходов использующих языковые модели, крайне распространенные в сфере обработки естественных языков, для обработки текста, который содержит web-страница для дальнейшей его классификации, поэтому решил в качестве дипломной работы решить задачу извлечения основного содержимого используя языковые модели.
Результаты разработанной модели получились достаточно удовлетворительными. По качеству она не отстаёт от остальных решений, но превзойти их, к сожалению, не удалось. Однако я считаю, что поставленные задачи были решены вполне успешно. Также стоит отметить, что получившаяся модель, как и в случае BoilerNet, лишена минусов предшествующих подходов, что делает её оптимальной для использования.
[1] Aidan Finn, Nicholas Kushmerick, and Barry Smyth. Fact or fiction: Content classification for digital libraries. Unrefereed, 2001.
[2] https://www.ercim.eu/publication/ws-proceedings/DelNoe02/AidanFinn.pdf
[3] Michal Marek, Pavel Pecina, Miroslav Spousta. Victor: tWeb Page Cleaning with Conditional Random Fields, 2007.
[4] Marco Baroni, Francis Chantree, Adam Kilgarriff, and Serge Sharoff. CleanEval: a competition for cleaning web pages. InLREC, 2008.
[5] Thijs Vogels, Octavian-Eugen Ganea and Carsten Eickhoff. Web2Text: Deep Structured Boilerplate Removal, 2018
[6] Jurek Leonhardt, Avishek Anand, Megha Khosla. Boilerplate Removal using a Neural Sequence Labeling Model, 2020.
[7] https://arxiv.org/pdf/2004.14294.pdf
[8] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. CoRR, abs/1301.3781.
[9] https://habr.com/ru/post/446530/
[10] https://arxiv.org/pdf/1310.4546.pdf
[11] Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding, 2019
[12] https://habr. com/ru/post/487358/
[13] https://www.crummy.com/software/BeautifulSoup/
[14] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez,Eukasz Kaiser, and Illia Polosukhin. Attention is all you need. InAdvances in neural information processing systems, pp. 5998-6008, 2017.
[15] https://kazemnejad.com/blog/transformer_architecture_positional_encoding/
...