Введение 3
Глава 1. Понятия реферата и аннотации, основные методы автоматического реферирования 7
1.1.Реферат и аннотация в отечественной и зарубежной практике 7
1.2. Основные методы автоматического реферирования 12
1.2.1 Экстрагирующие методы 12
1.2.2 Абстрагирующие методы 15
1.2.3 Гибридные методы 17
Выводы 18
Глава 2. Разработка алгоритма автоматического реферирования текстов научных статей по компьютерному синтаксису на русском языке. 20
2.1. Алгоритм автоматического реферирования 20
2.2. Оценка работы алгоритма. 22
Выводы 24
Заключение 26
Список использованной литературы 27
ПРИЛОЖЕНИЕ 1. Список проанализированных текстов 32
ПРИЛОЖЕНИЕ 2. Словарь значимых фраз 42
ПРИЛОЖЕНИЕ 3. Стоп-лексикон 46
Данная выпускная квалификационная работа посвящена проблеме автоматического реферирования текстов при помощи компьютерного синтаксиса.
Актуальность данной темы обусловлена двумя факторами. В наше время человека окружает объем информации, который невозможно полностью переработать, и большая его часть находится в сети Интернет. Исследователь, занимающийся изучением того или иного вопроса, имеет доступ к значительному числу публикаций. Ознакомиться со всеми, однако, бывает сложно, а порой и не нужно: содержание публикации может не отвечать интересу исследователя. Здесь на помощь должны приходить программы автоматического реферирования. В ходе работы было обнаружено только 2 рабочих веб-приложения для автоматического реферирования. Столь малое количество нужных современному пользователю приложений также обуславливает актуальность данной работы.
Степень разработанности проблемы. Работы в области автоматического реферирования велись уже во второй половине XX века. Эту проблему изучали многие исследователи как в России и СССР, так и за рубежом (В.П. Леонов, Д.Г. Лахути, Э. Ф. Скороходько, С.М. Приходько, В.А Яцко, С.А. Тревгода, H.P. Edmundson, J. Kupiec, E. Lloret, U. Hahn, T. Strzalkowski и др.), сформировались разные методы: экстрагирующий, абстрагирующий и гибридный. Первый метод подразумевает извлечение из текста предложений без переформулирования, а основные тенденции этого направления - выделение значимых слов и предложений, определение риторических отношений, оценка связей предложений между собой, работа с тезаурусом. Экстрагирующий метод не требует глубокого анализа текста, а его основным недостатком в сравнении с авторскими рефератами, относительно которых производится оценка машинных рефератов, остается бессвязность, которую часто можно наблюдать на выходе. Второй, абстрагирующий, подход позволяет получить относительно более стройный и структурированный текст. При этом практическая реализация алгоритмов и необходимость задействования существенного объема лингвистических знаний представляет значительную сложность. Гибридные методы, сочетающие абстрагирование и экстрагирование, не уступают в сложности разработки абстрагирующим методам. Они также подразумевают привлечение баз знаний, а в отдельных случаях и сторонних систем. Тем не менее, хотя работы в области автоматического реферирования ведутся длительное время, эта задача не решена, поскольку имеет дело со сложной изменчивой системой – естественным языком.
Цель исследования состоит в разработке алгоритма автоматического реферирования, позволяющего получить стройный текст, отвечающий основным требованиям ГОСТа, в качестве реферата.
Для достижения обозначенной цели поставлены следующие задачи:
• изучить понятия «реферат» и «аннотация» в отечественно и зарубежной практике, выявить их основные функции и признаки
• исследовать различные методы автоматического реферирования текстов на естественном языке
• собрать коллекцию научных статей по компьютерному синтаксису и проанализировать их, выявив значимые фразы и стоп-лексикон;
• составить словари значимых фраз и стоп-лексики на основании собранных статей
• разработать алгоритм автоматического реферирования научных текстов
• опробовать алгоритм реферирования и оценить результаты его применения
Объектом исследования является структура текстов научных статей по компьютерному синтаксису.
Предметом исследования является разработка алгоритма автоматического реферирования текстов на основе выделенных значимых фраз и связей между предложениями.
Материалом исследования является коллекция научных статей по компьютерному синтаксису на русском языке, в которую входит 62 статьи, собранных вручную с помощью поиска Google и поиска в электронных библиотеках eLibrary и Cyberleninka.
Научная новизна работы состоит заключается в разработке алгоритма автоматического реферирования текста на основе выделения значимых фраз и связей между предложениями.
Теоретическая значимость исследования заключается в изучении понятий «реферат» и «аннотация», предложения определения термина «реферат», предложении оценки смысловой значимость предложения при реферировании на основе вхождения в него значимых фраз и наличия связи с другими предложениями.
Практическая значимость исследования заключается в возможности создания на базе разработанного алгоритма системы автоматического реферирования. Предложенный алгоритм допускает доработки в зависимости от того, в какой области знаний он будет применятся.
В работе использовались следующие методы исследования: метод сплошной выборки, описательный метод, метод моделирования, метод сопоставительного анализа, метод экспертных оценок.
На защиту выносятся следующие положения:
1. Основные методы автоматического реферирования представлены экстрагирующим, абстрагирующим и гибридным методами.
2. Алгоритм реферирования включает в себя три основных процедуры: а) морфологический и синтаксический анализ текста б) поиск значимых фраз и связей между предложениями в) исключение из текста предложений, не содержащих значимых фраз и связей с другими предложениями.
3. Алгоритм разработан на основе анализа теоретических исследований в данной области и анализа коллекции собранных статей по компьютерному синтаксису на русском языке.
Выпускная квалификационная работа состоит из введения, двух глав, заключения, списка использованной литературы и трех приложений. Во Введении приводятся цель и задачи работы, обосновывается актуальность, теоретическая и практическая значимость работы, называются объект, предмет, материал исследования, приводятся положения, которые выносятся на защиту.
В Главе 1 анализируются понятия «реферат» и «аннотация» в российской и зарубежной практике, а также требования, предъявляемые к англоязычным и русскоязычным аннотациям и рефератам. Описываются основные методы автоматического реферирования и примеры их реализации.
В Главе 2 описывается разработанный метод автоматического реферирования и оценка его практического применения.
В Заключении приводятся итоги и выводы по проведенному исследованию.
В данной выпускной квалификационной работе был предложен алгоритм автоматического реферирования научных текстов на русском языке.
В ходе работы были рассмотрены понятия «реферат» и «аннотация» в отечественной и зарубежной практике, приведены основные методы автоматического реферирования. В ходе рассмотрения этих понятий и методов было сформулировано определение реферата, представлены достоинства и недостатки методов реферирования относительно друг друга. На основании определения реферата и требований, представляемых к нему, а также анализа собранной коллекции статей, был разработан алгоритм автоматического реферирования. Оценка результата предложенного алгоритма проводилась на основании сравнения с результатами реферирования экспертами, а также системами t-CONCEPTUS Open Text Summarizer. Было выявлено, что реферат, составленный при помощи алгоритма, короче, его применение позволяет избежать включения в реферат названий журналов и газет, где были опубликованы статьи, имен авторов статей, списка использованной литературы, формул. При этом алгоритм не позволяет выбрать желаемый объем реферата, в отличие от t-CONCEPTUS и OpenText: объем реферата зависит только от количества значимых фраз и связей между предложениями.
Итогом данного исследования можно считать разработку алгоритма автоматического реферирования научных статей, посвященных компьютерному синтаксису, на русском языке. Данный алгоритм возможно применить в разработке программы для автоматического реферирования.
1. ANSI/NISO Z39.14-1997 Guidelines for Abstracts. Bethesda, Maryland: NISO Press, 1997. 14 p.
2. Brügmann S. [et al.]. Towards content-oriented patent document processing: Intelligent patent analysis and summarization // World Patent Information. 2015. Vol. 40. P. 30–42
3. Cunningham H., Maynard D., Bontcheva K., Tablan V. GATE: an Architecture for Development of Robust HLT Applications // Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002.
4. EASE Guidelines for Authors and Translators of Scientific Articles to be Published in English. URL: http://www.ease.org.uk/publications/author-guidelines
5. eLIBRARY.RU - научная электронная библиотека URL: https://elibrary.ru
6. Emerald (How to...write an abstract. URL:http://www.emeraldinsight.com/authors/guides/write/abstracts.htm
7. Farzindar A., Lapalme G. Legal text summarization by exploration of the thematic structures and argumentative roles // Text Summarization Branches Out Conference, ACL. Barcelona, Spain. 2004 P. 27–38
8. Leontyeva N. N. Semantic Dictionary for Text Understanding and Summarization // International Journal of Translation. 2003. V. 15. № 1. Р. 107–114
9. Luhn H. P. The Automatic Creation of Literature Abstracts // IBM Journal of Research and Development. 1958. V. 2, № 2. p. 159–165
10. Mann W., Matthiessen Ch., and Thompson S. Rhetorical structure theory: A theory of text organization. University of Southern California, 1987
11. Mann W., Matthiessen Ch., and Thompson S. Rhetorical structure theory and text analysis. // Discourse Description. Amsterdam: Benjamins, 1992; 39-78.
12. Marcu D. Improving summarization through rhetorical parsing tuning // Proceedings of The Sixth Workshop on Very Large Corpora. Montreal, Canada. 1998. P. 206–215
13. Marcu D. The rhetorical parsing of natural language texts. In Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics, 1997 p. 96-103
14. OpenTextSummarizer [https://www.splitbrain.org/services/ots] – веб-интерфейс программы для реферирования текстов на разных языках
15. Pollock J., Zamora A. Automatic Abstracting Research at Chemical Abstracts Service//J. Chem. Inf. Comput. Sci., 1975, 15 (4), pp 226–232 (URL: https://pubs.acs.org/doi/abs/10.1021/ci60004a008?journalCode=jcics1)
16. RADIO CORP OF AMERICA PRINCETON NJ DEFENSE ELECTRONIC PRODUCTS. Project Acsi Matic. A Survey of Reading Machines. // Defense Technical Information Center, 1958
17. Reimer U., Hahn U. A Formal Model of Text Summarization Based on Condensation Operators of a Terminological Logic URL: http://aclweb.org/anthology/W97-0715
18. Saggion H., Lapalme G. Generating indicative-informative summaries with SumUM // Computational Linguistics. 2002. V. 28, № 4
19. Solarix - Компьютерная грамматика русского языка: лексика, морфология, синтаксис// http://www.solarix.ru/
20. t-CONCEPTUS – веб-приложение для реферирования статей на английском, немецком и русском языках [http://tconspectus.pythonanywhere.com]
21. Thrower P. A. Writing a Scientific Paper: I. Titles and Abstracts // Carbon. 2007. №45. P. 2143–2144
22. Tol van der M. The abstract as an orientation tool in modular electronic articles. URL: http://www.science.uva.nl/projects/commphys/papers/docdes/docdes.html
23. VisualWorld - ассоциативный поиск, обычный поиск, рефераторURL: https://visualworld.ru/referat.jsp
24. White R. W., Jose, J. M., & Ruthven, I. (2003). A task-oriented study on the influencing effects of query-biased summarisation in web searching. InInformationProcessing&Management, 39, 707-733.
25. Арзикулов X. А. [и др.]. Автоматизированная система тезаурусного аннотирования научно-технического документа / НТИ. Сер. 2. 1978. № 12. С. 12–20
26. Берзон В.Е. Синтаксические сверхфразовые связи и их инженерно-лингвистичекое моделирование / В.Е. Берзон (отв. ред. Р.Г. Пиотровский). – Кишинев: Штиинца, 1984.
27. Блюменау Д.И. Информационный анализ/синтез для формирования вторичного потока документов. СПб.: Профессия, 2002. 240 с.
28. Богданов В. В. Реферирование // Прикладное языкознание: учебник / С.-Петерб. гос. ун-т; отв. ред. А. С. Герд. СПб.: Изд-во С.-Петерб. ун-та, 1996. 389–399 с.
29. Горькова В.И., Муранивский Т.В. Пособие по реферированию, и редактированию научно-технической литературы. (Справочник для редакторов, референтов и корректоров). М.: ВИНИТИ, 1964. 268 с.
30. ГОСТ 7.9–95. Система стандартов по информации, библиотечному и издательскому делу. Реферат и аннотация. Общие требования. Введ. 1997–07–01. М.: Изд-во стандартов, 1995. 8 с.
31. Дубинина Е. Ю. Компрессия научного текста: методы и модели. : автореферат дис. ... кандидата филологических наук: 10.02.21 / Дубинина Екатерина Юрьевна. СПб., 2013. 8 с.
32. Дюбко Г.Ф., Преснякова Д.В. Формальная семантика и анализ естественного языка // Восточно-Европейский журнал передовых технологий 2008 4/2 (34) с.48-53
33. Киберленинка - научная электронная библиотека URL:https://cyberleninka.ru
34. Кириллова О.В. Подготовка российских журналов для зарубежной аналитической базы данных Scopus. Рекомендации и комментарии. URL: http://elsevierscience.ru/info/add-journal-to-scopus/
35. Клышинский Э.С., Манушкин Е.С. Метод автоматического порождения правил синтаксической сегментации для задач анализа текстов на естественном языке // Информационные технологии и вычислительные системы 2009 №4 с. 65
36. Козеренко Е.Б. Лингвистическое моделирование для систем машинного перевода и обработки знаний // Информатика и ее применение т. 1 №1 с.54-65
37. Лихтенштейн Е.С., Михайлов А.И. Редактирование научной, технической литературы и информации. Учебник для вузов. М.: Высшая школа, 1974. 310 с.
38. Луканин А.В. Автоматическая обработка естественного языка / А.В. Луканин; М-во образования и науки Российской Федерации, Южно-Уральский гос. ун-т, Каф. "Общая лингвистика". – Челябинск: Изд. центр ЮУрГУ, 2011. – 70 с.
39. Лукашевич Н. В., Добров Б. В. Автоматическое аннотирование новостных кластеров на основе тематического представления// Научно-исследовательский вычислительный центр МГУ им. М. В. Ломоносова; АНО Центр информационных исследований, 2009
40. Пиотровский [и др.]. Двуязычное аннотирование и реферирование / Итоги науки и техники. Сер. Информатика. 1983. Т. 7. С. 165–246
41. Р.Г. Пиотровский Текст, машина, человек. Л.: Наука, 1975.
42. Севбо И.П. Структура связного текста и автоматизация реферирования / И.П. Севбо // М.: Наука, 1969.
43. Солтон Дж. Динамические библиотечно-информационные системы. – М.: Мир, 1979
44. Ступин В. С. Система автоматического реферирования методом симметричного реферирования // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог 2004». («Верхневолжский», 2-7 июня 2004 г.). – М.: Наука, 2004. – С. 579-591.
45. Тревгода А.С. Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений: автореферат дисс... кандидата технических наук, Санкт-Петербург 2009.
46. Федосюк М.Ю. О лингвистических критериях разграничения информативных и индикативных рефератов // НТИ. Сер. 2. 1978. № 9. С. 11–17.
47. Хан У., Мани И. Системы автоматического реферирования // Открытые системы, 2000. – №12. URL: http://www.osp.ru/os/2000/12/067_print.htm
48. Харламов А. А. Когнитивный подход к анализу текстов в технологии автоматического смыслового анализа текстов TextAnalyst // Актуальные вопросы теоретической и прикладной фонетики» - М.:, 2013 – С. 398 - 428
49. Яцко В. Симметричное реферирование: теоретические основы и методика // НТИ. Сер. 2. 2002. №5. С. 18–28