Тип работы:
Предмет:
Язык работы:


НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ КОМПЛЕКС ПРЕДОБРАБОТКИ

Работа №123691

Тип работы

Дипломные работы, ВКР

Предмет

лингвистика

Объем работы42
Год сдачи2018
Стоимость4200 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
17
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1: Путь к веб-корпусу 5
1. Этапы становления и развития корпусной лингвистики 5
§3. Развитие программно-лингвистического инструментария 10
Глава 2: Работа системы SketchEngine 14
2.1. Предобработка 14
2.1.1. Построение корпуса в SketchEngne 14
2.1.2. Проблемы с лемматизацией 16
2.2. Постобработка и визуализация 18
2.2.1. Методы работы с корпусом. 18
2.2.2. Меры и формулы. 20
2.2.3. Решения проблем 22
Глава 3: Рабочий процесс 23
§3.1. Предобработка 23
§3.2. Постобработка 25
3.2.1. Извлечение терминов 25
§3.2.2. Создание мер 28
§3.2.3. Расширенные тезаурусы 30
§3.3. Визуализация 32
§3.3.1. Принципы визуализации 32
§3.3.2. Визуализация расширенного тезауруса 33
§3.3.3. Другие визуализации 36
Заключение 38
Литература 39


Сайт SketchEngine, созданный британским исследователем Адамом Килгариффом, является одним из самых широко используемых инструментов корпусной лингвистики. Это система с мощным функционалом, позволяющая исследовать языковые корпуса с разных точек зрения (от грамматических и синтаксических отношений до семантических связей), находящая применение как и среди людей, далеких от мира языкознания (в обучении языку), так и среди профессиональных лексикографов и лингвистов. Одним из первых SketchEngine открыл возможности Интернета в корпусной лингвистике, дав возможность не только изучать уже готовые корпуса, но и создавать их самим на основе интернет-данных.
Именно из-за важности и широте использования SketchEngine так актуальны проекты по созданию вспомогательных инструментов для этой системы, позволявших бы более эффективно работать с корпусными данными, как, например, SKELL. Сама система, созданная Килгариффом, была создана для того чтобы пользователю было легче воспринимать информацию, полученную из корпусов; вполне логично, что другие люди будут развивать его идею и находить новые способы ее обработки и визуализации. Для SketchEngine существует достаточно развитый API, позволяющий пользователю свободно работать с корпусными данными и использовать их в собственных программах, что дает нам большие возможности по созданию своего инструментария.
Целью этой работы является создание такого инструментария - научно-исследовательского комплекса, который позволит нам уточнять полученную из SketchEngine информацию, показывать ее с других сторон, на которые ранее не обращалось внимания, а также качественно её визуализировать.
Чтобы достигнуть этой цели, необходимо будет выполнить три задачи. Во-первых, в пределах этой работы исследован процесс построения корпусов в системе SketchEngine, рассмотрены его сильные и слабые стороны. Известно, что даже сбалансированный по временному промежутку, источникам, языкам корпус может быть неполным и содержать большое количество “шума” (Gabrielatos, 2007) - что же говорить о пользовательских корпусах, строящихся ad hoc? На основе этих данных делаются выводы о возможных методах предобработки языковых данных перед их добавлением в корпус.
Второй по счету задачей является непосредственно работа со корпусными данными, а в особенности с мерами, которые они используют. За свою историю SketchEngine использовала самые разные способы выявления коллокации: разные методы, являющиеся частью системы, задействуют разные меры, каждая из которых дает свои результаты (Mi, T-Score, Log-likelihood, etc.) и которые в дальнейшем приходится соотносить вручную; лингвистическая оценка получаемых данных (Хохлова, 2010) зачастую занимает много времени и сил. В этой работе рассмотрены разработанные автором инструменты, которые дают возможность сделать методы SketchEngine более точными и расширять их возможности.
Наконец, существует не так много хороших средств по визуализации итоговых данных, что не позволяет исследователю получить наглядные результаты своей работы, по которым сразу возможно было бы делать определенные выводы. Визуализировав коллокационные данные самостоятельно, мы сможем сделать нашу итоговую работу гораздо более наглядной и понятной. Исследователь сможет увидеть информацию в организованном и маркированном виде, сразу заметить общие тренды и исключения из них и таким образом обнаружить новые вещи в уже имеющихся данных.
Теоретическая значимость работы определяется подробным описанием слабостей системы SketchEngine, ранее не затрагиваемых в научной работе. Практическая значимость данного исследования заключается в инструментарии, отчасти компенсирующем эти слабости и делающем работу над SketchEngine более эффективной.
Данная работа состоит из введения, трёх глав, заключения, списка литературы и приложения. В первой главе описываются теоретические вопросы, связанные с историей веб-корпусов. Вторая глава посвящена методологии конкретно системы SketchEngine, ее основным возможностям, сильным и слабым сторонам и тому, где ее возможно улучшить с помощью нашего инструментария. В третьей главе описан процесс работы над инструментарием и его возможности; представлена оценка полученных результатов.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе данной работы было проведено исследование разных сторон системы SketchEngine, были сделаны попытки улучшить и расширить ее функционал и справиться с имеющимися у нее проблемами. Хотя итоговый результат далек от совершенства, все же созданный инструментарий позволяет исследователю работать со SketchEngine так, как этого раньше не происходило, с учетом большего количества факторов и новыми, ранее не использованными способами.
Помимо практической пользы от собственно инструментария был также исследован процесс лемматизации языковых данных, которые в итоге приводят к созданию корпуса SketchEngine. Из собранных теоретических данных можно сделать вывод, что лемматизатор чаще всего "спотыкается" в двух случаях.
Во-первых, неправильно лемматизируются слова, которые не включаются в обычные словари, либо по причине их просторечности, либо из-за того, что они являются производными от более распространенных слов. Такие слова при этом могут встречаться весьма и весьма часто, из-за чего их неверная лемматизация и является большой проблемой. К системе можно подключать сторонние лемматизаторы, способные служить подспорьем для ограниченных возможностей самого SketchEngine.
Второй частой ошибкой для лемматизатора являются составные слова. Здесь решение проблемы не столь однозначно. Хотя расширение словаря может помочь с более устойчивыми составными словами ("диван-кровать"), все возможные составные слова учесть невозможно, так как сложение слов с помощью дефиса является продуктивным способом словообразования. Усугубляет проблему также то, что такие слова могут склоняться по-разному (иногда склоняются обе части, иногда - только последняя). Потенциальным решением может служить разделение составных слов надвое: в отдельности их части легче лемматизировать, при этом во многих случаях их семантическое значение примерно сохранится. "Диван-кровать" - примерно то же самое, что диван и кровать вместе, "Ростов-на-Дону" - действительно Ростов на Дону: во всяком случае, было бы вполне логично, если бы эти слова появлялись при поиске коллокаций по леммам "диван" и "дон".
Автор надеется, что эта работа продолжит развиваться и в будущем затронет и эти проблемы.



1. В.П. Захаров, С. Ю. Богданова, Корпусная лингвистика, СПб, 2013
2. Копотев М. Введение в корпусную лингвистику: Учебное пособие для студентов, Прага, 2014
3. Д. В. Сеченова. К задаче создания корпусов русского языка, Москва
4. Хохлова М.В., Исследование лексико-синтаксической сочетаемости в русском языке с помощью статистических методов, СПбГУ, Санкт-Петербург, 2010
5. Allan, Keith, the Oxford Handbook of the History of Linguistics (History of Corpus Linguistics), 2013
6. Allen, William. Making Corpus Data Visible: Visualising Text With Research Intermediaries, University of Oxford, Оксфорд, 2015
7. Barrs, Keith: Using the Sketch Engine Corpus Query Tool for Language Teaching : The Language Teacher - Issue 40.2; March 2016, Хиросима, Hiroshima Shudo University, 2016
8. Few S, Information Dashboard Design: The Effective Visual Communication of Data, Sebastopol, 2006
9. Gabrielatos, C. (2007). Representation of refugees and asylum seekers in UK newspapers, 1996-2005: Report on the corpus-based analysis. Joint meeting of the Corpus Research Group (CRG) and the Language Ideology and Power Research Group (LIP), Department of Linguistics and English Language, Lancaster University, 15 January 2007.
10. Gatto, Maristella, Web As Corpus: Theory and Practice, Bloomsbury Academic, London, 2014
11. Golik, Bossy, Ratkovic and Nédellec, Improving term extraction with linguistic analysis in the biomedical domain
12. Kantner, Cathleen; Kutter, Amelie, How to get rid of the Noise in the Corpus: Cleaning Large Samples of Digital Newspaper Texts, Stuttgart, 2011
13. Kilgarriff, Marcowitz, Smith, Thomas: Corpora and Language Learning with the Sketch Engine and SKELL
14. Kilgariff, Adam; Baroni, Marco, WebBootCaT: a web tool for instant corpora, Brighton, 2006
15. Adam Kilgarriff, VítBaisa, Jan Bušta, MilošJakubíček, VojtěchKovvář, Jan Michelfeit, PavelRychlý, VítSuchomel. TheSketchEngine: tenyearson. Lexicography, 1: 7-36, 2014.
16. Adam Kilgarriff, PavelRychlý, PavelSmrž, David Tugwell. Itri-04-08 the sketch engine. Information Technology, 2004.
17. Kilgarriff, Finding Terms in Corpora for Many Languages with the Sketch Engine, Lexical Computing Ltd., United Kingdom
18. Meunier F., Gilquin Gaëtanelle, Paquot Magali, A Taste for Corpora: In Honour of Sylviane Granger, John Benjamins Publishing Company
19. Nesselhauf, Nadja, Corpus Linguistics: A Practical Introduction, Гейдельберг, 2005
20. Talianová, Dominika. Visualization of Corpus Data, Брно, 2014
21. Sophie Aubin, Thierry Hamon. Improving Term Extraction with Terminological Resources. Tapio Salakoski, Filip Ginter, Sampo Pyysalo, Tapio Pahikkala. 2006, Springer, pp.380, 2006, LNAI 4139.
22. Statistics used in Sketch Engine, https://www.sketchengine.co.uk/documentation/statistics-used-in-sketch-engine/
23. Zakharov V.P, Automatic Collocation Extraction: Association Measures Evaluation and Integration, Saint-Petersburg State University, Saint-Petersburg, Russia
24. Computational Linguistics and Intellectual Technologies, Papers from the Annual International Conference, “Dialogue” (2010) Issue 9 (16)


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ