ВВЕДЕНИЕ 3
ГЛАВА 1. Теоретические основы корпусного изучения текстов. 6
1.1. Корпусная лингвистика как научная дисциплина. 6
1.2. Терминологический аппарат корпусной лингвистики. 8
1.3. Национальный корпус русского языка: история создания и применения 11
1.4. Корпусные методы исследования. 26
1.5. Корпусные методы в изучении художественной литературы 30
ГЛАВА 2. Корпусные методы в изучении древнерусской литературы 34
2.1. Специфика древнерусского текста и его изучения 34
2.2. Древнерусская литература в НКРЯ: состав, способ представления, разметка 44
2.3. Структура и семантика «Жития Феодосия Печерского» средствами НКРЯ 46
Заключение 58
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 59
Текст является одним из основных источников языкового материала. Он нужен для проведения филологических и лингвистических исследований. Сделать вывод о языковом явлении, которое интересует исследователя, позволяет сделать анализ большого количества текстов. Сегодня огромное количество текстов находятся в свободном электронном доступе благодаря техническому прогрессу. Для работы с большими объемами текстов во всем мире стали создаваться коллекции текстов. Эти коллекции являются специально отобранными, размеченными по различным лингвистическим параметрам и обеспеченными системой поиска. Они называются “лингвистическими корпусами”. Исследованиями в данной области занимается такой раздел прикладной лингвистики, который разрабатывает общие принципы построения и использования лингвистических корпусов, как корпусная лингвистика.
Актуальность исследования. Возможность пользоваться обширными электронными ресурсами значительно облегчила процесс сбора материала в лингвистических исследованиях. Безусловно, необходимость и возможность обработки множества текстов с целью извлечения из них литературоведческих, лингвистических и прочих данных привели к бурному росту электронных ресурсов. К таким ресурсам можно отнести лингвистически аннотированные корпуса текстов, что обуславливает актуальность изучения данной темы. Так, любое лингвистическое исследование в той или иной мере опирается на анализ языкового материала, языковых данных. Развитие современных интеллектуальных программных систем, которые предназначены для обработки текстов на естественном языке, также требует большой экспериментальной лингвистической базы. На сегодняшний день спрос на корпусные данные совпадает с современными техническими возможностями. В современной теоретической лингвистике корпус является как мощным инструментом исследования языка, так и новой идеологией, которая ориентирует исследователя на текст как главный объект теоретической рефлексии. Так, с помощью корпуса стало возможно быстрее и эффективнее решать известные науке задачи, а также ставить принципиально новые задачи, ранее практически невыполнимые из-за их трудоемкости...
Таким образом, в результате проведенного исследования можно сделать следующие выводы. Для организации работы с корпусными данными, организации эффективного поиска материала по заданным критериям, в корпусной лингвистике разрабатываются специфические методы исследования текстов, основанные на соединении квантитативных методов статистического анализа с организацией поиска материала на основе аннотирования текстов. Так, корпус - это определенная выборка, основанная на заданных критериях, связанных с конкретным аспектом лингвистических исследований; унифицированный, большой, а также структурированный массив языковых данных в электронном виде. Он непосредственно служит исследователям и пользователям для решения каких-либо лингвистических задач.
Созданию русскоязычных корпусов предшествовали разработки корпусов текстов в ряде европейских стран. Первым национальным корпусом, ставшим своего рода образцом для создания всех последующих корпусов текстов, стал Британский национальный корпус (BNC). Отечественная корпусная лингвистика возникает в 1980-е гг. и связывается с появлением работ А. П. Ершова и В. М. Андрющенко, посвященных машинному фонду русского языка.
В НКРЯ непосредственно представлены тексты самых разных сфер, жанров и функциональных стилей.
Структура НКРЯ регулярно корректируется, поскольку развитие корпусной лингвистики вызывает непрерывную исследовательскую рефлексию и продолжение разработки устройства языковых корпусов.
В связи с тем, что корпусная лингвистика является достаточно молодой дисциплиной, корпусные методы до сих пор остаются несистематизированными и не описанными в полной мере в научной литературе. Среди методов корпусной лингвистики выделяются следующие группы: филологические, теоретико-лингвистические, математические (статистические), а также методы информационных технологий...