СТАТИСТИЧЕСКАЯ ДИНАМИКА ЛЕКСИЧЕСКИХ ЕДИНИЦ В ПОВСЕДНЕВНОЙ РЕЧИ (НА МАТЕРИАЛЕ КОРПУСА "ОДИН РЕЧЕВОЙ ДЕНЬ")
|
Введение 3
Глава I. Предпосылки создания частотного списка 6
русской повседневной речи
1.1. Статистическая лексикография как раздел лингвистики 6
1.1.1. Основные принципы и понятия статистической лексикографии 6
1.1.2. Типология, структура и функции частотных словарей 7
1.1.3. Частотные словари русского языка 9
1.2. Особенности повседневной разговорной речи 16
1.2.1. Разговорная речь в системе функциональных стилей 16
1.2.2. Инвентарь языковых средств повседневной речи 21
1.3. Звуковой корпус «Один речевой день» 24
1.3.1. История создания корпуса «Один речевой день» 24
1.3.2. Основные принципы сбора и обработки речевого материала 25
1.3.3. Сбалансированность материала в Корпусе «Один речевой день»29
1.3.4. Области применения корпуса повседневного общения 32
Выводы к Главе I 35
Глава II. Разработка и анализ Частотника ОРД 36
2.1. Особенности процесса построения Частотника ОРД 36
2.2. Статистические характеристики Частотника ОРД 44
2.2.1. Выбор статистических параметров оценки 44
2.2.2. Расчет статистических рядов 46
2.3. Динамика статистических рядов в Частотнике ОРД 54
Выводы к Главе II 68
Заключение 69
Список использованной литературы 71
Приложение 1 Частотный список неоднословных единиц 81
Приложение 2 Верхушка Частотника ОРД
Глава I. Предпосылки создания частотного списка 6
русской повседневной речи
1.1. Статистическая лексикография как раздел лингвистики 6
1.1.1. Основные принципы и понятия статистической лексикографии 6
1.1.2. Типология, структура и функции частотных словарей 7
1.1.3. Частотные словари русского языка 9
1.2. Особенности повседневной разговорной речи 16
1.2.1. Разговорная речь в системе функциональных стилей 16
1.2.2. Инвентарь языковых средств повседневной речи 21
1.3. Звуковой корпус «Один речевой день» 24
1.3.1. История создания корпуса «Один речевой день» 24
1.3.2. Основные принципы сбора и обработки речевого материала 25
1.3.3. Сбалансированность материала в Корпусе «Один речевой день»29
1.3.4. Области применения корпуса повседневного общения 32
Выводы к Главе I 35
Глава II. Разработка и анализ Частотника ОРД 36
2.1. Особенности процесса построения Частотника ОРД 36
2.2. Статистические характеристики Частотника ОРД 44
2.2.1. Выбор статистических параметров оценки 44
2.2.2. Расчет статистических рядов 46
2.3. Динамика статистических рядов в Частотнике ОРД 54
Выводы к Главе II 68
Заключение 69
Список использованной литературы 71
Приложение 1 Частотный список неоднословных единиц 81
Приложение 2 Верхушка Частотника ОРД
Настоящее исследование посвящено изучению статистической динамики лексических единиц в повседневной речи.
Математико-статистические методы становятся все более востребованными, в том числе в областях гуманитарного знания. В лингвистике до недавнего времени им была отведена преимущественно область статистической лексикографии, а именно разработка частотных словарей. Качественно новый уровень развития компьютерных технологий повлек за собой изменения в методах создания и использования частотных словарей.
Сегодня наиболее востребованы словари, составленные на основе лингвистических корпусов, так как большие объемы материала позволяют сделать словарь максимально репрезентативным и по возможности полным.
Разговорная речь в лингвистических корпусах традиционно была представлена записями радио- и телепрограмм, публичных выступлений, постановочных диалогов и монологов, субтитров к кинофильмам и телесериалам. Тексты драматургических произведений также рассматриваются в качестве зафиксированной устной речи. В таком виде представлена в «Частотный словарь живой устной речи» под редакцией О, Н. Ляшевской и С. А. Шарова. Этот словарь был создан по материалам Устного подкорпуса Национального корпуса русского языка (далее - НКРЯ), крупнейшего корпуса русского языка на сегодняшний день.
Также разговорная речь представлена в «Частотном словаре словоформ русского языка» в виде подкорпуса драмы. Однако устная спонтанная речь по-прежнему остается сложным материалом для лексикографии.
Звуковой корпус «Один речевой день» (далее - Корпус ОРД) дал лингвистам уникальная возможность анализа спонтанной речи, в том числе и с количественной точки зрения.
Актуальность исследования определяется слабой изученностью живой повседневной речи, в особенности с точки зрения количественных данных.
Цель работы - описание динамики статистических показателей в лексике современной повседневной речи. Мы ставим перед собой следующие задачи:
1. Определить роль и место статистики в современной русской лексикографии;
2. Проанализировать особенности повседневной речи;
3. Охарактеризовать звуковой корпус «Один речевой день»;
4. Определить параметры для составления и статистического анализа частотного списка (далее - Частотник ОРД) повседневной речи.
5. Описать изменение статистических характеристик Частотника при изменении его объема.
Для решения поставленных задач применяются описательные и статистические методы (методы оценивания неизвестных параметров распределения и моделирования).
В качестве материала исследования были выбраны текстовые расшифровки звукозаписей 35 информантов в объеме 200 000 словоупотреблений из корпуса «Один речевой день». Текстовые примеры, приводимые в работе, также взяты из Корпуса ОРД.
Объект настоящего исследования - повседневная устная речь. Его предметом стало изменение количественных показателей лексических единиц в частотном словнике.
Научная новизна работы обусловлена тем, что устная спонтанная речь впервые становится материалом подобного статистического исследования.
Теоретическая и практическая значимость полученных результатов заключается в том, что они позволили выявить наиболее устойчивые статистические параметры для частотного словаря устной спонтанной речи, что дает возможность провести в дальнейшем сравнение с другими частотными словарями, а также сделать прогноз изменения показателей при увеличении объема словаря.
Апробация результатов работы: доклады по вопросам, рассматриваемым в выпускной квалификационной работе, были представлены на Международной научной конференции «Голоса города: языковая вариативность и коммуникативное разнообразие» и на 45 Международной филологической научной конференции.
Работа состоит из введения, двух глав, заключения и двух приложений. Первая глава посвящена теоретическим проблемам, связанным с определением места повседневной речи в современной лингвистике, возможностей и инструментов ее статистического описания. Во второй главе проводится анализ количественных изменений в повседневной лексике при изменении объема выборки. В заключении подводятся итоги исследования
Математико-статистические методы становятся все более востребованными, в том числе в областях гуманитарного знания. В лингвистике до недавнего времени им была отведена преимущественно область статистической лексикографии, а именно разработка частотных словарей. Качественно новый уровень развития компьютерных технологий повлек за собой изменения в методах создания и использования частотных словарей.
Сегодня наиболее востребованы словари, составленные на основе лингвистических корпусов, так как большие объемы материала позволяют сделать словарь максимально репрезентативным и по возможности полным.
Разговорная речь в лингвистических корпусах традиционно была представлена записями радио- и телепрограмм, публичных выступлений, постановочных диалогов и монологов, субтитров к кинофильмам и телесериалам. Тексты драматургических произведений также рассматриваются в качестве зафиксированной устной речи. В таком виде представлена в «Частотный словарь живой устной речи» под редакцией О, Н. Ляшевской и С. А. Шарова. Этот словарь был создан по материалам Устного подкорпуса Национального корпуса русского языка (далее - НКРЯ), крупнейшего корпуса русского языка на сегодняшний день.
Также разговорная речь представлена в «Частотном словаре словоформ русского языка» в виде подкорпуса драмы. Однако устная спонтанная речь по-прежнему остается сложным материалом для лексикографии.
Звуковой корпус «Один речевой день» (далее - Корпус ОРД) дал лингвистам уникальная возможность анализа спонтанной речи, в том числе и с количественной точки зрения.
Актуальность исследования определяется слабой изученностью живой повседневной речи, в особенности с точки зрения количественных данных.
Цель работы - описание динамики статистических показателей в лексике современной повседневной речи. Мы ставим перед собой следующие задачи:
1. Определить роль и место статистики в современной русской лексикографии;
2. Проанализировать особенности повседневной речи;
3. Охарактеризовать звуковой корпус «Один речевой день»;
4. Определить параметры для составления и статистического анализа частотного списка (далее - Частотник ОРД) повседневной речи.
5. Описать изменение статистических характеристик Частотника при изменении его объема.
Для решения поставленных задач применяются описательные и статистические методы (методы оценивания неизвестных параметров распределения и моделирования).
В качестве материала исследования были выбраны текстовые расшифровки звукозаписей 35 информантов в объеме 200 000 словоупотреблений из корпуса «Один речевой день». Текстовые примеры, приводимые в работе, также взяты из Корпуса ОРД.
Объект настоящего исследования - повседневная устная речь. Его предметом стало изменение количественных показателей лексических единиц в частотном словнике.
Научная новизна работы обусловлена тем, что устная спонтанная речь впервые становится материалом подобного статистического исследования.
Теоретическая и практическая значимость полученных результатов заключается в том, что они позволили выявить наиболее устойчивые статистические параметры для частотного словаря устной спонтанной речи, что дает возможность провести в дальнейшем сравнение с другими частотными словарями, а также сделать прогноз изменения показателей при увеличении объема словаря.
Апробация результатов работы: доклады по вопросам, рассматриваемым в выпускной квалификационной работе, были представлены на Международной научной конференции «Голоса города: языковая вариативность и коммуникативное разнообразие» и на 45 Международной филологической научной конференции.
Работа состоит из введения, двух глав, заключения и двух приложений. Первая глава посвящена теоретическим проблемам, связанным с определением места повседневной речи в современной лингвистике, возможностей и инструментов ее статистического описания. Во второй главе проводится анализ количественных изменений в повседневной лексике при изменении объема выборки. В заключении подводятся итоги исследования
В первой главе мы проанализировали связь статистики с современной лексикографией. Отметили ее возрастающую роль в лингвистических исследованиях. Рассмотрели типы частотных словарей и оценили преимущества современных частотных словарей на примере крупнейших корпусных.
Говоря о повседневной речи, мы отметили растущий интерес к ее изучению. Проанализировали особенности, потенциально влияющие на состав частотных списков. Также отметили отсутствие четкого определения для этого лингвистического явления и неоднозначность подходов.
Рассмотрев возможности и преимущества Корпуса ОРД, мы выделили такие его особенности, определяющие выбор его в качестве материала: методика 24-часовой записи информантов; сбалансированность Корпуса по нескольким параметрам; развитая система аннотирования расшифровок звукозаписей.
Во второй главе мы описали процесс составления Частотника ОРД, особенности методики и вошедших в него единиц. Также отобрали девять статистических характеристик, по которым можно описать его динамику. Произвели расчеты, построение статистических рядов, как эмирических, так и сглаженных, и соответствующих им графиков. Мы отметили, что все параметры, кроме индекса разнообразия, имеют тенденцию к росту по мере увеличения объема выборки. Наибольшую нестабильность проявили коэффициент разнообразия, ранговое среднее и индекс Хирша. Также мы выяснили, что повседневная речь отличается эгоцентричностью и несколько беднее художественной.
Анализ выявил три устойчивых параметра, не зависящих от объемы выборки: частота самого частотного слова, медиана и золотое сечение. На основании этих параметров может быть проведено сравнение различных частотных словарей и прогноз дальнейшего изменения словаря.
Проделанная работа в дальнейшем может лечь в основу построения профилей частотных словарей на порядковых статистиках.
Говоря о повседневной речи, мы отметили растущий интерес к ее изучению. Проанализировали особенности, потенциально влияющие на состав частотных списков. Также отметили отсутствие четкого определения для этого лингвистического явления и неоднозначность подходов.
Рассмотрев возможности и преимущества Корпуса ОРД, мы выделили такие его особенности, определяющие выбор его в качестве материала: методика 24-часовой записи информантов; сбалансированность Корпуса по нескольким параметрам; развитая система аннотирования расшифровок звукозаписей.
Во второй главе мы описали процесс составления Частотника ОРД, особенности методики и вошедших в него единиц. Также отобрали девять статистических характеристик, по которым можно описать его динамику. Произвели расчеты, построение статистических рядов, как эмирических, так и сглаженных, и соответствующих им графиков. Мы отметили, что все параметры, кроме индекса разнообразия, имеют тенденцию к росту по мере увеличения объема выборки. Наибольшую нестабильность проявили коэффициент разнообразия, ранговое среднее и индекс Хирша. Также мы выяснили, что повседневная речь отличается эгоцентричностью и несколько беднее художественной.
Анализ выявил три устойчивых параметра, не зависящих от объемы выборки: частота самого частотного слова, медиана и золотое сечение. На основании этих параметров может быть проведено сравнение различных частотных словарей и прогноз дальнейшего изменения словаря.
Проделанная работа в дальнейшем может лечь в основу построения профилей частотных словарей на порядковых статистиках.



