МОДЕЛИРОВАНИЕ КОНТЕНТ-АНАЛИЗА ПУБЛИЦИСТИЧЕСКИХ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ (НА МАТЕРИАЛЕ ПРЕДМЕТНОЙ ОБЛАСТИ «ТЕРРОРИЗМ»)
|
Введение 3
Глава 1 Исторические и методологические основания для проведения контент-анализа 6
1.1 Исторические сведения о контент-анализе 6
1.2 Области применения контент-анализа 9
1.3 Моделирование и единицы измерения контент-анализа 12
Выводы по главе 1 16
Глава 2 Применение метода моделирования контент-анализа 18
2.1 Проведение первого уровня моделирования контент-анализа в
TransDict 20
2.2 Проведение второго уровня моделирования контент-анализа 30
2.3 Результаты проведения автоматической процедуры 45
Выводы по главе 2 48
Заключение 50
Библиографический список 51
Приложение 1 57
Приложение 2 65
Глава 1 Исторические и методологические основания для проведения контент-анализа 6
1.1 Исторические сведения о контент-анализе 6
1.2 Области применения контент-анализа 9
1.3 Моделирование и единицы измерения контент-анализа 12
Выводы по главе 1 16
Глава 2 Применение метода моделирования контент-анализа 18
2.1 Проведение первого уровня моделирования контент-анализа в
TransDict 20
2.2 Проведение второго уровня моделирования контент-анализа 30
2.3 Результаты проведения автоматической процедуры 45
Выводы по главе 2 48
Заключение 50
Библиографический список 51
Приложение 1 57
Приложение 2 65
Самым распространенным видом информации является текстовая информация, поэтому наиболее популярным видом как научного, так и научно-практического анализа является анализ текстов. При анализе текстов наиболее распространен метод выделения из всего текстового массива наиболее существенных и важных для направления конкретного исследования элементов. В настоящее время всё больший интерес проявляется к такой области исследований текста как контент-анализ. Отличительной особенностью данного метода является то, что он формализован. Формализованность, систематичность и строгость контент-анализа проявляется в том, что исследование проводится на основании методологически обоснованной программы, по определенным процедурам и служит для получения информации, отвечающей некоторым критериям качества [Иудин 2010]. Современные технологии позволяют проводить автоматический контент-анализ большого массива текстов за короткое время. Однако результаты такого контент-анализа не всегда точны. Это обусловлено тем, что автоматическая обработка текста не безошибочно размечает корпус текста. Усиление точности компьютерных методов - задача для прикладного лингвиста, поскольку с помощью ручной разметки он может создать «эталонный» корпус, на основе которого проводится дальнейшая компьютерная обработка текстов.
Актуальность данной дипломной работы определяется необходимостью обработки текста именно на автоматизированном уровне для извлечения определенной информации из больших объемов текстов. Контент-анализ позволяет быстрее анализировать значительные объемы текста.
Объектом исследования было выбрано моделирование контент- анализа публицистических текстов на русском языке на материале террористических текстов через анализ лексических единиц.
Предметом исследования являются
лексические единицы соотносящиеся с концептами релевантными для публицистических текстов в области «терроризм».
Целью данного исследования является построение модели контент- анализа.
Гипотезой данного исследования является утверждение о том, что на материале составленной модели контент-анализа можно автоматически определить языковые категории относящиеся к публицистическим текстам террористического характера.
Проблема, цель, объект и предмет исследования определяют следующие задачи:
1) Изучение теоретических аспектов контент-анализа
2) Составление корпуса публицистических текстов на русском языке
3) Разработка двухуровневой модели контент-анализа
4) Полуавтоматическая разметка текстов для проведения контент-анализа
5) Выявление и исправление неточностей при полуавтоматической разметке
6) Выявление релевантных и частотных категорий в каждом тексте
7) Анализ и интерпретация полученных результатов
Материалом данного исследования послужил составленный мною корпус текста из 15 сайтов новостного источника «Google Новости» , состоящий из 3155 словоформ на русском языке, в публицистическом жанре, на террористическую тематику.
Теоретико-методологической базой исследования послужили работы Г. Ласуэлла, Е. Таршиса, Л. Ньюмана, А.В. Семеновой, М. В. Корсунской, А. А. Иудина, А. М. Рюмина.
Базой для практической части исследования послужила программа TransDict, разработанная С. О. Шереметьевой.
Практическая значимость данной дипломной работы заключается в результатах обработки текста, описании основных концептов при анализе текстов на тему терроризма, которые позволили составить определенный лексикон для публицистических текстов на русском языке, что в дальнейшем может использоваться в качестве базы знаний в системе контент-анализа и курсов по прикладной лингвистике.
Теоретическая значимость отражает вклад в теорию автоматического анализа текстовой информации, в теорию автоматизированных систем в целом за счет построения модели контент-анализа.
Структура работы состоит из введения, теоретической части («Исторические и методологические основания для проведения контен- анализа»), разделы которой посвящены историческим основаниям контент- анализа, областям применения контент-анализа и особенности контент- анализа в текстах СМИ. В частности, в первой главе рассматриваются определение понятий «контент-анализ», история и области применения контент-анализа, а так же техника проведения контент-анализа и его классификация. Вторая часть, практическая («Методология и техника контент-анализа в текстах СМИ»), посвящена автоматическому контент- анализу выбранного материала при помощи программы TransDict. В ней описаны основные категории, которые используются при составлении корпусов, методы исследования корпуса, процедура проведения контент- анализа в программе TransDict, процедура ручного анализа неверно выделенных в ходе автоматического анализа материала и, наконец, анализа и интерпретация результатов. В заключении кратко изложены результаты данной дипломной работы. В приложении приведен корпус текстов, послуживший базой для данного исследования, размеченный автоматически корпус текстов, дополненный ручной разметкой корпус текстов и список наиболее частотных слов, характерных для выбранной тематики.
Объем работы - работа состоит из 79 страниц, в том числе и
библиографический список, состоящий из 31 наименования и Приложение.
Актуальность данной дипломной работы определяется необходимостью обработки текста именно на автоматизированном уровне для извлечения определенной информации из больших объемов текстов. Контент-анализ позволяет быстрее анализировать значительные объемы текста.
Объектом исследования было выбрано моделирование контент- анализа публицистических текстов на русском языке на материале террористических текстов через анализ лексических единиц.
Предметом исследования являются
лексические единицы соотносящиеся с концептами релевантными для публицистических текстов в области «терроризм».
Целью данного исследования является построение модели контент- анализа.
Гипотезой данного исследования является утверждение о том, что на материале составленной модели контент-анализа можно автоматически определить языковые категории относящиеся к публицистическим текстам террористического характера.
Проблема, цель, объект и предмет исследования определяют следующие задачи:
1) Изучение теоретических аспектов контент-анализа
2) Составление корпуса публицистических текстов на русском языке
3) Разработка двухуровневой модели контент-анализа
4) Полуавтоматическая разметка текстов для проведения контент-анализа
5) Выявление и исправление неточностей при полуавтоматической разметке
6) Выявление релевантных и частотных категорий в каждом тексте
7) Анализ и интерпретация полученных результатов
Материалом данного исследования послужил составленный мною корпус текста из 15 сайтов новостного источника «Google Новости» , состоящий из 3155 словоформ на русском языке, в публицистическом жанре, на террористическую тематику.
Теоретико-методологической базой исследования послужили работы Г. Ласуэлла, Е. Таршиса, Л. Ньюмана, А.В. Семеновой, М. В. Корсунской, А. А. Иудина, А. М. Рюмина.
Базой для практической части исследования послужила программа TransDict, разработанная С. О. Шереметьевой.
Практическая значимость данной дипломной работы заключается в результатах обработки текста, описании основных концептов при анализе текстов на тему терроризма, которые позволили составить определенный лексикон для публицистических текстов на русском языке, что в дальнейшем может использоваться в качестве базы знаний в системе контент-анализа и курсов по прикладной лингвистике.
Теоретическая значимость отражает вклад в теорию автоматического анализа текстовой информации, в теорию автоматизированных систем в целом за счет построения модели контент-анализа.
Структура работы состоит из введения, теоретической части («Исторические и методологические основания для проведения контен- анализа»), разделы которой посвящены историческим основаниям контент- анализа, областям применения контент-анализа и особенности контент- анализа в текстах СМИ. В частности, в первой главе рассматриваются определение понятий «контент-анализ», история и области применения контент-анализа, а так же техника проведения контент-анализа и его классификация. Вторая часть, практическая («Методология и техника контент-анализа в текстах СМИ»), посвящена автоматическому контент- анализу выбранного материала при помощи программы TransDict. В ней описаны основные категории, которые используются при составлении корпусов, методы исследования корпуса, процедура проведения контент- анализа в программе TransDict, процедура ручного анализа неверно выделенных в ходе автоматического анализа материала и, наконец, анализа и интерпретация результатов. В заключении кратко изложены результаты данной дипломной работы. В приложении приведен корпус текстов, послуживший базой для данного исследования, размеченный автоматически корпус текстов, дополненный ручной разметкой корпус текстов и список наиболее частотных слов, характерных для выбранной тематики.
Объем работы - работа состоит из 79 страниц, в том числе и
библиографический список, состоящий из 31 наименования и Приложение.
В процессе данной дипломной работы были теоретически осмыслено понятие «контент-анализ», его история и методы. В ходе работы был создан корпус текстов в предметной области терроризма на материалах СМИ, в который вошло 15 источников. На основе данного корпуса был проведен автоматический контент-анализ. Для проведения контент-анализа были выделены концепты, характерные для данной предметной области. Контент- анализ сочетал в себе автоматизированный и ручной подходы к выделению концептов. Так, сначала при помощи TransDict было проведено полуавтоматическое семантическое аннотирование, далее некоторые из концептов уточнялись вручную. Затем был составлен список частотных слов, на основе которого были выделены основные концепты, характерные для данной предметной области, конкретные лексемы, которые служат идентификаторами данных концептов и анализ распределения концептов внутри каждого из текстов. Были выделены слабые стороны автоматического контент-анализа и предложены способы
совершенствования его путем ручной разметки.
совершенствования его путем ручной разметки.





