🔍 Поиск готовых работ

🔍 Поиск работ

Создание частотных словарей на базе корпусов текстов

Работа №196482

Тип работы

Дипломные работы, ВКР

Предмет

лингвистика

Объем работы50
Год сдачи2018
Стоимость4500 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
18
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1 Корпус текстов - новый тип источника лингвистического исследования 7
1.1 Определение понятие «корпус» в современной лингвистике 7
1.2 Принципы построения корпусов текстов 13
1.3 Электронный текст в качестве основы корпуса 16
1.4 Частотные словари: история, типы и их составление 19
1.5 Применение частотных словарей 24
Выводы по главе 1 26
Глава 2 Создание частотного англо-русского словаря инструкций к лекарственным препаратам 30
2.1 Отбор текстов и программное обеспечение 30
2.2 Анализ частотной лексики. Принципы минимизации 36
2.3 Частотный словарь инструкций к лекарственным препаратам 38
Выводы по главе 2 40
Заключение 43
Список литературы 46


Компьютерные технологии очень плотно вошли не только в нашу повседневную жизнь, но и в область научных исследований. Сложно переоценить степень полезности их использования в корпусной лингвистике, в частности, функционирование которой, как разновидности научной деятельности, целиком и полностью зависимы от используемого программного обеспечения. Создание частотных словарей, в данном случае словаря по использованию медицинских препаратов, - одна из наиболее высокоприоритетных задач данного вида лингвистики и её реализация была бы значительно сложнее без использования современных компьютерных технологий.
Актуальность исследования обусловлена возрастающей частотой применения компьютерных технологий при исследовании определенных языковых явлений, а также, при составлении словарей, чья максимальная эффективность на этапе изучения их читателем может быть достигнута лишь благодаря цифровой обработке в подавляющем большинстве моментов работы над ними. Лаконичность идеального словаря прямо пропорциональна его информативности. При сравнении второго из этих двух параметров с аналогичным какого-либо другого, более крупного словника по идентичной теме, разницы между ними не будет ни в количественном, ни в процентном соотношении. В ином случае преимущество окажется на стороне грамотно составленного частотного словаря. Это достигается путем использования программного обеспечения, позволяющего определить слова, которые покрывают наиболее обширный спектр текста и посредством минимизации лексических единиц, представляющих незначительный процент их проявления в тексте. Таким образом, согласно Н.Н. Петрушевской и Л.Н. Беляевой, необходимо учитывать при составлении словаря не все слова по определенной теме, а 85% из них с наивысшим процентом покрытия текста. Следование ранее упомянутым принципам составления словаря позволяет многократно сократить его размер по сравнению с первоначальным видом без потери информативности, и, соответственно, влечет за собой более качественное и продуктивное восприятие читателем, экономию им сил и времени, что подтверждает актуальность исследования.
Цель исследования заключается в создании англо-русского частотного словаря на базе корпуса текстов.
Новизна работы: впервые был создан англо-русский частотный словарь на основе корпуса англоязычных инструкций по применению медицинских препаратов посредством использования LINES SORTER, сервиса textanalysisonline.com, а также путём включения в процесс работы кодов, разработанных в процессе создания словаря и служащих для упрощения и автоматизации некоторых аспектов работы.
Объектом исследования являются частотные англо-русские словари.
Предмет исследования: процесс создания англо-русского частотного словаря на основе корпуса англоязычных инструкций по применению лекарственных препаратов.
Задачи исследования:
1) проанализировать состояние проблемы корпусной лингвистики;
2) уточнить понятия «корпус» и «частотный словарь»;
3) выявить основные принципы сбора корпуса текстов и составления частотного словаря;
4) собрать корпус инструкций к лекарствам на английском языке;
5) составить полноценный англо-русский частотный словарь, включающий в себя слово, его перевод, транскрипцию и пример использования.
Материал исследования: англоязычный корпус медицинской тематики, состоящий из 50 инструкций по применению лекарственных препаратов, выбранных с государственного веб-сайта США medlineplus.gov. Объем корпуса составил: 82490 словоупотреблений 2866 слов. В общей сложности он представляет собой 424642 символов без учета пробелов.
Методы исследования:
- аналитический метод: анализ научной литературы по теме исследования и научных концепций в современных исследованиях;
- описательный метод, целью использования которого является изучение и дальнейшая систематизация материала по данной проблематике;
- сравнительный метод был использован для конкретного определения представленных в теме понятий, отталкиваясь от различных точек зрения научных деятелей, чьи труды были использованы в настоящем исследовании;
- метод сплошной выборки: сбор корпуса текстов по определенной теме без установки дополнительных параметров отбора;
- метод структурного анализа: распределение слов в частотном списке в алфавитном порядке, в порядке убывания частоты, а также разработка структуры конечной версии словаря.
Теоретическая значимость исследования заключается в том, что полученные в ходе исследования выводы вносят определенный вклад в разработку и развитие теории корпусной лингвистики.
Практическая значимость исследования заключается в возможности использования его результатов в вузовских курсах по основам информационных технологий, лексикографии, а также для создания англо-русских словарей на любую тематику, в том числе и на медицинскую.
Структура и объем работы. Работа состоит из введения, теоретической части, практической части, 11 рисунков и заключения.
Во введении дается обоснование актуальности и выбора темы исследования, определяются объект, предмет, цель, задачи и методы исследования, а также его научная новизна, теоретическая и практическая значимость.
Теоретическая часть исследования состоит из шести разделов, посвященных теоретическим основам изучения аспектов, касающихся корпусов текстов, частотных словарей и их синергии. В результате их 5
рассмотрения были сформулированы теоретические принципы, заложенные в данное исследование, которые представлены в выводах к первой главе.
В практической части отражена поэтапно работа по созданию словаря, сопровождаемая графическими элементами, и даётся информация по используемому программному обеспечению, а также аргументирована необходимость создания и эксплуатации отдельных программных кодов в контексте данного исследования
В заключении подведены основные итоги проделанной работы и сформулированы общие выводы.
Библиографический список состоит из 51 источников научной литературы на русском и английском языках.
В приложении представлен англо-русский частотный словарь инструкций к медицинским препаратам, включающий в себя слово, его транскрипцию и перевод, а также пример употребления.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Данная работа посвящена созданию частотного англо-русского словаря на основе корпусов текстов. Высокая значимость исследований в области корпусной лингвистики, к которой она относится, выражена в отсутствии границ совершенствования процесса создания частотных словарей и непосредственно качества самих словарей, что делает данное исследование одним из многих шагов, проделанных лингвистами на пути к преодолению межъязыкового барьера, каждый из которых является новым в некоторой степени, так как прогрессия в данной области возможна исключительно при использовании в работе инновационных технологий и программного обеспечения, чье число растет неимоверно быстро в наше время.
В процессе данной работы был собран корпус текстов англоязычных инструкций к применению лекарственных препаратов, частотный список этого корпуса, а также, на его основе, был создан частотный англо-русский словарь.
На первоначальном этапе были изложены и приведены основные понятия и проблемы, касающихся как тематики корпусов текстов, так и частотных словарей. Была рассмотрена история их создания, а также предпосылки, которые привели к этому. Роль корпусов текстов, во всем их многообразии, наряду с аналогичной характеристикой частотных словарей, их задачи и принципы построения были подвержены объективной оценке в данном исследовании. Объективностью в данном случае понимается не только рассмотрение плюсов определенного явления, но так же и его минусов, их сравнение и приведение соответствующих выводов, которые, в большинстве своём, оказались положительными по отношению к характеризуемому ими предмету.
Сам по себе корпус текстов, представленный в данном исследовании, не несет никакой пользы. Но, в комбинации с действиями, проделанными на протяжении второго этапа, его полезность будет сложно переоценить.
Изначально была выбрана тематика будущего корпуса, для этого был осуществлен анализ существующих корпусов текстов в открытом доступе, на основе которого выяснилось, что данная тематика недостаточно развита в контексте корпусов и частотных словарей. Более того, на выбор повлияли и логические заключения по размышлениям о полезности и практической значимости реализации словаря по данной теме вне вышеизложенных контекстов. На самом деле, нецелесообразно будет оспорить тот факт, что медицина является неотъемлемой частью нашей жизни и нельзя не воспользоваться шансом предоставить людям возможность пополнить свой словарный запас путем изучения словаря, представленного в данном исследовании.
После выбора темы образовался вопрос о возможности наличия в словаре компонентов состава лекарственных средств. Было решено исключить их из корпуса, так как это латинские названия, использование и присутствие в корпусе и словаре не только поставит под сомнение актуальность, но и станет отягощающим фактором, представляющим собой наличие третьего языка, имеющего высокую степень визуальной схожести с английским языком. Безусловно, это скажется как на качестве, так и на времени выполнения работы.
Следующим этапом было решено также исключить из корпуса все цифры и ссылки. Токенизация, или же преобразование сплошного текста в частотный список слов, послужила разделительной чертой от предыдущей части исследования. Если до этого момента мы работали с корпусом текстов, то теперь все операции осуществлялись путем изменения частотного списка посредством того или иного кода Python.
Каждая новая ступень исследования характеризовалась возникновением новой особенности, решить которую было необходимо для достижения максимального КПД изучения словаря его будущим читателем. Новой особенностью на этом этапе стал результат наличия такого языкового явления, как словоформы. Благодаря использованию NLTK в среде языка 44
программирования Python была произведена лемматизация частотного списка, которая привела все словоформы в их изначальный вид и это повлекло за собой образование в списке повторяющихся слов. Эта проблема была так же успешно решена при помощи кода Python, который произвел удаление повторов и сложение их частот. Список на данном этапе сократился на 16%, но это не было последним случаем редуцирования его объема. Согласно изученному материалу, мы сделали вывод о том, что достаточно присутствия в словаре 85% слов, покрывающих текст в наибольшей степени в процентном соотношении. Убрав оставшиеся 15% слов, мы уменьшили объем списка на 544% и в то же время увеличили степень его полезности по отношению к будущему реципиенту на этот же процент.
Последней ступенью, которую необходимо было преодолеть, оказалось широкое распространение конверсии в английском яззыке. Но преодолеть эту проблему нужно было не путем её исключения из списка, как это было на предыдущих этапах, а наоборот, требовалось дополнить представленные в списке слова их конверсивными формами так же подвергнуть их переводу, таким образом будет обеспечен более полный охват области словоупотреблений словарем, а следовательно и его пользователем. Этот нюанс так же, как и предыдущие, был учтен при разработке программы для создания англо-русского частотного словаря.
Все упомянутые в исследовании коды и задачи, для решения которых они предназначены, были расписаны подробно в сопровождении графического материала. Таким образом, структура работы над словарем представлена здесь в виде открытой книги, из которой исследователь, решивший ознакомиться с данной тематикой, может использовать любую понравившуюся ему страницу для внесения своего собственного вклада в область компьютерной лингвистики и языкознания в целом.



1. Адмони, В.Г. Система форм речевого высказывания / В.Г. Адмони. - СПб.: Наука, 1994. - 151 с.
2. Алексеев, П. М. Квантитативная типология текста: дис. ... докт. филол. наук / Алексеев Михаил Павлович. - Л., 1977. - 337 с.
3. Алексеев, П.М. Статистическая лексикография / П.М. Алексеев. - Л.: Изд-во Ленингр. ун-та, 1975. - 119 с.
4. Алексеев, П.М. К тридцатилетию советской лингвостатистики / П.М. Алексеев, В.Н. Бычков // Прикладная лингвистика и автоматический анализ текста. - Тарту: Изд-во Тарт. ун-та, 1988. - С. 3-4.
5. Андреев, C.B. Программное обеспечение для создания и использования фонетических баз данных / С.В. Андреев // Речевая и музыкальная информатика. - М.: ВЦ РАН, 1992. - С. 81-96.
6. Андрющенко, В.М. Автоматическая обработка текста / В.М. Андрющенко // Лингвистический энциклопедический словарь / гл. ред. В.Н. Ярцева. - М.: Советская энциклопедия, 1990. - С. 14-15.
7. Андрющенко, В.М. Концепция и архитектура машинного фонда русского языка / В.М. Андрющенко. - М.: Наука, 1989. - 200 с.
8. Апресян, Ю.Д. Идеи и методы современной структурной лингвистики / Ю.Д. Апресян. - М.: Просвещение, 1966. - 300 с.
9. Арапов, М.В. Квантитативная лингвистика / М.В. Арапов. - М.: Наука, 1988. - 183 с.
10. Афифи, А. Статистический анализ: Подход с использованием ЭВМ / А. Афифи, С. Эйзен. - М.: Мир, 1982. - 488 с.
11. Бабанаров, А. Разработка принципов построения словарного обеспечения турецко-русского машинного перевода: автореф. дис. ... канд. филол. наук / Бабанаров Абдумумин. - Л., 1981. - 17 с.
12. Баранов, А.Н. Введение в прикладную лингвистику / А.Н. Баранов. - М.: Эдиториал УРСС, 2001. - 358 с.
13. Баранов, А.Н. Проблема репрезентативности корпуса текстов / А.Н. Баранов // Труды Международного семинара Диалог-2001 по компьютерной лингвистике и её приложениям. - М.: РГГУ, 2001. - С. 35-42.
14. Безбородова, В.Н. Частотно-англо-русский словарь: Подъязык истории / В.Н. Безбородова. - Л.: Изд-во ЛГУ, 1984. - 137 с.
15. Беляева, Л.Н. Автоматизация в лексикографии / Л.Н. Беляева,
A. С. Герд, И.И. Убин // Прикладное языкознание. - СПб.: Изд-во СПб-ского ун-та, 1996. - С. 43-52...54



Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ