Оглавление
1. Основные понятия словообразования в общелитературном языке и
языках для специальных целей 7
1.1. Деривационные процессы 7
1.2. Понятия «мотивация» и «производность» 8
1.3. Особенности формирования словообразовательного значения 9
1.4. Классификация способов словообразования 10
1.4.1. Образование существительных 16
1.4.2. Образование глаголов 17
1.4.3. Образование прилагательных 17
2. Терминологический компонент содержания текста 20
2.1. Понятие «термин» и его определения 20
2.2. Терминоэлемент и его соотношение с термином 27
2.3. Основные особенности образования терминов 30
2.3.1. Способы терминообразования 31
2.3.2. Характерные черты медицинской терминологии 36
2.4. Подходы к автоматическому выделению терминов 42
2.4.1. Классификация подходов к автоматическому извлечению
терминологии 42
2.4.2. Системы автоматического извлечения терминологии 47
3. Использование деривационных преобразований терминоэлементов
для автоматического поиска терминов 59
3.1. Предварительная подготовка: анализ текста, выделение аффиксов и
опорных основ 60
3.2. Программа по автоматическому извлечению терминов 63
3.3. Анализ результатов эксперимента 67
Заключение 73
Список литературы 76
Приложение 1 76
Приложение 2 82
Наша работа посвящена созданию программы по автоматическому извлечению терминологии из медицинских текстов на основе деривационных преобразований терминоэлементов.
Автоматическое извлечение терминологии - подзадача автоматического извлечения информации - область, развивающаяся в данный момент очень активно. Автоматическое извлечение информации, в общем, используется, например, для заполнения баз данных структурированной информацией или для усовершенствования информационного поиска. Автоматическое извлечение терминологии служит для создания словарей, тезаурусов, онтологий, помогает в разработке логико-понятийной системы конкретной области знания и унификации терминологии, используется при создании систем автоматического перевода, при создании баз знаний.
Активное развитие автоматического извлечения терминологии началось в конце 80х - начале 90х гг. XX века. В тот период стали появляться первые большие текстовые автоматически анализируемые корпусы и первые системы автоматического извлечения терминологии. В дальнейшем стало появляться множество систем извлечения терминологии, основанных на статистических и лингвистических данных, каждая из которых имеет ряд особенностей. Примеры таких систем будут приведены во 2 главе.
В нашей работе мы будем проводить эксперимент по извлечению только однословных терминов. Кроме того, мы будем рассматривать узко специальную область офтальмологии, что на данном этапе избавит нас от трудностей, связанных с определением предметной области текста.
Отличительной особенностью медицинской терминологии является то, что макросистема медицинской терминологии включает в себя множество микросистем, таких как эндокринологическая, дерматологическая,
анатомическая и др. Эти системы тесно связаны между собой, часто можно наблюдать пересечение этих систем. В то же время медицинская терминология пересекается с терминологическими системами таких наук, как биология и химия, что усложняет задачу автоматического определения предметной области и тематики текстов: медицинский текст может быть ошибочно отнесен к биологичкой или химической тематике.
Следует так же отметить, что наш алгоритм строится на предположении, что в текстах можно выделить целые деривационные ряды терминов, на основе которых и строится работа нашей программы.
Целью работы является разработка программы автоматического извлечения терминологии из медицинских текстов на основе деривационных преобразований терминоэлементов. Исходя из данной цели, а также учитывая указанные выше проблемы, формулируются следующие задачи:
1) анализ основных понятий словообразования;
2) анализ понятия «термин», его определений, составление списка основных характеристик термина, особенностей терминообразования;
3) описание особенностей медицинской терминологии;
4) описание подходов к автоматическому извлечению терминологии;
Предполагается также решение следующих практических задач:
1) создание корпуса медицинских текстов по офтальмологической тематике;
2) морфологический анализ корпуса с помощью морфологического анализатора;
3) проверка слов корпуса на предмет отсутствия анализа;
4) составление списка опорных основ и основных деривационных моделей, характерных для текстов по данной тематике;
5) создание программы по автоматическому извлечению терминологии на основе списков аффиксов и опорных основ и деривационных преобразований терминоэлементов.
Материалом для исследования корпус медицинских текстов по офтальмологии. Корпус был автоматически размечен морфологическим анализатором, после чего был разработан сам алгоритм выделения терминологии и реализована программа извлечения терминологии.
Актуальность данной работы обусловлена необходимостью создания процедуры автоматического извлечения терминологии из медицинских текстов на русском языке. Такая процедура даст возможность полуавтоматического составления словарей медицинских терминов, заполнения баз данных, улучшит качество поиска по текстам с медицинской тематикой, что, в свою очередь, позволит создать приложения для автоматического заполнения и ведения медицинских документов.
В ходе нашей работы был проведен анализ основных понятий словообразования, рассмотрены различные определения понятия «термин», составлен список основных характеристик термина и описаны особенности медицинской терминологии.
Были выполнены поставленные перед нами цели и задачи: результатом нашей работы стала программа по автоматическому извлечению однословных терминов из медицинских текстов.
При создания программы по автоматическому извлечению терминологии были предприняты следующие шаги: был создан корпус медицинских текстов по офтальмологической тематике, который впоследствии был разбит на два подкорпуса (тренировочный и тестовый подкорпусы); для обоих подкорпусов был проведен автоматический морфологический анализ с помощью морфологического анализатора; на основе проведенного морфологического анализа слов тренировочного подкорпуса были созданы списки префиксов, опорных основ и аффиксов; с помощью этих списков в дальнейшем проводилось собственно извлечение медицинской терминологии.
В ходе реализации алгоритма автоматического извлечения терминов мы столкнулись с рядом сложностей, некоторые из которых удалось решить в ходе работы, другие планируется решить в дальнейшем. Одной из проблем, которую нам удалось решить, была проблема лемматизации (приведения слов текста к начальной форме) для того, чтобы можно было удалить окончание и работать только с основой слова (это касается прилагательных). Проблема была решена применением специальной опции морфологического анализатора, позволяющей приводить в скобках лемму или гипотетическую лемму. Таким образом, поиск производился не по словоформам из текста, а по соответствующим леммам.
Как уже было упомянуто ранее, актуальность нашей работы обуславливается тем, то на данный момент существует потребность в создании системы по автоматическому извлечению терминологии из медицинских текстов. Появление такого инструмента способствовало бы дальнейшему развитию методов по созданию баз данных по медицинской тематике, автоматизированному составлению медицинских словарей и энциклопедий, способствовало бы улучшению качества поиска по медицинским текстам, и, как следствие, позволило бы усовершенствовать инструменты для автоматического заполнения медицинской документации и прочих структурированных форм по данной тематике.
В нашей работе была представлена реализация алгоритма выделения однословных терминов. В дальнейшем планируется расширить и модифицировать созданную нами программу для извлечения многословных терминов.
1. Cabre Castellvi M. Teresa, Rosa Estopa Bagot, Jordi Vivaldi Palatresi Auto-matic term detection: a review of current systems
2. Enguehard, C., Pantera, L., Automatic Natural Acquisition of a Terminology // Journal of Quantitative Linguistics, vol.2, n°1, p.27-32, 1995.
3. Heid U., Jauss S., Krueger K., Hohmann A. Term extraction with standard tools for corpus exploration. Experience from German 1996 // Terminology and Knowledge Engineering, 139-150. Berlin: Indeks Verlag
4. Jacquemin C. FASTR: A unification based front-end to automatic indexing 1994
5. Klavans, Muresan DEFINDER: Rule-based Methods for the Extraction of Medical Terminology and their Associated Definitions from On-line Text 2000
6. Sanja S. Comparative Analysis of Automatic Term and Collocation Extraction. 2009
7. Seljan S.; Gaspar A. First Steps in Term and Collocation Extraction from Eng-lish-Croatian Corpus // Proceedings of 8th International Conference on Termi-nology and Artificial Intelligence, Toulouse, France, 2009
8. Арнольд И. В. Лексикология современного английского языка. М.: Высшая школа, 1986.
9. Ахманова О. С. Терминология лингвистическая // Лингвистический энциклопедический словарь.
10. Ахманова, О. С. Словарь лингвистических терминов. М.: Сов. Энциклопедия, 1966.
11. Браславский П.И., Соколов Е.А. Cравнение пяти методов извлечения терминов произвольной длины // По материалам ежегодной Международной конференции «Диалог», 2008
12. Винокур Г. О. О некоторых явлениях словообразования в русской технической терминологии. // Тр. Моск. ин-та истории, философии и литературы. Филологический ф-т. Т. 5. М., 1939.
13. Винокур Г.О. Заметки по русскому словообразованию // Избранные работы по русскому языку. М., 1959
14. Герд A. C. Формирование терминологической структуры русского биологического текста. Л.: Изд-во ЛГУ, 1981. 112 с.
15. Герд А. С. Введение в изучение ЯСЦ, 2011
16. Герд А. С. Формирование терминологической структуры русского биологического текста 1981
17. Головин Б. Н Лингвистические основы учения о терминах. М.: Высшая школа, 1987. 103с.
18. Головин Б. Н., Кобрин Р Ю. Лингвистические основы учения о терминах. М.: Высшая школа, 1987.
19. Гринев C. B. Введение в терминоведение. М.: Московский лицей, 1993. 309 с.
20. Даниленко В. П. Лингвистический аспект стандартизации терминологии. М.: Наука, 1993.
21. Даниленко В. П. Русская терминология: опыт лингвистического описания. М.: Наука, 1977
22. Ефремова Н.Э., Большакова Е.И., Носков А.А., Антонов В.Ю. Терминологический анализ текста на основе лексико-синтаксических шаблонов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» М.: Изд-во РГГУ, 2010, с. 124-129.
23. Евгеньева А. П. Словарь русского языка: В 4-х т. — М.: Русский язык, 1981—1984
24. Ефремова Т.Ф. Новый толково-словообразовательный словарь русского языка. М., 2000.
25.Захаров В.П., Хохлова М.В. Автоматическое извлечение терминов из специальных текстов с использованием дистрибутивно-статистического метода как инструмент создания тезаурусов // Структурная и прикладная лингвистика. Выпуск 9. СПб, 2012 . С. 222-233.
26.Земская Е. А. Активные процессы современного словопроизводства // Русский язык конца XX столетия (1985—1995). — М.: Языки русской культуры, 1996. — С. 90-141.
27.Земская Е.А., Кубрякова Е.С. Проблемы словообразования на современном этапе // Вопросы языкознания, 1978, № 6.
28.Земская.Е. А. Современный русский язык. Словообразование, М., 1973
29. Канделаки Т. Л. Значения терминов и системы значений научно¬технических терминологий // Проблемы языка науки и техники. Логические, лингвистические и историко-научные аспекты терминологии. — Москва: Наука, 1970
30. Кияк Т. Р. Лингвистические аспекты терминоведения. Киев: УМКВО,
1989. 103 с.
31. Кубрякова Е.С., Деривация, транспозиция, конверсия // Вопросы языкознания, 1974, № 5.
32. Кубрякова Е.С., Теория номинации и словообразование. Монография. Изд. 3-е. - М., 2009.
33. Кубрякова Е.С., Типы языковых значений. Семантика производного слова, М., 1981.
34. Курилович Е. Очерки по лингвистике. М., 1962.
35. Лейчик В. M. Применение системного подхода для анализа терминосистем // Терминоведение. № 1-2, 1993. М.: Московский лицей, 1993. С. 23-26.
36. Лейчик В. М. Терминоведение: предмет, методы, структура. — М., КомКнига, 2006
37. Лейчик В.М. Особенности терминологии общественных наук и сферы ее использования // Язык и стиль научного изложения. Лингвометодические исследования. М.: Наука, 1983. - С. 70-88.
38. Лейчик В.М., Шелов С.Д. Лингвистические проблемы терминологии и научно-технический перевод. Вып.18, ч.2. — М., 1991. — 78 с.
39. Лотте Д. С. Вопросы заимствования и упорядочения иноязычных терминов и терминоэлементов. — М., 1982.
40. Лотте Д. С. Некоторые принципиальные вопросы отбора и построения научно-технических терминов. М.; Л., 1941.
41. Лотте Д. С. Основы построения научно-технической терминологии. М.: АН СССР, 1961
42. Марусенко М.А. Об основном понятии терминоведения научно-техническом термине // Научно-техническая информация. Сер.2. 1981. С. 1-6.
43. Покровский В.И. Энциклопедический словарь медицинских терминов M.: Медицина, 2005. — 1592 с.
44. Реформатский A. A. О сопоставительном методе // Русский язык в национальной школе №5. М., 1962
45. Реформатский А. А. Введение в языковедение. М.: Аспект-Пресс, 1997.
46. Суперанская A. B. Общая терминология: вопросы теории. М.: Наука,
1989. 246 с.
47. Суперанская А. В., Подольская Н. В., Васильева Н. В. Общая терминология. Вопросы теории. М.: Наука, 2012
48. Теньер Л., Основы структурного синтаксиса, пер. с франц., М., 1988
49. Шведова Н. Ю. (гл. ред.), Русская грамматика. Т. 1 // М., 1980.
50. Шелов С.Д. Еще раз об определении понятия термин // Вестник Нижегородского университета им. Н.И. Лобачевского, 2010, № 4 (2), с. 795-799.
51. Штунь А. И. Латинский язык для медиков. М.: Эксмо, 2008. - 160 с.
52. Щерба Л. В. Опыт общей теории лексикографии. Л.: Изд-во ЛГУ, 1971.
53. Ярцев В.Н. (гл. ред.), Лингвистический энциклопедический словарь., М.,
1990.