Введение . 3
Биграммы в лингвистике 7
Понятие и основы Биграмма в лингвистике 7
Биграммы в лингвистике 7
Модель Биграмм 11
Разработанная программа.
Системные требования.. 17
Интерфейс программы... 18
Применение программы..... 23
Анализ текстов научного стиля...... 23
Анализ текстов художественного стиля... 28
Результат анализа 34
Заключение 36
Приложение 37
MainWindow.xaml 37
MainWindow.xaml.es. 39
Design.cs 42
Exlm.cs 47
Reports.cs 49
StringEditor.cs 53
Window_N_gram.cs 56
Список использованной литературы
Применение методов анализа данных, а именно метод статистики для анализа текстовой информации с помощью би-грамм таблиц. Текст исследуется в основном в рамках лингвистики, герменевтики, семиотики, культурологии. Очень часто людям приходиться работать с текстом, и не менее часто обрабатывать тексты для анализа содержания этих текстов.
Хочу отметить, что текст любого характера представляет собой систему языковых знаков, речевых единиц и понятий, является продуктом речевого общения. Собственно анализ текста разного вида известен давно и широко используется в самых различных областях. Например, социальной, образовательной, политической, также в военной сферах и в деятельности различных государств. Заметим, что анализ текста, а именно применение би-грамм таблиц для этого, является традиционной задачей.
Анализ - метод научного исследования явлений и процессов, в основе которого лежит изучение составных частей, элементов изучаемой системы. Иными словами это деление объекта изучения на разные составные части, изучение этих составных частей, так же их свойств в отдельности и построение выводов об исходном предмете, его свойствах на основе знаний полученных о его составных частях. Анализ информации это разделение на составляющие и исследование передаваемых авторами сведений.
Актуальными свойствами текста являются целостность, связность. Они образуют содержательное и функционально-стилистическое единство. Так же важные свойства это дискретность и «предрасположенность» к формированию внутри себя микротем и, микросмыслов, представляющих собой комбинацию синтаксических, грамматических и лексических.
Вначале я хочу привести некоторые интересные факты относительно би-грамм таблиц, а также повсеместное использование их в настоящее время.
Следовательно, текст состоит из слов. А слова в текстах состоят из букв. В любом языке количество различных букв ограничено, так же буквы могут просто перечислены. В нашем случае пар букв, повторяемость букв служат важными характеристиками текста.
Би-грамм или N-грамм — последовательность из п элементов. Интерпретация каждой пары последовательных терминов как фразы, представление пар как термина словаря. С семантической точки зрения, это может быть последовательность звуков, слогов, слов или букв. На практике чаще встречается N-грамм как ряд слов. Идея заключается в том, что текущее слово предложения зависит только от предыдущих слов. Причем порядок слов не важен. Мы имеем несколько слов, и нам надо оценить, что следующее слово будет таким. В зависимости, сколько слов берем в контекст, у нас образуется униграмма, если текущее слово зависит только от предыдущего. Би грамма два слова, три грамма три слова. Не менее четырех и выше элементов обозначаются как N-грамм, N заменяется на количество последовательных элементов.
Фактически, когда мы представляем текст в виде би-грамм, весь контент который у нас есть, представляем в виде двухсловных терминов. То есть все двухсловные термины считаем как отдельные слова. Соответственно, в этом случае количество слов не уменьшается.
N-граммы в целом находят свое использование в широкой области наук. Они могут применяться, например, в области теоретической математики, биологии, картографии, а также в музыке. Наиболее часто использование N-грамм, включает следующие области:
• извлечение данных для кластеризации серии спутниковых снимков Земли из космоса, дабы вслед за тем решить, какие определенные части Земли на изображении, поиск генетических последовательностей,
• в области генетики применяются для определения того, с каких конкретных видов животных собраны образцы ДНК,
• в компьютерном сжатии,
• с использованием N-грамм, как правило,
индексированы данные, связанные со звуком.
• в области обработки естественного языка,
о N-граммы применяется в основном для предугадывания на базе вероятностных моделей. N- граммная модель планирует возможность последнего слова N-граммы, если известны все прошлые. При применении сего расклада для моделирования языка ожидается, что появление каждого слова зависит только от предыдущих слов.
о выявление плагиата. В случае если поделить слово на некоторое количество маленьких фрагментов, представленных N-граммами, их очень просто сравнить друг с другом, и этим образом получить уровень сходства контролируемых документов.
о исследовательские центры Google использовали N-граммные модели для широкого круга изучений и разработок. К ним относятся такие проекты, как статистический перевод с 1-го языка на иной, определение речи, поправка орфографических ошибок, извлечение V информации и многое другое. Для целей данных планов были применены слова корпусов, содержащих несколько триллионов слов.
• так же применялись в шифровании. Известный шифр биграммами именуется Playfair. Он применялся Великобританией в Первую мировую войну. Опишем его на случае той же самой таблицы. Слова разбиваются на пары букв (биграммы) и слово шифровки строился из него по следующим 2 довольно обычным правилам:
1. Если обе буквы биграммы начального текста принадлежали одной колонке таблицы, то знаками шифра числились буквы, которые лежали под ними. Так биграмма УН выделяла слова шифровки ВЧ. В случае если буква раскрытого текста находилась в нижнем ряду, то для шифра бралась соответствующая буква из верхнего ряда и биграмма ОЯ выделяла шифр ШБ. (Биграмма из одной буквы или пары одинаковых букв тоже подчинялась данному правилу и текст ЕЕ выделял шифр ИИ).
27 Если обе буквы биграммы исходных слов принадлежали одной строке таблицы, то знаками шифра числились буквы, которые лежали справа от них. Так биграмма ИВ выделяла слово шифровки КГ. В случае если буква раскрытых слов находились в правой колонке, то для шифра бралась сообразный знак из левой колонки и биграмма ОМ давала шифр ДН.
3. Если обе буквы биграммы раскрытых слов лежали в различных рядах и колонках, то взамен их брались такие две буквы, дабы вся четверка их давала прямоугольник. При данном очередности букв в шифре была зеркальной начальной паре.
Цель данной работы заключается в анализе текстов разного стиля и их
сравнение.
Нами было изучено история вторжения Биграмм и в целом N грамм в лингвистике. Были рассмотрены проблемы, с которыми мы встретились при изучении Би-грамм, так же пути исправления ситуации. Мы поняли, что история Би-грамм - это не больше чем один из примеров неизбежного в недоступности содержательных идей торжества техники над здравым смыслом.
В данной работе была представлена программа, которая получилась весьма полезной при анализе текстов разного стиля. В особенности текстов научного и художественного стиля.
В результате анализа мы поняли, что данный метод оказался очень полезным для анализа текстов разного стиля и имеет весьма не плохое будущее для последующего использования. С помощью данного метода анализа текстовой информации мы сможем определить стиль текста, используя биграмм. При этом нам не надо знакомиться с содержанием текстов, не надо тратить времени на их изучении. Всего лишь надо импортировать текст в программу и построить диаграммы для сравнения. Мы предполагаем, собственно, что с помощью предоставленного метода анализа текстовой информации можно определить не только стиль текстов, но и даже автора творения, уникальность языка. Уникальность письма поэтов видна глазу человека. Специалисты, критики, библиотекари безмятежно опознают авторов поэм, романов, стихов элементарно прочитав. Собственно, что даёт совершенную уверенность, в способности распознание и внедрение метода биграмм таблиц.
1. Бузикашвили Н.Е. Стохастические грамматики с отсечением. И Настоящий сборник.
2. Бузикашвили Н.Е., Самойлов Д.В., Бродский Л.И., Усков А.В. Задача поиска в неструктурированном тексте и лингвистический анализ. // Интеллектуальные технологии ввода и обработки информации, М., 1998.
3. Бузикашвили Н.Е., Оберляйтнер М.С., Усков А.В. У-граммы русского языка. // Настоящий сборник.
4. Гланц С. Медико-биологическая статистика. Пер. с англ, под ред. Н.Е. Бузикашвили и Д.В. Самойлова. М., 1999.
5. Звегинцев В.А. Дескриптивная лингвистика. Предисловие к книге Г.Глисона «Введение в дескриптивную лингвистику». М., 1959.
6. Звегинцев В.А. Теоретическая и прикладная лингвистика. М., 1968.
7. История языкознания XIX-XX веков в очерках и извлечениях, ч. 2. Под ред. В.А. Звегинцева. М., 1965.
8. Кривнова О.Ф., Чарлин И. С. Паузирование при автоматическом синтезе речи. И Теория и практика речевых исследований. М. 1999.
9. Минский М. Остроумие и логика когнитивного бессознательного. // Новое в зарубежной лингвистике. Вып. XXIII. М., 1988.
ХЪ.Слобин Д., Грин Дж. Психолингвистика. М., 1976
1 1.Тутубалин В.Н. Теория вероятностей. М., 1972.
12. Фу К. Структурные методы в распознавании образов. М., 1977.
13. Харрис Т. Теория ветвящихся случайных процессов. М., 1966.
14. Brill Е. et al. Beyond У-grams: Can linguistic sophistication improve language modeling?
15. Booth T. Probability Representation of Formal Languages. // IEEE Annual Symp. Switching and Automata Theory. 1969.
16. Jelinek F. Self-Organized Language Modeling for Speech Recognition. // Readings in Speech Recognition. 1989.
17 .Jelinek F, Lafferty J. Computation of the probability of initial substring generation by stochastic context-free grammar. // Computational Linguistics, vol.17. 1991.
18. Harris Z.S. Method in Structural Linguistics. Chicago, 1951.
19. Lashley K. The problem of serial order in behavior. // Psycholinguistics: A book of readings, N.Y. 1961.
20.Schlesinger E. Sentence Structure and the Reading Process. Mouton. 1968.
21.Shieber S. Evidence against the context-freeness of natural language. // Linguistics and Philosophy, vol. 8. 1985.
22.Sola Pool L Trends in Content Analysis Today. I I Psycholinguistics: A book of readings, N.Y. 1961
23.Stolcke A., Segal J. Precise n-gram probabilities from stochastic context-free grammars. // Proceedings of the 32th Annual Meeting of ACL. 1994.
24. H.B. Гоголь «Тарас Бульба». Повесть
25. И.С. Тургенев «Записки охотника». Сборник рассказов
26. Л.Н. Толстой «Анна Каренина». Роман
27. С.В. Пучковский «Биология». Учебное пособие
28. А.А. Сазанов «Генетика». Учебное пособие
29. Галкин С.В «Живые и разумные системы». Учебное пособие