Тема: Анализ текстов с помощью Биграмм
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Биграммы в лингвистике 7
Понятие и основы Биграмма в лингвистике 7
Биграммы в лингвистике 7
Модель Биграмм 11
Разработанная программа.
Системные требования.. 17
Интерфейс программы... 18
Применение программы..... 23
Анализ текстов научного стиля...... 23
Анализ текстов художественного стиля... 28
Результат анализа 34
Заключение 36
Приложение 37
MainWindow.xaml 37
MainWindow.xaml.es. 39
Design.cs 42
Exlm.cs 47
Reports.cs 49
StringEditor.cs 53
Window_N_gram.cs 56
Список использованной литературы
📖 Введение
Хочу отметить, что текст любого характера представляет собой систему языковых знаков, речевых единиц и понятий, является продуктом речевого общения. Собственно анализ текста разного вида известен давно и широко используется в самых различных областях. Например, социальной, образовательной, политической, также в военной сферах и в деятельности различных государств. Заметим, что анализ текста, а именно применение би-грамм таблиц для этого, является традиционной задачей.
Анализ - метод научного исследования явлений и процессов, в основе которого лежит изучение составных частей, элементов изучаемой системы. Иными словами это деление объекта изучения на разные составные части, изучение этих составных частей, так же их свойств в отдельности и построение выводов об исходном предмете, его свойствах на основе знаний полученных о его составных частях. Анализ информации это разделение на составляющие и исследование передаваемых авторами сведений.
Актуальными свойствами текста являются целостность, связность. Они образуют содержательное и функционально-стилистическое единство. Так же важные свойства это дискретность и «предрасположенность» к формированию внутри себя микротем и, микросмыслов, представляющих собой комбинацию синтаксических, грамматических и лексических.
Вначале я хочу привести некоторые интересные факты относительно би-грамм таблиц, а также повсеместное использование их в настоящее время.
Следовательно, текст состоит из слов. А слова в текстах состоят из букв. В любом языке количество различных букв ограничено, так же буквы могут просто перечислены. В нашем случае пар букв, повторяемость букв служат важными характеристиками текста.
Би-грамм или N-грамм — последовательность из п элементов. Интерпретация каждой пары последовательных терминов как фразы, представление пар как термина словаря. С семантической точки зрения, это может быть последовательность звуков, слогов, слов или букв. На практике чаще встречается N-грамм как ряд слов. Идея заключается в том, что текущее слово предложения зависит только от предыдущих слов. Причем порядок слов не важен. Мы имеем несколько слов, и нам надо оценить, что следующее слово будет таким. В зависимости, сколько слов берем в контекст, у нас образуется униграмма, если текущее слово зависит только от предыдущего. Би грамма два слова, три грамма три слова. Не менее четырех и выше элементов обозначаются как N-грамм, N заменяется на количество последовательных элементов.
Фактически, когда мы представляем текст в виде би-грамм, весь контент который у нас есть, представляем в виде двухсловных терминов. То есть все двухсловные термины считаем как отдельные слова. Соответственно, в этом случае количество слов не уменьшается.
N-граммы в целом находят свое использование в широкой области наук. Они могут применяться, например, в области теоретической математики, биологии, картографии, а также в музыке. Наиболее часто использование N-грамм, включает следующие области:
• извлечение данных для кластеризации серии спутниковых снимков Земли из космоса, дабы вслед за тем решить, какие определенные части Земли на изображении, поиск генетических последовательностей,
• в области генетики применяются для определения того, с каких конкретных видов животных собраны образцы ДНК,
• в компьютерном сжатии,
• с использованием N-грамм, как правило,
индексированы данные, связанные со звуком.
• в области обработки естественного языка,
о N-граммы применяется в основном для предугадывания на базе вероятностных моделей. N- граммная модель планирует возможность последнего слова N-граммы, если известны все прошлые. При применении сего расклада для моделирования языка ожидается, что появление каждого слова зависит только от предыдущих слов.
о выявление плагиата. В случае если поделить слово на некоторое количество маленьких фрагментов, представленных N-граммами, их очень просто сравнить друг с другом, и этим образом получить уровень сходства контролируемых документов.
о исследовательские центры Google использовали N-граммные модели для широкого круга изучений и разработок. К ним относятся такие проекты, как статистический перевод с 1-го языка на иной, определение речи, поправка орфографических ошибок, извлечение V информации и многое другое. Для целей данных планов были применены слова корпусов, содержащих несколько триллионов слов.
• так же применялись в шифровании. Известный шифр биграммами именуется Playfair. Он применялся Великобританией в Первую мировую войну. Опишем его на случае той же самой таблицы. Слова разбиваются на пары букв (биграммы) и слово шифровки строился из него по следующим 2 довольно обычным правилам:
1. Если обе буквы биграммы начального текста принадлежали одной колонке таблицы, то знаками шифра числились буквы, которые лежали под ними. Так биграмма УН выделяла слова шифровки ВЧ. В случае если буква раскрытого текста находилась в нижнем ряду, то для шифра бралась соответствующая буква из верхнего ряда и биграмма ОЯ выделяла шифр ШБ. (Биграмма из одной буквы или пары одинаковых букв тоже подчинялась данному правилу и текст ЕЕ выделял шифр ИИ).
27 Если обе буквы биграммы исходных слов принадлежали одной строке таблицы, то знаками шифра числились буквы, которые лежали справа от них. Так биграмма ИВ выделяла слово шифровки КГ. В случае если буква раскрытых слов находились в правой колонке, то для шифра бралась сообразный знак из левой колонки и биграмма ОМ давала шифр ДН.
3. Если обе буквы биграммы раскрытых слов лежали в различных рядах и колонках, то взамен их брались такие две буквы, дабы вся четверка их давала прямоугольник. При данном очередности букв в шифре была зеркальной начальной паре.
Цель данной работы заключается в анализе текстов разного стиля и их
сравнение.
✅ Заключение
В данной работе была представлена программа, которая получилась весьма полезной при анализе текстов разного стиля. В особенности текстов научного и художественного стиля.
В результате анализа мы поняли, что данный метод оказался очень полезным для анализа текстов разного стиля и имеет весьма не плохое будущее для последующего использования. С помощью данного метода анализа текстовой информации мы сможем определить стиль текста, используя биграмм. При этом нам не надо знакомиться с содержанием текстов, не надо тратить времени на их изучении. Всего лишь надо импортировать текст в программу и построить диаграммы для сравнения. Мы предполагаем, собственно, что с помощью предоставленного метода анализа текстовой информации можно определить не только стиль текстов, но и даже автора творения, уникальность языка. Уникальность письма поэтов видна глазу человека. Специалисты, критики, библиотекари безмятежно опознают авторов поэм, романов, стихов элементарно прочитав. Собственно, что даёт совершенную уверенность, в способности распознание и внедрение метода биграмм таблиц.



