Тип работы:
Предмет:
Язык работы:


Применение программных средств работы с временными рядами для определения степени семантической близости слов

Работа №46671

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы114
Год сдачи2018
Стоимость4240 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
95
Не подходит работа?

Узнай цену на написание


Введение 3
1. Методы 6
1.1. Деление 6
1.2. Функции скорость и ускорение роста 11
1.3. Сдвиг 12
1.4. Сглаживание 17
1.4.1. Метод простого скользящего среднего 17
1.4.2. Метод экспоненциального сглаживания 22
2. Эксперименты на базе данных Google Books Ngram 27
2.1. Данные Google Books Ngram 27
2.2. Эксперименты 28
2.2.1. Опрос студентов 30
2.2.2. Результаты 33
2.2.3. Сглаживание графиков с параметрами 46
2.2.4. Разделение пар 52
3. Эксперименты на базе данных Национального Корпуса Русского Языка 59
3.1. Данные НКРЯ 59
3.2. Эксперименты 60
3.2.1. Адаптация алгоритма для данных НКРЯ 63
3.2.2. Результаты 65
3.3. Программный метод разделения пар 79
Заключение 80
Список литературы и источников 82
Листинг 83

За последние два десятилетия многие исследовательские работы в области интеллектуального анализа и кластеризации временных рядов были связаны с мерами похожести временных рядов.
В классическом понимании анализ временных рядов объединяет методы изучения временных рядов, как пытающиеся понять природу точек данных (откуда они взялись? что их породило?), так и пытающиеся построить прогноз. Однако во многих приложениях анализах временных рядов желательно измерять не только подобие между ними, но и возможные обратные отношения. Не так много работ посвящено измерениям ассоциации форм временных рядов, которые могут использоваться для вычислений возможных прямых и обратных отношений между ними. Такие отношения могут возникать между динамикой использования слов за определенный период времени.
В большинстве исследований для оценки степени похожести временных рядов использовались коэффициенты корреляции Пирсона и Спирмена. В статье [1] показано использование оценок Пирсона и Спирмена для анализа пар временных рядов и нахождения меры похожести данных пар. Однако данные оценки изначально не были предназначены для решения задачи, и поэтому не всегда дают благоприятный результат.
В последних работах, посвященных анализу временных рядов и нахождению меры похожести графиков пар, применяются преобразования скользящих аппроксимаций. В статье [2] показано использование данных САП-трансформ в исследовании временных рядов. Данный способ является один из методов анализа и применяется в экономике, финансах.
Человеческая экспертиза играет определяющую роль в установлении отношений между словами в лингвистическом анализе. В статье [4], датируемая 2013 годом, как раз объясняется важность человеческой оценки в анализе временных рядов. Более того по данной статье можно заметить, что до 2013 года человеческая экспертиза оставалась одной из главных методов анализа временных рядов. Однако разработка формальных методов оценки отношений между словами будет полезна для анализа динамики употреблений тех или иных словарных единицы и причин использования. Анализ взаимосвязи между динамикой временных рядов может дать полезную информацию об отношениях, существующих между парами слов, и может быть использован для моделирования и макроанализа лингвистических единиц, а также для обоснованных решений, почему те или иные словарные единицы были использованы в определенный промежуток времени.
В данной работе предложено несколько общих методов построения мер подобия между графиками временных рядов. Более того, в работе рассматривается использование методов на двух базах данных Google Books Ngram Viewer и Национального Корпуса Русского языка (НКРЯ) и проводится анализ временных рядов на выяснение лучшего реализованного метода. Актуальность данной работы заключается в разработке новых программных средств нахождения меры похожести между двумя графиками, критериев оценки графиков, а также в попытке снизить роль и процент человеческой экспертизы в анализе временных рядов.
Задача состоит в построении программного комплекса вычисления ассоциаций временных рядов. Если рассматривать более узко, то перед нами стоит задача численно оценить степень похожести графиков временных рядов. Более того, необходимо предоставить идеи разработки метода для реализации задачи, проведение численных экспериментов на парах временных рядов, а также произвести сравнительный анализ различных методов, которые были использованы для оценки меры похожести, с оценками, полученными в результате опроса среди студентов.
Основные идеи и методы для численной оценки степени подобия:
1) Разбиение графика на временные интервалы, подсчет отрезков ломаной, вывод подобия графиков из разных отрезков.
2) Сдвиг графика на временной школе на небольшой участок.
3) Использование функций скорости роста.
4) Сглаживание графиков с помощью методов простого скользящего среднего и экспоненциального сглаживания.
Далее в работе будут представлены реализации и обоснования предложенных идей и методов, проведение численных экспериментов, опроса среди студентов на выявление похожести временных рядов, и затем сопоставление полученных мер с экспериментальными данными.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе были разработаны методы для вычисления меры похожести пар временных рядов, которые представлены в виде графиков. Данные временных рядов были выбраны в интервале от 1920 до 2009 года. Были реализованы следующие методы: метод нахождения оценки на основе деления на временные интервалы, функции скорости и ускорения роста, базирующиеся на вычислении первой и второй производных соответственно, метод сдвига, метод простого скользящего среднего, экспоненциального сглаживания и их вариации. Затем был проведен ряд экспериментов для проверки функциональности созданных методов. Более того, был проведен опрос среди студентов на выяснение похожести графиков. Данный опрос был проведен в качестве человеческой экспертизы, чтобы учесть человеческий фактор в оценке временных рядов. После проведения опроса, вывода результатов и вычисления мер похожести с помощью разработанных методов был проведен сравнительный анализ на выяснение лучшего метода, а именно чья оценка наиболее точно совпадает с оценками опроса. После обработки данных была выдвинута и реализована идея разделения пар временных рядов на группы по характеристикам поведения, а затем был проведен сравнительный анализ по данным группам. Разделение на группы пар временных рядов помогло найти определенные методы, чьи оценки были близки к оценкам, полученным в результате опроса студентов.
Далее был проведен ряд экспериментов на нахождение влияния природы семантики слова на частоту употребления . В проведенном сравнительном анализе были вовлечены результаты, полученные в ходе выполнения разработанных методов, а также тех реализованных идей, которые описаны выше. Однако найти метод, который наиболее точно давал бы лучший результат для каждой группы с учетом семантики слова, было трудно и невозможно. На основании проделанного исследования можно сделать следующий вывод, что природа слова не дает дополнительной информации, а именно для двух семантически близких слов графики могут быть совершенно различны. Также была рассмотрена идея программного разделения графиков пар временных рядов по группам категорий поведения для уменьшения ошибки человеческой экспертизы на базе уже разработанных методов.



1. Ildar Batyrshin, Valery Solovyev, Vladimir Ivanov. Time series shape asso-ciation measures and local trend association patterns.
2. Batyrshin I. Constructing Time Series Shape Association Measures: Min-kowski Distance and Data Standardization. In: Proceedings of BRICS CCI 2013, September 8-11, 2013, Porto Galinhas, Brasil.
3. Ildar Batyrshin, Raul Herrera-Avelar, Leonid Sheremetov, and Aleksandra Panova. Moving Approximation Transform and Local Trend Associations in Time Series Data Bases.
4. I believe that is important not to forget that visual inspection plays a key role in time-series analysis’ (Hamilton, 2013, p. 356; cf. also Becketti, 2013, ch. 11).
5. http://cito-web.yspu.org/link1/metod/met125/node36.html
6. https://ru.wikipedia.org/wiki/%D0%92%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9%D1%80%D1%8F%D0%B4
7. http:// statpsy.ru/pearson/linear-pirson/
8. http://www.prognoz.ru/blog/platform/time-series-manual-1/


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ