Тип работы:
Предмет:
Язык работы:


ДИСТРИБУТИВНАЯ СЕМАНТИКА В КОНТЕКСТНОЙ РЕКЛАМЕ

Работа №45719

Тип работы

Дипломные работы, ВКР

Предмет

информационные системы

Объем работы42
Год сдачи2018
Стоимость4320 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
351
Не подходит работа?

Узнай цену на написание


Введение 3
1. Глава 1. Дистрибутивная семантика 7
1.1. История и основные определения 7
1.2. Представление слов в векторном пространстве. Матрицы совместной
встречаемости 9
1.3. Предсказательные модели дистрибутивной семантики 14
2. Глава 2. Реализация и применение алгоритма 24
2.1. Выбор предсказательной модели и планирование реализации 24
2.2. Сбор и обработка корпусов 25
2.3. Обучение векторного поля word2vec 26
2.4. Система оценки точности.., 27
2.5. Реализация программы и ее применение для создания рекламной
кампании 28
2.6. Создание и тестирование рекламных кампаний. Сопоставление
результатов 33
Заключение 39
Список использованных источников

В современном мире, одна из передовых областей информационных технологий - создание искусственного интеллекта. Его разработка направлена как на использование в качестве части большого проекта, так и в целях полной замены человеческого труда машинным. Эта область находится на стыке ряда научных дисциплин: информатика, математика, физика, юриспруденция, лингвистика и т.д. Одним из множества подходов к пониманию задачи искусственного интеллекта является изучение нейронных сетей.
Нейронная сеть - направление исследования в области изучения искусственного интеллекта, предназначенное воспроизвести работу нервной системы человека, а именно способность обучаться и анализировать входящую информацию. Существует множество способов использования нейронных сетей. Среди прочих, нас заинтересовала интеллектуальная обработка текстов на естественном языке. В частности, задача автоматического определения семантики лингвистической единицы и репрезентация этого значения в математической форме. Оказалось, что эта задача изучается уже более 80 лет, а направление компьютерной лингвистики, занимающееся ей, носит название «Дистрибутивная семантика».
Первые исследования были опубликованы в 20 году XX века Леонардо Блумфилдом. Предложенный им дистрибутивный анализ применялся в фонологии и морфологии. Несмотря на работу Блумфилда, активное развитие данное направление получило благодаря научным трудам Зеллига Харриса, разработанным в 30-50-х гг. прошлого века [3, 4]. В это же время, похожие идеи анализа текста были выдвинуты швейцарским лингвистом Фердинандом де Соссюром, который заложил основы семитологии и структурной лингвистики. Его часто называют отцом лингвистики XX века. Также, подобные исследования были проведены австрийским философом и логиком Людвигом Витгенштейном. Среди наших соотечественников стоит отметить Н.Б. Лебедеву. В своей работе «Полиситуативность глагольной семантики» она выделила особую значимость категории дистрибутивности в репрезентации значений слов естественного языка.
В наши дни, огромный вклад в развитие концепции дистрибутивной семантики внес Томас Миколов [2]. Его работа «Efficient Estimation of Word Representations in Vector Space» не только определила основные методы обработки больших корпусов текста, но и выявила смысловые связи векторных представлений слов.
Дистрибутивная семантика, являясь направлением компьютерной лингвистики, не только позволяет понять концепцию естественного языка, на котором мы говорим каждый день, но еще и является отличным инструментом для популяризации программных продуктов, использующих технологию искусственного интеллекта. Среди наиболее явных областей применения дистрибутивного анализа можно выделить:
1. Вычисление семантической близости. Другими словами - поиск синонимов.
2. Машинный перевод. Поиск похожих слов в разных языках.
3. Расширение поисковых запросов. Поиск похожих слов или фраз.
4. Классификация текстов на заранее заданные параметры.
5. Классификация текстов на заранее неизвестные параметры.
6. Определение тональности высказывания.
Среди вышеприведенного списка меня больше всего заинтересовало расширение множества поисковых запросов и потенциальный успех использования этого направления для повышения качества контекстной рекламы.
Контекстная реклама - реклама в поисковых сетях в интернете, которая показывается только в том случае, если ее содержание соответствует интересам пользователя. Расширяя диапазон поисковых запросов, можно не только показывать рекламу большему количеству потенциально заинтересованных в ней людей, но и повысить ее точность, что сократит издержки производителя. Вопросы, касающиеся выявления целевой аудитории рекламируемого товара, повышение охвата рынка и сокращения рекламного бюджета у производителя, являются актуальной темой в нынешнем информационном и рыночном пространстве.
Объект исследования — численные показатели качества рекламной кампании.
Предмет исследования — математические методы обработки текстов на естественном языке, определяющие семантическую близость лингвистических единиц.
Целью данной работы является определение эффективности применения методов дистрибутивной семантики для повышения качества рекламных объявлений в контекстной рекламе.
Для достижения цели поставлены следующие задачи:
1) Исследование предметной области
2) Выявление способа числовой репрезентации семантики слов
3) Сбор и обработка входных данных
4) Реализовать алгоритм обучения на основе векторного поля
5) Создание рекламной кампании в Яндекс.Директ на основе выходных данных программы
6) Анализ результатов
Гипотеза: Использование методов дистрибутивной семантики для обогащения множества ключевых слов рекламных объявлений не только увеличит аудиторию получателей рекламы, но и сделает такую рекламную кампанию более релевантной.
Практическая значимость дипломной работы распространяется на несколько профессиональных сфер деятельности человека. Во-первых, лингвистам она дает еще один ответ на вопрос связи написанного на естественном языке слова с семантикой этого слова. А во-вторых, данная работа предоставляет инструмент для специалистов по маркетингу, который, гипотетически, может повысить их ценность на рынке труда.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В работе были рассмотрены история развития и становление нового направления компьютерной лингвистики - дистрибутивной семантики. Были изучены основные понятия и модели реализации данного метода.
По результатам проведенного анализа литературы было выяснено, что наиболее оптимальной моделью представления семантики лингвистических единиц являются математические векторы и матрицы линейной алгебры. Этот способ является удобным формализмом для компьютерной реализации.
Далее, были собраны обучающие данные для будущей программы - корпус текста на естественном языке. Средством разработки был выбрал язык Python в силу своего удобства работы с нейронными сетями. Также, использовалась библиотека Gensim, которая является надежным средством моделирования векторных пространств.
После этапа реализации программы, обучения созданной модели и получения результатов (синонимов вводимого слова), нужно было проверить ее эффективность при работе с прикладными задачами. Для этого была создана рекламная кампания в Яндекс.Директ. Ключевыми словами в объявлениях стали синонимы предлагаемого к продаже товара.
По завершении работы рекламной кампании был проведен сбор и анализ. Результаты показали, что применение методов дистрибутивной семантики для создания контекстной рекламы является повышают ее эффективность. Благодаря реализованной программы удалось повысить релевантность рекламных объявлений и снизить их себестоимость для рекламодателя.
В будущем, способ использования разработанной программы будет эволюционировать. Увеличивая объем обучающих текстов, можно расширить словарь синонимов и увеличить семантическую близость лингвистических единиц, что гипотетически даст прирост в эффективности рекламных кампаний. А изменение контекстного окна позволит использовать не только похожие слова, но и словосочетания. Помимо этого, для эксперимента, приведенном в нашей работе, был заложен небольшой рекламный бюджет. На практике, с увеличением рекламного бюджета будут пропорционально возрастать и показатели эффективности.
С помощью обработки больших объемов лингвистических данных можно создавать разные лингвистические ресурсы: такие как словари и семантические карты предметных областей.



1. Y. Bengio. A neural probabilistic language model. /Y. Bengio, R. Ducharme, P. Vincent. // Journal of Machine Learning Research. № 3. - стр. 1137-1155.
- 2003.
2. T. Mikolov. Efficient Estimation of Word Representations in Vector Space. / T. Mikolov, Chen K., Corrado G., Dean J. -http://arxiv.org/abs/1301.3781. - 2013.
3. Harris Z.S. Papers in structural and transformational linguistics. // Harris Z.S.
- 1954.
4. Harris Z.S. Mathematical structures of language. /Harris Z.S., -1968.
5. Sahlgren M. The distributional hypothesis. / M. Sahlgren. //Distributional models of the lexicon in linguistics and cognitive science (Special issue of the Italian Journal of Linguistics). № 20. No. 1. - стр. 33-53. -. 2008.
6. Turney P. A uniform approach to analogies, synonyms, antonyms and associations. /P. Turney. // 22nd Conference (International) on Computational Linguistics (COLING) Proceedings. стр. 905-912. - 2008.
7. Ахманова, O.C. Словарь лингвистических терминов /О.С. Ахманова — М.: Советская энциклопедия. - 1966.
8. Борисова, Е. Г. Коллокации. Что это такое и как их изучать / Е.Г. Борисова — М.: Филология, 2-е издание. - 1995.
9. Иорданская, Л. Н.. Смысл и сочетаемость в словаре / Л.Н. Иорданская, И. А. Мельчук — М.: Языки славянских культур. - 2007.
10.3ахаров В.П. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке / В.П. Захаров, М.В. Хохлова // Компьютерная лингвистика и интеллектуальные технологии: Труды Междунар. конф. Диалог’2010. — М.: РГГУ, 2010.
И.Морозова Ю. И. Методика извлечения пословных переводных соответствий из параллельных текстов с применением моделей'дистрибутивной семантики (рус.) / Ю.И. Морозова, Е. Б. Козеренко, М.М. Шарнин // Системы и средства информатики : журнал. — 2014. — Т.24, вып.1.
12. Клышинский Э. С. Метод кластеризации слов с использованием информации об их синтаксической связности (рус.) / Э.С. Клышинский, Н. А. Кочеткова, В. К. Логачева // Научно-техническая информация. Се¬рия 2: Информационные процессы и системы : журнал. — 2013. — No 11. — С.36-43.
13. Таненбаум Э. Современные операционные системы / Э. Таненбаум, X. Бос. - 2015. - 111 с.
14. Мартин Р. Идеальный программист. Как стать профессионалом разработки ПО / Р. Мартин. - Нью-Джерси: Prentice Hall, 2012. - 87 с.
15. Roussopoulos N. A semantic network model of data bases / N. Roussopoulos // Department of Computer Science, University of Toronto. - 1976 - TR No 104/1976. - C.144-172.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ