Тип работы:
Предмет:
Язык работы:


Система языкового анализа сайтов

Работа №148679

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы91
Год сдачи2018
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
7
Не подходит работа?

Узнай цену на написание


Только Word
Введение 7
Глава 1. Описание фундаментальной части проблемы 8
1.1. Анализ распространённости языков в глобальной сети 8
1.2. Существующие аналитические отчёты 9
1.2.1. Соответствие и точность информации в отчётах 10
1.2.2. Частота посещения сайтов для проверки 10
1.2.3. Тип страниц для анализа: домашние страницы или внутренние страницы ресурса 10
1.2.4. Как часто происходит обновление отчетов 11
1.2.5. Какие сайты анализируются и почему 11
1.2.6. Почему данные, в отчётах W3Techs, иногда сильно отличаются от данных из иных источников 11
1.3. Языки мирового значения 12
1.4. Многоязычные сайты 13
1.5. Глобализация и языковая экспансия 14
1.6. Интернет в 2018 году и тенденции его дальнейшего развития 17
1.7. Интернет в России 20
1.8. Общий алгоритм работы DNS-серверов в интернете 21
1.9. Общее устройство доменных имен 25
1.10. Способы идентификации естественных языков 28
Глава 2. Выбор технологий для решения поставленной задачи 39
2.1. Язык программирования 39
2.2. Система хранения результатов работы программы 44
2.3. Интегрированная среда разработки 46
2.4. Использование стандартных библиотек 48
2.4.1. Ctypes 48
2.4.2. Re 49
2.4.3. Time 50
2.4.4. Asyncio 50
2.5. Aiohttp 52
2.6. Asyncpg 53
2.7. Matplotlib 54
2.8. BeautifulSoup 54
2.9. Langdetect 55
Глава 3. Особенности реализации приложения 57
3.1. Форматы исходного дампа данных 57
3.2. Работа с базой данных 59
3.3. Минимизация загруженного контента 61
3.4. HTTP-заголовки 62
3.5. Обработка ошибок 62
3.6. Построение отчётов 63
3.7. Отображение информации во время работы 65
3.8. Результат работы приложения 67
Заключение 69
Список использованных источников 70
Приложение А 71
Приложение Б 78
Приложение В 89

По разным подсчётам, в мире насчитывается до 7000 языков, однако естественными языками являются около 184, а лишь несколько десятков из них являются языками мирового значения. Статус языка мирового значения может определяться комплексом показателей, таких как количество носителей, количество стран, в которых язык является официальным, процент веб-сайтов, которые используют данные языки, а также общий вклад в мировой ВВП.
При этом существует актуальная проблема оценки и анализа сайтов с точки зрения используемого языка, и речь идёт не о языках программирования, а именно об определении естественного языка на котором говорят и общаются люди (т.е. русский, литовский, немецкий, португальский и так далее).
Решение данной проблемы позволит не только отслеживать тенденции развития, роста и изменения доли определённого языка в общей массе языков, используемых на веб-сайтах по всему миру, но и в значительной степени поможет определить пути локализации продукта, для его адаптации и дальнейшего распространения в отдельных странах и географических регионах. Создание простого и удобного инструмента поможет формировать статистические отчёты о популярности естественных языков на основе выборок данных заданного типа.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках выполнения данной работы, направленной на решение актуальной задачи – языкового анализа сайтов, успешно была решена задача оценки и анализа сайтов с точки зрения используемых естественных языков. Было разработано приложение для языкового анализа сайтов, расположенных на доменах второго уровня.
В данной работе описана общая архитектура доменных имён, обоснование выбора средств и технологий для разработки приложения, а также сам процесс разработки и функционал конечного приложения, реализующего все необходимые функции для проведения статистического исследования.
Архитектура приложения обеспечивает возможность горизонтального масштабирования нагрузки, путём запуска нескольких копий приложения, в том числе и на географически разнесённых машинах. При работе нескольких копий приложения одновременно, вся информация будет централизованно сохраняться в базе данных.
Программная реализация системы языкового анализа сайтов, расположенных на доменах второго уровня выполнена на популярном интерпретируемом языке программирования Python, который является полностью открытым программным обеспечением, работающим на всех известных операционных системах.
Система, разработанная в ходе реализации данной работы, представляет собой начальную версию инструмента для языкового анализа сайтов. В дальнейшем, благодаря простой и понятной архитектуре приложения, а также огромному числу бесплатных и открытых сторонних библиотек для языка Python возможно наращивание дополнительного функционала системы языкового анализа.



1. Цирлина Л. Глобализация и лингвистика: вавилонское столпотворение или «язык-киллер» / Л. Цирцилина. – 2004. – (http://www.prof.msu. ru/publ/book6/c62_04.htm)
2. Попова З.Д. Общее языкознание / З.Д. Попова, И.А. Стернин. – М.: Изд-во Восток- Запад, 2007. – 408 с.
3. Сметанина-Болдвин Ю.В., Маслова Е.В. Интернет как информационное, языковое и социальное явление и его роль в глобализации и локализации мировых языков / «ВЕСТНИК ВГУ. 2009, №1», 2009 – 176-183
4. Al-Karmi, Abdel Naser, Shamsher S., Baldev Singh. Optical character recognition of handwritten or cursive text in multiple languages (Оптическое распознавание символов рукописного или курсивного многоязычного текста): патент № 6370269 США / International Business Machines Corporation (USA). Опубл. 09.04.2002
5. Селезнев К. Обработка текстов на естественном языке [Электронный ресурс] // Открытые системы. 2003. № 12. URL: http://www.osp.ru/os/2003/12/183694
6. Radim Řehůřek and Milan Kolkus. «Language Identification on the Web: Extending the Dictionary Method» Computational Linguistics and Intelligent Text Processing 2009. – 368 p.
7. Cilibrasi, Rudi and Paul M.B. Vitanyi. «Clustering by compression». IEEE Transactions on Information Theory 51(4), April 2005,
1523– 1545 pp.
8. Gottron T., Lipka N.A Comparison of Language Identification Approaches on Short, Query-Style Texts, May 2008 – 160p.
9. Андреас Мюллер, Сара Гвидо, “Introduction to Machine Learning with Python: A Guide for Data Scientists” 2017. – 480 p.
10. Уорсли Дж., Дрейк Дж. PostgreSQL. Для профессионалов – СПб.: Питер, 2009. — 496 с


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ