Тип работы:
Предмет:
Язык работы:


Процессы поиска, обработки и анализа информации, содержащиеся в коллекциях сети Интернет, в частности сегмента Казнет

Работа №84640

Тип работы

Главы к дипломным работам

Предмет

информационные системы

Объем работы30
Год сдачи2016
Стоимость4290 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
123
Не подходит работа?

Узнай цену на написание


Введение 3
1. Постановка задачи 7
1.1 Обзор предметной области 8
1.2. Анализ тональности новостных текстов на казахском языке 9
1.3 Анализ тональности комментариев к новостным текстам на казахском языке 10
1.4. Требования к формату представления и объему корпуса 10
2. Обзор существующих решений 12
2.1 Обзор корпусов и подходов к разметке текста для анализа тональности в казахском и в других языках 12
2.2. Обзор инструментов разметки анализа тональности 17
3. Методы решения задачи и результаты 21
3.1. Сбор данных 21
3.2. Формирование инструкции для разметки 24
3.3. Выбор инструмента 27
3.4. Разметка данных 28
3.5. Оценка качества разметки 29
4. Описание результата 30

Казахский язык - государственный язык Республики Казахстан. На данный момент востребованность казахского языка является фактом, при этом отмечается рост населения, говорящих на государственном языке.
Носители языка проживают не только в Казахстане, но и в таких странах как Россия, Китай, Монголия, Узбекистан, Туркменистан, Турция. По данным переписи населения 2015 года казахи составляют 65,5% процентов от населения Казахстана и составили уже 11 миллионов 287 тысяч человек.
В настоящее время в связи с активным ростом развития социальных сетей, форумов и блогов вопросы автоматизации анализа мнений пользователей сети по различным вопросам (отношение к товарам и услугам, событиям, высказываниям, сообщениям) вызывают большой интерес.
В последнее время слово «блог» стало чуть ли не самым популярным, когда речь заходит о новациях в интернете. Блог — это публичный дневник с комментариями. Для блогов характерна возможность публикации отзывов (комментариев) посетителями. Она делает блоги средой сетевого общения, имеющей ряд преимуществ перед электронной почтой, группами новостей, веб-форумами и чатами.
Изучение мнений и отзывов других людей - важная часть процесса принятия решений. Информация, полученная при изучении отзывов других людей, зачастую является определяющим фактором конечного выбора. До недавнего времени источниками информации подобного рода были друзья, специализированные журналы или вебсайты. Но сейчас «social web» дает новые возможности для обсуждения и распространения информации среди людей, подключенных к Интернету. Форумы, блоги, социальные сети, различные специализированные сервисы помогают людям распространять и получать ценную информацию.
Сентимент анализ - это область компьютерной лингвистики, которая занимается изучением эмоциональной окраски ( мнений, эмоций) в текстовых документах.
При анализе тональности, существует общая проблема для всех не славянских языковых групп. Каждая языковая семья имеет свои отличительные особенности в алфавите, грамматике.
Идея создания Национального корпуса зародилась еще в советское время. В 1988 году на внеочередном заседании пленума Всесоюзного комитета тюркологов в Москве была выдвинута и поддержана идея создания Международного машинного фонда тюркских языков (МФТЯ). В итоге в состав образованной рабочей группы вошли известные ученые из Санкт-Петербурга и Москвы, Новосибирска, Баку, Ташкента, Бишкека, Казани, Ашхабада, Уфы, Нальчика, Чебоксар и Алма-Аты. Пленум принял соответствующее постановление. Суть фонда заключалась в создании глобальной всемирной сети соединенных воедино серверных баз с единой программой ввода лингвистических данных по всем живым и мертвым тюркским языкам. Предполагалось, что машина должна выдавать, согласно запросу, любые морфологические, синтаксические, фонетико-фонологические или лексико-семантические данные синхронного или диахронического содержания, будь то учебник или словарь конкретного языка или языка его родственной группы, и так далее. Иначе говоря, ставилась амбициозная задача, приближенная к созданию искусственного интеллекта, когда техника, пусть и умная, должна была «чувствовать» и «узнавать» языки... Примечательно, что возглавить эту работу было поручено казахстанским лингвистам.
Актуальность темы исследования
В настоящее время во всем Мире наблюдается активный рост числа пользователей сети Интернет, Казахстан также не является исключением. Казнет - это довольно обширная площадка с огромным количеством информации, которая нуждается в анализе и структурировании.
Аналитики крупных компаний отмечают, что изучение интернет-ресурсов с целью получения пользовательских мнений о продуктах требует развития новых технологий. Аналитикам требуется отслеживать информацию, связанную с брендом, который они представляют, но огромное количество сайтов и фрагментация информации по ним делают почти невозможным исследование старыми методами. Отсюда можно сделать вывод о том, что очень востребованы системы, которые будут анализировать мнения пользователей социальных медиа, касательно самых разных отраслей нашего общества. Социальные медиа - это огромная площадка, контент которой активно используется в анализе эмоциональной окраски.
Исследователи в данной области сталкиваются с нерешенными проблемами из области обработки текстов на естественном языке такими как: разрешение различных неоднозначностей, обработка отрицания в текстах и др. Создание национальных корпусов государственных языков ведущих стран мира возведено в ранг важных историко-культурных и политических мероприятий современности.
Изучив состояние исследований в обработке казахского языка было выявлено, что исследований очень мало, несмотря на высокий уровень потребности.
Также, наше исследование находится на стыке научных дисциплин:
1) информационный поиск
2) обработка языка
3) анализ данных
Подводя итог, можно сделать вывод о том, что анализ казахскоязычных текстов в Республике Казахстан находится на начальной стадии и требует исследований. В условиях непрерывно растущего потока информации проблемы обработки и анализа текста только усилились. Информационный взрыв актуализировал потребность в исследованиях и разработке более эффективных подходов.
Объект и предмет исследования:
Объектом исследования являются процессы поиска, обработки и анализа информации, содержащиеся в коллекциях сети Интернет, в частности сегмента Казнет.
Предметом исследования являются модели, методы и алгоритмы, предназначенные для реализации процессов.
Научная новизна исследования.
На сегодняшний день, в сегменте казахско-язычного контента не существует аналогов нашего корпуса.
Практическая ценность исследования.
Результаты, полученные в ходе исследования могут быть применены в информационных и технических системах, предназначенные для поиска, обработки и анализа текста.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ