Тип работы:
Предмет:
Язык работы:


ПРОЕКТИРОВАНИЕ И РАЗРАБОТКА РЕШЕНИЯ ДЛЯ СЕМАНТИЧЕСКОГО АНАЛИЗА ТЕКСТА НА ОСНОВЕ TEXTOCAT API ДЛЯ ОС ANDROID

Работа №84254

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы30
Год сдачи2016
Стоимость4280 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
29
Не подходит работа?

Узнай цену на написание


Содержание 2
Введение 3
1. Сравнительный анализ существующих решений 5
2. Реализация библиотеки 11
2.1. Архитектура библиотеки 11
2.2. Модуль SearchEngine 13
2.3. Модуль Recognizers 18
2.4. Модуль Database 21
3. Функционал приложения 23
3.1. Стартовый экран приложения 24
3.2. Экран с результатами поиска 25
Заключение 26
Список использованных источников

С каждым годом увеличивается количество пользователей смартфонов, согласно существующей статистике к концу 2016 их количество достигнет 2 млрд человек [1]. С этим трендом связан рост объема пользовательской информации. В связи с этим возрастает потребность в качественных инструментах, помогающих пользователю осуществлять оперативный поиск среди всех его документов.
Данная проблема актуальная для студентов ВУЗов, профессоров, журналистов и всех тех, чья жизнь тесна связана с информацией и её обработкой.
На текущий момент технологии информационного поиска активно улучшается только в сети Интернет, что объясняется развитием облачных технологий. Но данные продвинутые решения не приспособлены для осуществления поиска локальных файлов.
По этой причине целью данной работы является создание такого продукта, который позволил бы осуществлять информационный поиск среди локальных графических и текстовых документов пользователя с учетом возможных семантических особенностей запроса.
Для достижения поставленной цели было запланировано выполнение следующих задач:
1. Провести сравнительный анализ существующих решений.
2. Проанализировать алгоритмы информационного поиска.
3. Провести анализ технологий оптического распознавания символов и обработки текстовых файлов.
4. Разработать программную библиотеку с возможностью осуществления информационного поиска по графическим и текстовым файлам.
5. Разработать приложение, демонстрирующее возможности созданной библиотеки.
6. Публикация исходного кода и необходимой документации.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В результате работы над дипломным проектом была разработана Android библиотека, предоставляющая функционал для осуществления информационного поиска по локальным текстовым и графическим файлам пользователя [17]. Также успешно разработана и спроектирована архитектура, позволяющая гибко расширять начальный функционал проекта, что позволяет разработчику изменять логику библиотеки при создании своих приложений. Весь разработанный программный код с необходимой документацией опубликован на крупнейшем веб-сервисе для хостинга ИТ- проектов и совместной разработке GitHub [18].
Помимо этого, планируется оптимизировать работу библиотеки: совместить существующую реализацию униграммной и биграммной языковых моделей со скрытыми марковскими цепями. Данное улучшение позволит повысить качество поисковой выдачи, то есть релевантность документа будет определяться более точно [19]. Дальнейшим шагом улучшения алгоритма будет реализация поиска с помощью методов ранжирования на основе машинного обучения, что также повлияет на качество поисковой выдачи.
С точки зрения внедрения данной библиотеки планируется предпринять следующие шаги:
• Внедрение разработанной технологии поиска в существующее приложение, предлагающее пользователям функционал файлового менеджера.
• Внедрение библиотеки в голосовые и текстовые помощники мобильных операционных систем.
• Портирование библиотеки на другие языки программирования и технологии с целью поддержки большего количества устройств.



1. Number of smartphone users worldwide from 2014 to 2019 (in millions)
[Электронный ресурс] - Режим доступа:
http://www.statista.com/statistics/330695/number-of-smartphone-users-worldwide/(дата обращения: 09.06.2016).
2. Приложение «Андро Поиск» [Электронный ресурс] - Режим доступа:
https://play.google.com/store/apps/details?id=com.chocosoft.as (дата
обращения: 09.06.2016).
3. Приложение «Total Commander» [Электронный ресурс] - Режим доступа: https://play.google.com/store/apps/details?id=com.ghisler.android.TotalCommander(дата обращения: 09.06.2016).
4. Приложение «Google Seacrh» [Электронный ресурс] - Режим доступа: https://play.google.com/store/apps/details?id=com.google.android.googlequicksearchbox(дата обращения: 09.06.2016).
5. Приложение «Spotlight» [Электронный ресурс]. - Режим доступа:
https://en.wikipedia.org/wiki/Spotlight (software) (дата обращения:
09.06.2016).
6. Creating libraries for Android applications [Электронный ресурс] - Режим доступа:
http: //www.vo gella.com/tutorials/AndroidLibraryProj ects/article.html(дата обращения: 18.06.2016).
7. К. Маннинг, П. Рагхаван, Х.Шютце. Введение в информационный поиск. Пер. с англ. - М.: ООО "И.Д. Вильямс", 2014 - 528 с.
8. Никита Жильцов. Лекционный материал по предмету «Основы информационного поиска (Весна 2016)» [Электронный ресурс] - Режим доступа:http://nzhiltsov. github.io/IR-course/(дата обращения: 09.06.2016).
9. Mail.ru. Информационный поиск. Языковые модели. N-граммы. Цепи
Маркова [Электронный ресурс] - Режим доступа:
https://youtu.be/0gMZyXFn8 0(дата обращения: 09.06.2016).
10. Технология «TextoKit» [Электронный ресурс] - Режим доступа: http://textocat.ru/textokit.html(дата обращения: 09.06.2016).
11. Технология «Apache UIMA» [Электронный ресурс] - Режим доступа: https://uima.apache.org/(дата обращения: 09.06.2016).
12. Технология «Tesseract» [Электронный ресурс] - Режим доступа: https://github.com/tesseract-ocr/tesseract/(дата обращения: 09.06.2016).
13. Ray Smith, Google Inc. Tesseract OCR Engine. What it is, where it came
from, where it is going [Электронный ресурс] - Режим доступа: http://tesseract-ocr.googlecode.com/files/TesseractOSCON.pdf (дата
обращения: 09.06.2016).
14. Технология «tess-two» [Электронный ресурс]. - Режим доступа:
https://github.com/rmtheis/tess-two(дата обращения: 09.06.2016).
15. Технология «Apache PDFBox» [Электронный ресурс]. - Режим
доступа:https://pdfbox.apache.org/(дата обращения: 09.06.2016).
16. Технология «Apache POI» [Электронный ресурс] - Режим доступа: http: //poi.apache. org/(дата обращения: 09.06.2016).
17. Библиотека «DocumentSearchEngine» [Электронный ресурс] - Режим
доступа: https: //github.com/kiv 1 n/document- search-engine (дата
обращения: 18.06.2016).
18. GitHub [Электронный ресурс] - Режим доступа:
https://ru.wikipedia.org/wiki/GitHub(дата обращения: 18.06.2016).
19. Justin Liang-Te Chiu, Jyun-Wei Huang. Optimizing Language Model Information Retrieval System with Expectation Maximization Algorithm
[Электронный ресурс - Режим доступа:
http://www.aclweb.org/anthology/P09-3008(дата обращения: 09.06.2016).


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ