Тип работы:
Предмет:
Язык работы:


Разработка программной системы извлечения и анализа неструктурированной информации по электронным торгам

Работа №133017

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы52
Год сдачи2017
Стоимость4550 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
34
Не подходит работа?

Узнай цену на написание


Введение 5
1. Постановка задач 8
2. Обзор существующих решений 9
3. Извлечение данных 11
3.1. Извлечение слабоструктурированной информации 12
3.2. Извлечение неструктурированной информации 13
4. Анализ данных 17
4.1. Предварительный анализ 17
4.2. Прогнозирование финальной цены лота 18
4.2.1. Введение в линейную регрессию 18
4.2.2. Парная линейная регрессия 19
4.2.3. Категориальные параметры 23
4.2.4. Выявление оптимальной модели линейной регрессии 25
4.2.5. Сравнение модели линейной регрессии с другими моделями прогнозирования 27
4.3. Выявление выигрышной стратегии участия в торгах 28
5. Реализация программной системы 33
5.1. Архитектура программной системы 33
5.1.1. Модуль получения данных 33
5.1.2. Модуль обработки данных 40
5.1.3. Модуль обучения и применения модели линейной регрессии 41
5.1.4. Модуль площадки для экспериментов 42
5.2. Функционал программной системы 43
Заключение 45
Список литературы 46
Приложение А 49
Приложение Б 50
Приложение В 51
Приложение Г 52

В условиях кризиса банкротство физических и юридических лиц стало частым явлением. При наличии у банкрота имущества, на ко­торое может быть обращено взыскание, происходит его опись, оцен­ка и составление плана продажи. Имущество должника продается на торгах, которые проводятся на различных электронных торговых пло­щадках (ЭТИ). Электронные торги позволяют увеличить аудиторию потенциальных покупателей и быстро продать имущество должника.
Продажа имущества банкрота происходит в три этапа. Сначала объ­является первичное предложение в форме открытого аукциона, на этом этапе имущество выставляется по начальной стоимости, торги идут на повышение, выигрывает участник, заявивший наибольшую цену. Если на первом этапе лот не был продан, его цена снижается на 10-30% и снова объявляется открытый аукцион. Если в ходе второго этапа лот не был продан, объявляется третий этап — торги в форме публичного предложения. На этом этапе через определенные промежутки времени, чаще всего 7-14 дней, происходит снижение цены лота на 5-15%, по­бедителем становится участник, сделавший ставку быстрее остальных или предложивший наибольшую цену [8].
Цена имущества на электронных торгах часто бывает крайне низ­кой, она может достигать 10% от рыночной. Именно поэтому торги на ЭТИ интересны как предпринимателям, так и частным лицам. В насто­ящее время функционирует порядка 60-ти ЭТИ [11]. Рынок имущества банкротов находится в постоянном движении, и уследить за всеми лота­ми на всех площадках становится практически невыполнимой задачей.
На помощь потенциальному участнику торгов приходят сервисы, предоставляющие обширную базу имущества, которая содержит ин­формацию о лотах, продаваемых на различных ЭТП. Количество наи­более популярных сайтов с такой тематикой варьируется в районе 20- ти. Чаще всего функционал таких сервисов не ограничивается сбором информации с нескольких электронных площадок, многие из них поз­воляют осуществлять фильтрацию и сортировку лотов, подписываться на лоты определенной категории и даже предоставляют помощь в уча­стии в торгах.
Безусловно, такие сервисы упрощает процедуру поиска нужных ло­тов, однако, большинство подобных сайтов имеют достаточно скудный функционал и не используют в полной мере возможности, которые от­крываются при тщательной обработке информации по электронным торгам. Анализ данных по завершившимся торгам представляет боль­шой интерес с точки зрения прогнозирования результатов будущих тор­гов.
Предложенная в данной работе программная система предоставля­ет пользователю возможность получить быстрый и достаточно точный прогноз итоговой цены еще не реализованного лота. Опираясь на полу­ченную информацию, пользователь может скорректировать свою стра­тегию участия в торгах и одержать победу. Также разработанная си­стема позволяет опробовать на выборке из уже проданных лотов раз­личные варианты изменения цены в ходе торгов и получить статистику выигрышей и проигрышей для каждой из стратегий.
Реализация описанного функционала стала возможной благодаря извлечению по каждому лоту слабоструктурированной информации, представленной в виде html страниц, и неструктурированной инфор­мации, представленной в виде документов различных форматов: pdf, doc, docx, txt, а также zip-архивов, содержащих большие наборы фай­лов упомянутых форматов.
Теоретическая ценность данной работы заключается в выявлении факторов, оказывающих наибольшее влияние на стоимость лота на электронных торгах, и применении метода линейной регрессии для про­гнозирования итоговой цены лота. Практической целью работы явля­ется создание программной системы, предоставляющей пользователю наиболее полную информацию об интересующем его лоте, включаю­щую прогноз итоговой цены для еще не реализованных лотов и данные об участниках и времени продажи для реализованных, а также данная системы должна включать площадку для проведения экспериментов, в ходе проведения которых пользователь может выработать собствен­ную стратегию участия в торгах. Представленное программное решение призвано расширить функционал сервиса bankrot-spy.ru [18].

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Результатом данной работы является успешное решение всех по­ставленных задач, а именно:
1. Разработаны алгоритмы извлечения неструктурированной инфор­мации из документов форматов pdf, doc, docx, txt, zip-архивов, a также слабоструктурированной информации из html страниц.
2. Найдены факторы, оказывающие наибольшее влияние на измене­ние цены лота в ходе торгов.
3. Апробированы и оценены различные модели линейной регрессии, осуществляющие прогнозирование финальной цены лота. Выбра­на оптимальная модель.
4. Создано десктопное приложение, функционал которого включа­ет предоставление информации по лотам, прогнозирование цены лотов и платформу для апробирования различных стратегий уча­стия в торгах на уже реализованных лотах.
Поставленная цель была достигнута.
Результаты данной работы были представлены на конференции «СПИСОК 2017».


[1] Friedl Jeffrey EF. Mastering regular expressions, 3rd Edition. — "O’Reilly Media, Inc.", 2006. — 554 p.
[2] K. Benoit. Linear regression models with logarithmic transformations // London School of Economics, London. — 2011.
[3] Skrivanek Smita. The use of dummy variables in regression analysis // More Steam, LLC. — 2009.
[4] XML Path Language (XPath) 2.0 (Second Edition) / Anders Berglund, Scott Boag, Don Chamberlin et al. // World Wide Web Consortium (W3C).-2010.
[5] А.Г. Дьяконов. Методы решения задач классификации с катего­риальными признаками // Прикладная математика и информати­ка. — 2014. — Vol. 46.
[6] Айвазян С. А. Енюков И. С. Мешалкин Л. Д.: под ред. Айвазяна С. А. Прикладная статистика. Исследование зависимостей: спра­вочное издание. — Финансы и статистика, 1985. — 471 с.
[7] Айвазян С.А. Мхитарян В.С. Прикладная статистика и основы эко­нометрики: Учебник для вузов. — 1998. — 656 р.
[8] Бронников А М. Виды торгов при реализации имущества должни­ков (банкротов) // Сравнительно-правовые аспекты правоотноше­ний гражданского оборота в современном мире. — 2015. — Р. 32-37.
[9] <Кодекс Российской Федерации об административных правонару­шениях> от 30.12.2001 N 195-ФЗ (ред. от 17.04.2017) Статья 14.13. <Неправомерные действия при банкротстве> часть 3.
[10] Риз Р. Обработка естественного языка на Java/пер. с англ // Сна- стина АВ-М.:-ДМК Пресс. - 2016. - 263 р.
[11] Сайт ассоциации электронных торговых площадок.— URL: http: //aetp.ru/etp/list (дата обращения: 20.05.2017).
[12] Сайт единого федерального реестра сведений о банкрот­стве.— URL: https://bankrot.fedresurs.ru (дата обращения: 20.05.2017).
[13] Сайт проекта Accord.Net.— URL: http://accord-framework.net (дата обращения: 20.05.2017).
[14] Сайт проекта Deductor. — URL: https://basegroup.ru/deductor/ description (дата обращения: 20.05.2017).
[15] Сайт проекта Html Agility Pack (НАР).— URL: http: //html-agility-pack.net/?z=codeplex (дата обращения: 20.05.2017).
...


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ