Введение 5
1. Постановка задач 8
2. Обзор существующих решений 9
3. Извлечение данных 11
3.1. Извлечение слабоструктурированной информации 12
3.2. Извлечение неструктурированной информации 13
4. Анализ данных 17
4.1. Предварительный анализ 17
4.2. Прогнозирование финальной цены лота 18
4.2.1. Введение в линейную регрессию 18
4.2.2. Парная линейная регрессия 19
4.2.3. Категориальные параметры 23
4.2.4. Выявление оптимальной модели линейной регрессии 25
4.2.5. Сравнение модели линейной регрессии с другими моделями прогнозирования 27
4.3. Выявление выигрышной стратегии участия в торгах 28
5. Реализация программной системы 33
5.1. Архитектура программной системы 33
5.1.1. Модуль получения данных 33
5.1.2. Модуль обработки данных 40
5.1.3. Модуль обучения и применения модели линейной регрессии 41
5.1.4. Модуль площадки для экспериментов 42
5.2. Функционал программной системы 43
Заключение 45
Список литературы 46
Приложение А 49
Приложение Б 50
Приложение В 51
Приложение Г 52
В условиях кризиса банкротство физических и юридических лиц стало частым явлением. При наличии у банкрота имущества, на которое может быть обращено взыскание, происходит его опись, оценка и составление плана продажи. Имущество должника продается на торгах, которые проводятся на различных электронных торговых площадках (ЭТИ). Электронные торги позволяют увеличить аудиторию потенциальных покупателей и быстро продать имущество должника.
Продажа имущества банкрота происходит в три этапа. Сначала объявляется первичное предложение в форме открытого аукциона, на этом этапе имущество выставляется по начальной стоимости, торги идут на повышение, выигрывает участник, заявивший наибольшую цену. Если на первом этапе лот не был продан, его цена снижается на 10-30% и снова объявляется открытый аукцион. Если в ходе второго этапа лот не был продан, объявляется третий этап — торги в форме публичного предложения. На этом этапе через определенные промежутки времени, чаще всего 7-14 дней, происходит снижение цены лота на 5-15%, победителем становится участник, сделавший ставку быстрее остальных или предложивший наибольшую цену [8].
Цена имущества на электронных торгах часто бывает крайне низкой, она может достигать 10% от рыночной. Именно поэтому торги на ЭТИ интересны как предпринимателям, так и частным лицам. В настоящее время функционирует порядка 60-ти ЭТИ [11]. Рынок имущества банкротов находится в постоянном движении, и уследить за всеми лотами на всех площадках становится практически невыполнимой задачей.
На помощь потенциальному участнику торгов приходят сервисы, предоставляющие обширную базу имущества, которая содержит информацию о лотах, продаваемых на различных ЭТП. Количество наиболее популярных сайтов с такой тематикой варьируется в районе 20- ти. Чаще всего функционал таких сервисов не ограничивается сбором информации с нескольких электронных площадок, многие из них позволяют осуществлять фильтрацию и сортировку лотов, подписываться на лоты определенной категории и даже предоставляют помощь в участии в торгах.
Безусловно, такие сервисы упрощает процедуру поиска нужных лотов, однако, большинство подобных сайтов имеют достаточно скудный функционал и не используют в полной мере возможности, которые открываются при тщательной обработке информации по электронным торгам. Анализ данных по завершившимся торгам представляет большой интерес с точки зрения прогнозирования результатов будущих торгов.
Предложенная в данной работе программная система предоставляет пользователю возможность получить быстрый и достаточно точный прогноз итоговой цены еще не реализованного лота. Опираясь на полученную информацию, пользователь может скорректировать свою стратегию участия в торгах и одержать победу. Также разработанная система позволяет опробовать на выборке из уже проданных лотов различные варианты изменения цены в ходе торгов и получить статистику выигрышей и проигрышей для каждой из стратегий.
Реализация описанного функционала стала возможной благодаря извлечению по каждому лоту слабоструктурированной информации, представленной в виде html страниц, и неструктурированной информации, представленной в виде документов различных форматов: pdf, doc, docx, txt, а также zip-архивов, содержащих большие наборы файлов упомянутых форматов.
Теоретическая ценность данной работы заключается в выявлении факторов, оказывающих наибольшее влияние на стоимость лота на электронных торгах, и применении метода линейной регрессии для прогнозирования итоговой цены лота. Практической целью работы является создание программной системы, предоставляющей пользователю наиболее полную информацию об интересующем его лоте, включающую прогноз итоговой цены для еще не реализованных лотов и данные об участниках и времени продажи для реализованных, а также данная системы должна включать площадку для проведения экспериментов, в ходе проведения которых пользователь может выработать собственную стратегию участия в торгах. Представленное программное решение призвано расширить функционал сервиса bankrot-spy.ru [18].
Результатом данной работы является успешное решение всех поставленных задач, а именно:
1. Разработаны алгоритмы извлечения неструктурированной информации из документов форматов pdf, doc, docx, txt, zip-архивов, a также слабоструктурированной информации из html страниц.
2. Найдены факторы, оказывающие наибольшее влияние на изменение цены лота в ходе торгов.
3. Апробированы и оценены различные модели линейной регрессии, осуществляющие прогнозирование финальной цены лота. Выбрана оптимальная модель.
4. Создано десктопное приложение, функционал которого включает предоставление информации по лотам, прогнозирование цены лотов и платформу для апробирования различных стратегий участия в торгах на уже реализованных лотах.
Поставленная цель была достигнута.
Результаты данной работы были представлены на конференции «СПИСОК 2017».
[1] Friedl Jeffrey EF. Mastering regular expressions, 3rd Edition. — "O’Reilly Media, Inc.", 2006. — 554 p.
[2] K. Benoit. Linear regression models with logarithmic transformations // London School of Economics, London. — 2011.
[3] Skrivanek Smita. The use of dummy variables in regression analysis // More Steam, LLC. — 2009.
[4] XML Path Language (XPath) 2.0 (Second Edition) / Anders Berglund, Scott Boag, Don Chamberlin et al. // World Wide Web Consortium (W3C).-2010.
[5] А.Г. Дьяконов. Методы решения задач классификации с категориальными признаками // Прикладная математика и информатика. — 2014. — Vol. 46.
[6] Айвазян С. А. Енюков И. С. Мешалкин Л. Д.: под ред. Айвазяна С. А. Прикладная статистика. Исследование зависимостей: справочное издание. — Финансы и статистика, 1985. — 471 с.
[7] Айвазян С.А. Мхитарян В.С. Прикладная статистика и основы эконометрики: Учебник для вузов. — 1998. — 656 р.
[8] Бронников А М. Виды торгов при реализации имущества должников (банкротов) // Сравнительно-правовые аспекты правоотношений гражданского оборота в современном мире. — 2015. — Р. 32-37.
[9] <Кодекс Российской Федерации об административных правонарушениях> от 30.12.2001 N 195-ФЗ (ред. от 17.04.2017) Статья 14.13. <Неправомерные действия при банкротстве> часть 3.
[10] Риз Р. Обработка естественного языка на Java/пер. с англ // Сна- стина АВ-М.:-ДМК Пресс. - 2016. - 263 р.
[11] Сайт ассоциации электронных торговых площадок.— URL: http: //aetp.ru/etp/list (дата обращения: 20.05.2017).
[12] Сайт единого федерального реестра сведений о банкротстве.— URL: https://bankrot.fedresurs.ru (дата обращения: 20.05.2017).
[13] Сайт проекта Accord.Net.— URL: http://accord-framework.net (дата обращения: 20.05.2017).
[14] Сайт проекта Deductor. — URL: https://basegroup.ru/deductor/ description (дата обращения: 20.05.2017).
[15] Сайт проекта Html Agility Pack (НАР).— URL: http: //html-agility-pack.net/?z=codeplex (дата обращения: 20.05.2017).
...