Введение …………………………………………………………………....3
Постановка задачи ………………………………………………………..6
Обзор литературы
Глава 1. Анализ предметной области ………………………………......9
1.1. Обзор существующих решений…………………………………..9
1.2. Используемые данные …………………………………………..11
Глава 2. Теоретическое описание метода……………………………13
2.1. Вероятностная тематическая модель…………………………...13
2.2. LDA
2.3. Сэмплирование по Гиббсу………………………………………16
2.4. Перплексия…
2.4. Описание процесса работы..………………………………….…20
Глава 3. Имплементация и результаты ………………………………22
3.1. Инструменты разработки
3.2. Эксперименты
3.3. Сравнение
Выводы
Заключение
Список литературы
Российский рынок недвижимости находится в уникальном состоянии.
Реалии таковы, что при аренде квартиры, офисного помещения или любой
другой недвижимости, в большинстве случаев мы будем иметь дело с
риелторами или агентами. Как правило, это означает, что нам дополнительно
нужно будет оплачивать их услуги, стоимость которых может доходить до
50% от ежемесячной оплаты за снимаемую квартиру или помещение.
Причиной этому служит то, что отечественный рынок недвижимости
довольно молодой - за всю историю России, включая советский период,
массового владения частной собственностью в стране не существовало. Из-за
этого российский рынок недвижимости остается не урегулированным
законодательно. По сравнению с нашей страной в Европе и США рынок
недвижимости существовал столетиями, за которые выработались правила
рынка, требования к профессии, четко разделены функции специалистов.
Например, в США брокеры занимаются поиском клиентов и продажей
недвижимости, а юристы и нотариусы занимаются оформлением сделок. В
России риелторы ищут объекты, рекламируют их, организуют показы
недвижимости, ведут переговоры между продавцом и
покупателем(арендодателем), занимаются юридическим оформлением
сделки технической организацией. При этом, если в США брокеры несут
ответственность, вплоть до уголовной, когда российские риэлторы в худшем
случае получают негативную реакцию клиента или попадают в черный
список, размещенный на одном из профессиональных сайтов.
По данным опроса Национального агентства финансовых исследований
(НАФИ), в 2016 году 35% россиян не доверяют агентствам недвижимости, а
еще 41% затруднились четко определить свое отношение к этой профессии.
Часто используются различные уловки для привлечения потребителей. Например, делается объявление для очень хорошего объекта со всеми
условиями, с низкой стоимостью, но на деле этого объекта либо нет совсем и
никогда не было, либо объект давно сдан и объявление используется только
для привлечения внимания.
Обман и мошенничество на отечественном рынке недвижимости, к
сожалению, очень распространены. По данным Росреестра, за 2016 год
признаны недействительными 6% сделок с недвижимостью. Это
действительно огромная цифра, особенно учитывая какие суммы стоят на кону при таких сделках.
Предпочтительнее для покупателя будет вести переговоры напрямую с
собственником. Хотелось бы, просматривая объявления по недвижимости,
быстро фильтровать их и находить объявления от собственников.Многие
сайты объявлений недвижимости предлагают такую опцию, однако это не
помогает исключать фальшивые объявления, сделанные специально для
привлечения внимания. Конечно, арсенал уловок мошенников далеко этим не
ограничивается, но даже имея возможность отсеивать такие фальшивые
объявления может помочь многим людям и сохранить огромные суммы денег.
Удалось построить метод оценивания объявлений по аренде
недвижимости, который не требует обширной базы данных, актуальность
которой необходимо постоянно поддерживать.
В дальнейшем этот метод можно следующими способами:
● найти или накопить более крупные выборки объявлений для
улучшения показателей модели
● объединить лучшие модели в один классификатор для улучшения точности
1. Heinrich G. Parameter estimation for text analysis. Technical report,2005.
2. D. Blei, A. Ng & M. Jordan. Latent Dirichlet allocation. In Advances in
Neural Information Processing Systems 14. MIT Press, Cambridge, MA,2002
3. T. Hofmann. Probabilistic latent semantic analysis. In Proc. of
Uncertainty in Artificial Intelligence, UAI’99. Stockholm, 1999. URL
http://citeseer.ist.psu. edu/hofmann99probabilistic.html.
4. Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K.
Landauer, Richard Harshman. Indexing by Latent Semantic Analysis //
JASIS (41) 1990 pp. 391-407.
5. L. Azzopardi, M. Girolami & K. van Risjbergen. Investigating the
relationship between language model perplexity and IR precision-recall
measures. In Proc. SIGIR. 2003.
6. M. Steyvers & T. Griffiths. Latent Semantic Analysis: A Road to
Meaning, chap. Probabilistic topic models. Laurence Erlbaum, 2007.
7. X. Wei & W. B. Croft. LDA-based document models for ad hoc retrieval.
In Proc. SIGIR. 2006.
8. Воронцов К.В. Вероятностное тематическое моделирование.
http://www.machinelearning.ru/wiki/images/f/fb/VoronMLTopicModels.pdf
9. A. McCallum, X. Wang & A. Corrada-Emmanuel. Topic and role
discovery in social networks with experiments on Enron and academic
email. Journal of Artificial Intelligence Research, 30:249–272, 2007.
10. Moghaddam S., Ester M. On the design of LDA models for aspect-based
opinion mining. Proceedings of the 21st ACM international conferenceon Information and knowledge management. – ACM, 2012., pp. 803-812.
11.Tutubalina E. Target-Based Topic Model for Problem Phrase Extraction.
Advances in Information Retrieval, 2015, pp. 271-277