ПРИМЕНЕНИЕ МАШИННОГО ОБУЧЕНИЯ И PROCESS MINING К ЗАДАЧАМ КЛАСТЕРИЗАЦИИ ПРОЦЕССОВ В ФИНАНСОВОЙ СФЕРЕ

Авторы

  • Михаил Игоревич Кревский ФГАОУ ВО «Московский физико-технический институт (НИУ)» https://orcid.org/0000-0001-8511-6712
  • Даниил Михайлович Сметанев ПАО «Сбербанк России» https://orcid.org/0000-0003-3543-2842

Ключевые слова:

машинное обучение; process mining; data science; векторизация процессов; кластеризация; обработка естественного языка

Аннотация

Важным инструментом повышения эффективности бизнес-процессов в компаниях может стать process mining, являющийся промежуточным звеном между data mining и process management. Process mining – это совокупность методов и подходов к извлечению, анализу и оптимизации процессов на основании изучения данных из журналов событий (eventlogs) информационных систем. Она приходит на смену классическим методам описания и ручного моделирования процессов и позволяет из необработанных цифровых данных получать информацию о связанных с ними процессах. Применение машинного обучения в связке с process mining является крайне перспективным направлением. В статье показано использование этой связки для решения задачи кластеризации журнала событий. Рассмотрено три различных способа векторизации процессов в журнале: label encoding, one-hot-encoding и act2vec. После была проведена кластеризация получившихся векторов с помощью одного и того же алгоритма k-means. В результате был проведен сравнительный анализ трех способов. Label encoding проявил себя неудовлетворительно, показав крайне низкое качество на этапе кластеризации. One-hot-encoding продемонстрировал значительно лучший результат и справился с кластеризацией, но число столбцов в свойственной этой векторизации разреженной матрице будет резко расти при увеличении количества вариантов у категориальных признаков. Лучшим решением оказался act2vec – аналог word2vec из обработки естественного языка, примененный к процессам из журнала событий. Act2vec, как и его близкий родственник, является сравнительно экономичным отображением в признаковое пространство фиксированной размерности. По качеству он не уступил one-hot-encoding, но обошел его по производительности.

Загрузки

Опубликован

2020-04-18

Как цитировать

Кревский М.И., Сметанев Д.М. ПРИМЕНЕНИЕ МАШИННОГО ОБУЧЕНИЯ И PROCESS MINING К ЗАДАЧАМ КЛАСТЕРИЗАЦИИ ПРОЦЕССОВ В ФИНАНСОВОЙ СФЕРЕ // Современные инструменты, методы и технологии управления знаниями. 2020. № 3. [Электронный ресурс]. URL: https://fortus-science.ru/index.php/KM/article/view/284 (дата обращения: 24.04.2024).