ПРИМЕНЕНИЕ МАШИННОГО ОБУЧЕНИЯ И PROCESS MINING К ЗАДАЧАМ КЛАСТЕРИЗАЦИИ ПРОЦЕССОВ В ФИНАНСОВОЙ СФЕРЕ
Ключевые слова:
машинное обучение; process mining; data science; векторизация процессов; кластеризация; обработка естественного языкаАннотация
Важным инструментом повышения эффективности бизнес-процессов в компаниях может стать process mining, являющийся промежуточным звеном между data mining и process management. Process mining – это совокупность методов и подходов к извлечению, анализу и оптимизации процессов на основании изучения данных из журналов событий (eventlogs) информационных систем. Она приходит на смену классическим методам описания и ручного моделирования процессов и позволяет из необработанных цифровых данных получать информацию о связанных с ними процессах. Применение машинного обучения в связке с process mining является крайне перспективным направлением. В статье показано использование этой связки для решения задачи кластеризации журнала событий. Рассмотрено три различных способа векторизации процессов в журнале: label encoding, one-hot-encoding и act2vec. После была проведена кластеризация получившихся векторов с помощью одного и того же алгоритма k-means. В результате был проведен сравнительный анализ трех способов. Label encoding проявил себя неудовлетворительно, показав крайне низкое качество на этапе кластеризации. One-hot-encoding продемонстрировал значительно лучший результат и справился с кластеризацией, но число столбцов в свойственной этой векторизации разреженной матрице будет резко расти при увеличении количества вариантов у категориальных признаков. Лучшим решением оказался act2vec – аналог word2vec из обработки естественного языка, примененный к процессам из журнала событий. Act2vec, как и его близкий родственник, является сравнительно экономичным отображением в признаковое пространство фиксированной размерности. По качеству он не уступил one-hot-encoding, но обошел его по производительности.