Цель обработки полученных логов — получить единую таблицу-
датасет, содержащую все необходимые для дальнейшего анализа данные и в то же время очищенную от излишней информации. Минимально необходимо в датасете иметь идентификатор экземпляра процесса, операцию и ее дату с наибольшей возможной точностью.
В зависимости от доступности данных в информационной системе, дата может характеризовать начало операции, ее окончание, либо данные могут содержать две временные метки — и даты начала, и даты окончания. Лучше всего, если система дает возможность получить две даты: начала и окончания работы. Такая структура позволит разделить время работы над задачей и ожидания в очереди. Но если временная метка только одна, необходимо обеспечить единообразие этого поля для всех экземпляров и всех операций; его определение окажет влияние при расчете метрик. Подробнее мы разберем расчет метрик длительности
на этапе «Анализ».
Обработка может производиться как на уровне базы данных путем создания специализированной витрины, сторонними инструментами обработки (например, отдельный SQL-сервер или python-скрипт), так и непосредственно в инструментах Process Mining, если они предоставляют такую возможность.
В платформе Sber Process Mining предусмотрен модуль ETL, который позволяет все преобразования проводить непосредственно в системе. Это уменьшает влияние человеческого фактора, затрудняя злонамеренную манипуляцию данными и упрощая проверки на предмет случайных ошибок, а также улучшает повторяемость преобразований с целью повторного анализа или даже регулярного обновления данных для постановки процесса на мониторинг.