2.1 Определение источников данных
На данном этапе необходимо обозначить названные ниже особенности.

  1. Какие информационные системы (ИС) используются в процессе, насколько данные доступны в каждой из них.
  2. Если процесс охватывает несколько ИС — каким образом будет выстраиваться связь между системами. Существует ли поле, выполняющее роль сквозного идентификатора процесса.
  3. Каким образом будут получены и переданы в систему анализа данные — выгрузка стандартных отчетов из автоматизированных систем, выгрузки из баз данных либо прямая интеграция с БД.
  4. Параметры выгрузки, включая период, набор полей, дополнительные данные из смежных систем.
Что же необходимо учесть для определения периода анализа?

  1. Период должен быть достаточным для накопления нужного объема данных с учетом сезонности. Лучше, если в данных будет фигурировать хотя бы несколько тысяч экземпляров процесса.
  2. Период должен быть достаточным для покрытия всего жизненного цикла бизнес-процесса 4—5 раз. Например, если экспертные данные либо ручные замеры показывают, что средняя длительность одного экземпляра процесса (например, продажа продукта в офлайн-магазине) занимает от нескольких минут до часа, даже недели данных будет достаточно, чтобы проследить процесс от начала до конца несколько раз. Если же рассматриваемый процесс более длительный (например, согласование договора, сложное производство) и может занимать 3 месяца, то данных менее чем за год будет недостаточно.
  3. За рассматриваемый период не должно было происходить значительных изменений в процессе. Такие изменения, как редизайн процесса, смена информационной системы, автоматизация некоторых операций, изменение порядка действий сотрудников, в лучшем случае потребуют значительных преобразований данных, полученных из систем. Чаще всего такие изменения разбивают данные на два несопоставимых периода и не позволяют провести корректный анализ.
  4. В случае значительных изменений стоит немного подождать, накопить достаточный релевантный период данных и только после этого проводить исследование.

Набор полей для выгрузки диктуется двумя факторами, названными ниже.

  1. Необходимы данные, которые позволят протестировать гипотезы, сформулированные на первом этапе. Так, если мы хотим провести сравнительный анализ деятельности сотрудников, нам необходимо выгрузить данные об исполнителях, а если планируем проанализировать влияние канала продаж на конверсию — нужно получить информацию о канале поступления потенциального клиента.
  2. Все дополнительные характеристики, которые могут оказать влияние на путь протекания процесса, лучше также выгрузить и подготовить. Например, при согласовании договора на закупку: чем выше сумма потенциальной закупки — тем больше согласований необходимо для успешного подписания договора; в зависимости от того, обращается заявитель в IT Service Desk с проблемой в оборудовании или с ПО — действия сотрудников поддержки различаются; сухие грузы и жидкости загружаются на разных точках и др.
2.2. Выгрузка логов из информационных систем
После определения всех параметров ИТ-эксперт выгружает необходимые данные и либо готовит их для анализа самостоятельно, либо передает команде инженеров данных для обработки.
2.3. Подготовка и очистка данных
Цель обработки полученных логов — получить единую таблицу-датасет, содержащую все необходимые для дальнейшего анализа данные и в то же время очищенную от излишней информации. Минимально необходимо в датасете иметь идентификатор экземпляра процесса, операцию и ее дату с наибольшей возможной точностью.

В зависимости от доступности данных в информационной системе, дата может характеризовать начало операции, ее окончание, либо данные могут содержать две временные метки — и даты начала, и даты окончания. Лучше всего, если система дает возможность получить две даты: начала и окончания работы. Такая структура позволит разделить время работы над задачей и ожидания в очереди. Но если временная метка только одна, необходимо обеспечить единообразие этого поля для всех экземпляров и всех операций; его определение окажет влияние при расчете метрик. Подробнее мы разберем расчет метрик длительности на этапе «Анализ».

Обработка может производиться как на уровне базы данных путем создания специализированной витрины, сторонними инструментами обработки (например, отдельный SQL-сервер или python-скрипт), так и непосредственно в инструментах Process Mining, если они предоставляют такую возможность.

В платформе Sber Process Mining предусмотрен модуль ETL, который позволяет все преобразования проводить непосредственно в системе. Это уменьшает влияние человеческого фактора, затрудняя злонамеренную манипуляцию данными и упрощая проверки на предмет случайных ошибок, а также улучшает повторяемость преобразований с целью повторного анализа или даже регулярного обновления данных для постановки процесса на мониторинг.
Чаще всего в рамках подготовки датасета используются названные ниже преобразования.
2.4. Загрузка данных в инструмент
Учитывая гипотезы, сформулированные командой проекта на предыдущем этапе, из единой системы, в которой работают сотрудники подразделений продаж, были выгружены данные обо всех контактах с клиентом по анализируемому продукту за период с 09 января 2020 по 30 июня 2020. За выбранный период не производилось значительных изменений в процессе, а итоговое число наблюдений (2 240 экземпляров) вполне достаточно для проведения качественного анализа.

Итоговый датасет выглядит следующим образом:
ID_PRODUCT — идентификатор экземпляра, условный номер контакта с клиентом
EVENT_DATE — момент времени, когда производились действия в рамках обслуживания клиента. Каждое действие соответствует нажатию кнопки в интерфейсе системы и обозначает момент, когда сотрудник начал определенную операцию.
EVENT_NAME — операция (или действие), которое производил сотрудник
USER_NAME — сотрудник
TB_CODE — номер территориального банка, в котором работает сотрудник
OSB_NUMBER — номер ОСБ, в котором работает сотрудник
Транскрибация
Чтобы начать анализ, необходимо собранный датасет загрузить в платформу. Для этого откройте вкладку «Данные» — «Источники данных». В появившемся списке вы увидите все загруженные вами данные.

Для добавления нового источника нажмите на кнопку «+Датасет» в правой верхней части экрана. В открывшемся окне можно указать название источника данных, дополнительное описание, а также выбрать файл для загрузки.
Чтобы загрузить файл, нажмите «Выберите файл» или загрузите его перетаскиванием из папки. Когда всё готово, нажмите «Добавить». Откроется окно разметки датасета.

В этом окне необходимо указать поля, содержащие информацию об идентификаторе экземпляра, операции и датах. Кроме разметки, на этом этапе настраиваются дополнительные параметры — режим удаления дубликатов, порог ошибок и флаг создавать или не создавать исследование автоматически.

Откройте платформу и загрузите файл «Продажа продукта.csv» в соответствии с показанными настройками.
Представленные данные смоделированы на основании реального исследования, персональные данные сгенерированы.