Алгоритмы классификации машинного обучения могут сэкономить деньги компаний, осуществляя прогнозирование оттока клиентов . Чтобы разобраться в данной теме необходимо выяснить, что такое churn. Churn — это отток. Отток — это потеря клиентов компанией, что может быть связано с разными причинами. Причины оттока клиентов могут быть связаны с недостаточной изученностью целевого рынка, отсутствием преимуществ на фоне других компаний, недостаточным профессионализмом службы поддержки, отсутствием программы лояльности, чрезмерной назойливость по отношению к клиентам. Что такое churn rate? Отток клиентов или (churn rate) — это показатель потери клиентов за определенный период времени. Churn метрика используется для различных онлайн-платформ, включая мобильные приложения, банки, операторов связи и маркетплейсы.
Для построения такого классификатора вам потребуется доступ к профилям ваших клиентов и начальный показатель оттока клиентов. Таким образом, это типичная задача так называемого контролируемого обучения. Бизнес работающий с клиентами должен знать, как посчитать отток клиентов, поэтому в данной статье мы расскажем, как считать churn rate.
Но в первую очередь компаниям, возможно, придется провести анализ оттока клиентов, чтобы спрогнозировать, когда произойдут эти потери. Зная, что они будут иметь возможность продвигать первые персональные рекламные предложения в надежде сохранить клиентов.
Последнее, кажется, более сложной задачей, учитывая, что в реальных условиях, чтобы управлять, вы часто имеете не более, чем список заказов на одного клиента. В RBC Group мы нашли решение для получения (почти) онлайн-маркировки для клиентов, которые входят в churn rate, основываясь исключительно на частоте и сумме их предыдущих заказов.
Чтобы рассчитать коэффициент оттока клиентов должна быть использована churn rate формула. Формула оттока клиентов гласит, что необходимо разделить число потерянных клиентов за определенный период на общее количество клиентов на момент начала периода и умножить на 100.
Сбор данных и основная концепция
Таким образом, согласно вышесказанному, единственными данными, которые мы будем использовать для демонстрации нашего подхода, являются случайно сгенерированные наборы данных, содержащие записи суммы и даты заказа в течение двух лет для 1000 уникальных клиентов. Частота заказа будет рассматриваться как разница между двумя последующими заказами.
Таким образом, наша конечная цель состоит в том, чтобы спрогнозировать, находится ли количество дней с момента последнего известного заказа в пределах частоты регулярного заказа данного клиента. Другими словами, мы рассчитаем вероятность того, что вышеуказанное число дней превысит ожидаемую известную функцию распределения частоты заказа покупателя. Если эта вероятность превышает определенный порог — клиент, скорее всего, уходит.
Настройка вероятности функции распределения
Настройка жизненного цикла клиента (т.е. его регулярной частоты заказа) далее будет выполнена с scipy.stats.truncnorm. Тем не менее, мы предлагаем рассмотреть не только перерывы между заказами (т.е. периодичность заказов), но и сумму этих заказов. Это второй доступный нам прогноз для моделирования поведения наших клиентов. Можно предположить, что средняя сумма заказов (как модель потребления) так же важна, как и их регулярность. Это означает, что в большей степени нам следует полагаться на заказы с оплаченными денежными суммами (далее — сумма заказа), которые близки к среднему уровню расходов клиента.
Таким образом, настраивая нашу выборочную функцию распределения, мы рассчитаем среднюю частоту заказа для данного клиента как средневзвешенное значение с обратно пропорциональными значениями (т.е. угасание) пропорционально сумме заказа к среднему количеству всех заказов известного заказчика (т.е. стандартизированная оценка).
Это то, что мы назвали настройкой вероятности функции распределения.
Именно так наш подход будет работать на практике, делая вид, что использует последний заказ клиента в качестве теста. (Обратите внимание, что все вероятности здесь, в пределах зоны риска “отток клиентов” являются ложноположительными, так как исследуемые заказы были сделаны клиентами, мы просто выделили их из соответствующих подгрупп, моделируя выборочную функцию распределения).
Оценка эффективности работы
Для этого нам необходимо разбить наш созданный набор данных на поезд и провести испытание с использованием эмпирического правила трех сигм, а это означает, что мы будем рассчитывать продолжительность испытательного периода следующим образом:
(средняя частота заказов (в днях) для всех клиентов + З х SD)
Все клиенты, сделавшие хотя бы одну покупку в течение тестового периода, считаются “верными”, в то время как все остальные (т.е. те, кто сделал свою последнюю покупку только в течение периода обучения) — ”истинный отток клиентов”.
Окончанием периода обучения является так называемая ”контрольная дата”. Это означает, что мы рассчитаем разницу между последним заказом клиента и ”контрольной датой”, чтобы оценить уверенность (вероятность) этой разницы (в днях) вне регулярной частоты заказа, используя настроенную выборочную функцию распределения.
В качестве основного подхода мы будем использовать вышеназванное эмпирическое правило трех сигм: если разница между ”контрольной датой” и датой последнего заказа выше (средняя + 3 x SD) — клиент промаркирован как “прогнозируемый отток”. В качестве альтернативы, мы будем применять наш метод выборочной функции распределения для классификации клиентов на основе их календаря заказов с использованием различных пороговых значений для функции маркировки.
Вот матрица замешательства для всех экспериментов. (Обратите внимание: поскольку данные генерируются случайным образом, коэффициент оттока клиентов может показаться неправдоподобным).
Здесь вы видите, как предложенный нами подход превзошел правило трёх сигм с точки зрения более точного определения оттока клиентов. Также обратите внимание на то, как увеличение порога уменьшает количество ложноотрицательных ошибок, что означает, меньшее число клиентов будет получать потенциально раздражающие напоминания от вас (спам). Выбор, как обычно, зависит от характера вашего бизнеса.