Если мужчина, возраст которого от 30 до 35 лет, выкладывает на ленту супермаркета пиво, а также снеки в широком ассортименте, можно предположить, что сегодня он собирается посмотреть интересную спортивную трансляцию.
Опираясь на такие предположения, маркетологи могут сформулировать задачу по анализу рыночной корзины. Цель этого мероприятия — выявить среди покупок клиентов супермаркета комбинации товаров, которые связаны между собой. То есть понять, на самом ли деле сочетание пива и чипсов является шаблонным, или это случайность.
Эту задачу можно сформулировать так: обнаружить зависимость (ассоциативное правило) вида “если в транзакции есть набор элементов А, то набор элементов Б в определенной вероятностью тоже в ней будет”.
Эту информацию можно получить из базы данных с чеками. Примем, что чек — это транзакция, а товары — элементы. Анализируя, мы выявили такое ассоциативное правило:
Может показаться, что это очевидно. В принципе, об этом можно догадаться интуитивно, но оцифрованные данные являются непреложным фактом. Именно цифры дают возможность проводить маркетинговые акции, направленные на стимулирование продаж соленых закусок, а еще — понять, насколько она будет выгодной и каким должен быть формат акционного предложения.
Надо понимать, что очевидные правила обычно высоко достоверны и имеют высокую поддержку. А вот правилам, которые высоко достоверны, но не имеют высокой поддержки, можно пользоваться, чтобы найти идеи для акций, например, наборы товаров для промо-предложений.
К примеру, можно узнать, что пиво в стеклянной таре чаще покупают с вином, белым или красным, или другим алкоголем, а вовсе не с чипсами и сухариками.
Изначально задача ставилась только на анализ потребительской корзины в супермаркете, но если сформулировать ее в более обобщенном виде, то выявленные ассоциативные правила можно использовать в других сферах.
К примеру, в страховом бизнесе на базе анализа уже заключенных договоров можно сформировать новый продуктовый ряд. В нем могут быть расширенные предложения, премиальные услуги.
Те же автодилеры, анализируя чеки, могут создавать пакетные предложения для автомобилистов. Чтобы извлечь для себя максимальную выгоду, можно объединять в рамках одного предложения популярные услуги и те, которые приносят больше всего прибыли.
Есть и практический кейс работы с оператором мобильной связи. Выяснили, что есть наиболее распространенные значения услуг, которыми пользуются некоторые клиенты. Они выглядят, например, так:
Совершенно рационально выглядит предположение, что такие абоненты — туристы из других стран, которые покупают сим-карты, чтобы пользоваться связью более дешево.
Подытожим: шаблоны можно искать в ответах на вопросы анкет, создавать предложения для кросс-продаж в интернет-магазинах. То есть, имея транзакции и элементы, можно искать правила объединения элементов во множестве.
Подкрепим описанное выше визуализацией. Начнем с диаграммы частоты покупок товаров.

Чаще всего покупают молоко, его в общем массиве чеков свыше 25%. Также популярны следующие товары (их в чеках от 15 до 20%):
То есть логично предположить, что в правилах, которые мы выводим, эти товары тоже будут.
На диаграмме ниже видим, что чаще всего клиенты из кластера №2 покупают сахар-песок в мешках по 50 кг. А вот клиенты из кластеров №1 и №4 этот товар покупают не так уж часто. Значит, стоит использовать эту информацию, делая предложения клиентам. Ясно, что не стоит тратить ресурсы, предлагая всем клиентам товар, интересный только одной группе.

Также можно искать не только отдельные продукты, но и наборы, состоящие из нескольких товаров, которые чаще всего покупают вместе.
К примеру, у клиентов из кластера №4 бананы и яйца есть в одном чеке достаточно часто. Но эта группа по численности — не более 10% от всей базы клиентов, правда, приносит около 65% дохода. Соответственно, не стоит проводить акцию с этими товарами, рассчитанную на клиентов из кластера №2.

Вернемся к ассоциативным правилам. Используя алгоритм apriori, найдем список правил. Условия для отбора будут такими:
В зависимости от количества товаров в чеке можно удалять ненужные или очевидные правила.
Опираясь на параметры, заданные нами, алгоритм выдал 5668 правил. В Excel получаем такую таблицу:

В первой колонке находятся наши правила, а далее — их характеристики. Получается, что чаще всего покупают набор продуктов из овощей, йогурта и молока.
Строим несколько диаграмм с распределением ассоциативных правил по количеству наборов продуктов. Далее исследуем графики, чтобы выделить группы ассоциативных правил для последующего анализа.
На графике ниже у нас есть группа правил в левом верхнем углу. Ее достоверность равна 1.

Правила встречаются не слишком часто, но они есть. Не исключено, что это одни и те же покупатели, то есть им можно предложить что-то в виде выражения заботы. Вот, что это за правила.

Видим, что есть клиенты, которые постоянно покупают такой набор: “{cream cheese ,domestic eggs,sugar} => {whole milk}”. Из него можно приготовить творожно-кремовый десерт. Чтобы поблагодарить человека, который купил этот набор 11 раз, можно подарить ему мастер-класс от специалиста по десертам или 12-й набор бесплатно. Также можно этот набор красиво упаковать, добавить фото, рецепт и провести акцию под названием “Рецепт недели”, чтобы этот набор покупали и другие люди.
Получается, что акции, созданные на основе анализа данных, имеют все шансы быть более успешными, чем те, что сформированы на основе домыслов.
Есть и другие полезные знания, которые можно получить из чеков.
Например, построим следующую матрицу:

Из правой части RHS видим такой перечень товаров:
В большом количестве наборов встречается молоко, а вот пиво в бутылках в комплекте покупают значительно реже, но значение показателя lift для этого набора действительно велико.
Значит, в наборах эти товары покупают чаще, чем по отдельности. Потому логично работать с акционными предложениями на товары из этого набора.
Чтобы разобраться в полученных результатах, построим еще одну диаграмму.

Здесь видно, что пиво в бутылках лишь в одном правиле фигурирует с вином и другим алкоголем. А вот тропические фрукты есть в двух правилах: с ветчиной, виноградом и еще пятью продуктами. Их можно объединить с набором из первого правила и получить комбинацию для вечеринки.
Также для анализа можно использовать графы. Они помогут разобраться в связях между продуктами и правилами.
Каждое правило на графе — вершина (точка), а входящие ребра — “левая часть” правила. “Правая часть” правила изображена на исходящих ребрах. Размеры точки — лифт, а уровень поддержки обозначен цветом.
Выделенное синим правило показывает, что клиенты, которые покупают газировку и попкорн, скорее всего приобретут другие соленые снеки.

Правило, которое не связано с другими, отлично заметно на графе, оно выделено желтым. Похоже, что это набор для выпечки. Он вполне может стать акционным.
Среди способов визуализации правил есть и такой, как параллельные координаты.
Если взять ТОП-10 правил, где самый большой параметр lift, и отразить их на графике, то получим такую картинку. В крайней правой колонке RHS мы видим продукты из “правой части” правила. Через позиции “левой части” правила проходит стрелка, ее длина — количество позиций в правиле, а толщина — уровень поддержки.

Подведем итог. Мы разобрались в том, как можно использовать для поиска шаблонов ассоциативные правила. Для наглядности мы использовали уже готовые данные, но для реального супермаркета, ассортимент которого насчитывает тысячи товаров, диаграммы будут гораздо масштабнее. А подход в целом все равно остается рабочим.
