Шрифт:
Интервал:
Закладка:
Обнаружение аномалий может применяться во многих проблемных областях помимо мошенничества с кредитными картами. Оно используется клиринговыми центрами при мониторинге финансовых транзакций для выявления любых действий, которые требуют дальнейшего расследования, — от потенциально мошеннических до отмывания денег. Обнаружение аномалий применяется при анализе страховых претензий для выявления нетипичных. В кибербезопасности оно используется для обнаружения возможных взломов или нетипичного поведения сотрудников в сети. В области медицины выявление аномалий в историях болезней пациентов может быть полезно для диагностики заболеваний и для изучения методов лечения и их воздействия на организм. Наконец, с распространением датчиков и технологии интернета вещей обнаружение аномалий будет играть важную роль при мониторинге данных и формировании предупреждений, когда происходят нештатные ситуации и требуется вмешательство.
Одна из стандартных стратегий продаж — перекрестные продажи, т. е. предложение клиентам дополнительных продуктов, которые они могут захотеть приобрести. Идея состоит в том, чтобы увеличить общий чек клиента, заставляя его покупать больше и в то же время улучшая обслуживание за счет напоминания о продуктах, которые тот, возможно, хотел купить, но забыл. Классический пример перекрестных продаж — когда сотрудник ресторана быстрого питания спрашивает клиента, который только что заказал гамбургер: «Добавить картофель фри?» Супермаркетам и предприятиям розничной торговли хорошо известно, что покупатели приобретают товары группами, и они используют эту информацию для настройки перекрестных продаж. Например, клиенты супермаркетов, покупающие хот-доги, часто берут с ними кетчуп и пиво. Используя эту информацию, магазин может планировать расположение продуктов в торговом зале. Разместив хот-доги, кетчупы и пиво рядом друг с другом, магазин помогает клиентам быстрее собрать эту группу товаров, а также увеличивает свои продажи, поскольку клиенты могли забыть о кетчупе и пиве. Понимание этих связей между продуктами является основой перекрестных продаж.
Поиск ассоциативных правил — это метод анализа данных при обучении без учителя. Его суть состоит в поиске групп элементов, часто встречающихся вместе. Ассоциативные правила применяются при анализе покупательской корзины, когда розничные компании пытаются выявить наборы товаров, приобретаемых вместе, например хот-дог, кетчуп и пиво. Для такого анализа данных бизнес отслеживает корзину товаров каждого покупателя при каждом посещении магазина. При поиске ассоциативных правил каждая строка в наборе данных описывает содержимое корзины, оплаченной конкретным покупателем в конкретное время. Атрибуты в этом наборе данных — приобретенные товары. На основе данных алгоритм поиска ассоциативных правил ищет товары, которые встречаются в каждой корзине. В отличие от кластеризации и обнаружения аномалий, которые фокусируются на выявлении сходств или различий между объектами (или строками) в наборе данных, поиск ассоциативных правил фокусируется на рассмотрении связей между атрибутами (или столбцами) в наборе данных. В общем смысле этот тип анализа ищет корреляции — т. е. совместные вхождения — между продуктами. Используя поиск ассоциативных правил, компания может изучить поведение своих клиентов, выявляя закономерности в данных. Вот некоторые из вопросов, на которые анализ корзины может дать ответы: «Работает ли маркетинговая кампания?», «Меняются ли закономерности покупок конкретного клиента?», «Когда клиент отмечает главные для себя праздники?», «Влияет ли местоположение конкретного магазина на покупательское поведение?», «На кого мы должны ориентировать наш новый продукт?».
Основным алгоритмом создания ассоциативных правил является алгоритм Apriori, состоящий из двух этапов:
1. Найти все комбинации товаров в наборе транзакций, которые случаются с заданной минимальной частотой. Эти комбинации называются частыми предметными наборами.
2. Рассчитать правила, которые отражают совместное вхождение товаров в частые предметные наборы. Алгоритм Apriori вычисляет вероятность появления элемента в частом предметном наборе с учетом присутствия в нем других предметов.
Алгоритм Apriori генерирует ассоциативные правила, которые выражают вероятностные отношения между элементами в часто встречающихся наборах элементов. Ассоциативное правило имеет форму: ЕСЛИ {предпосылка} — ТО {следствие}. Оно гласит, что предмет или группа предметов (предпосылка) подразумевает наличие с некоторой вероятностью другого предмета в той же корзине (следствие). Например, правило, выведенное из частых предметных наборов, содержащих предметы A, B и C, может утверждать, что если предметы A и B включены в транзакцию, то, вероятно, в нее будет включен и предмет С:
ЕСЛИ {хот-доги, кетчуп} — ТО {пиво}.
Это указывает на то, что клиенты, покупающие хот-доги и кетчуп, также могут купить и пиво. Часто в качестве примера поиска ассоциативных правил приводят историю о том, как неизвестный американский супермаркет в 1980-х гг. одним из первых использовал компьютерную систему для анализа своих данных и выявил неожиданную ассоциацию клиентов, покупающих вместе подгузники и пиво. Теоретическое обоснование этого правила заключалось в том, что семьи с маленькими детьми готовились к уик-энду и знали, что им нужно запастись подгузниками и купить пиво, чтобы дома было что выпить. Магазин разместил эти два товара рядом, и продажи выросли. И хотя история о пиве и подгузниках теперь считается мифом, она остается ярким примером преимуществ ассоциативных правил для предприятий розничной торговли.
Ассоциативные правила имеют два основных статистических показателя: поддержка и достоверность. Процент поддержки ассоциативного правила указывает, как часто элементы встречаются вместе. Поддержка — это отношение транзакций, которые включают в себя элементы (и предпосылки, и следствия) к общему числу транзакций. Процент достоверности ассоциативного правила указывает на вероятность появления предпосылки и следствия в одной и той же транзакции. Достоверность — это условная вероятность, с какой следствие наступает в случае предпосылки. Достоверность рассчитывается как отношение поддержки к количеству транзакций, в которые входит предпосылка. Так, например, показатель достоверности 75 % для ассоциативного правила, касающегося хот-догов, кетчупа и пива, указывает на то, что в 75 % случаев, когда покупатель покупал хот-доги и кетчуп, он также покупал и пиво. Значение поддержки указывает процент корзин в наборе данных, в которых выполняется правило. Например, поддержка 5 % для того же примера будет показывать, что 5 % всех корзин в наборе данных содержали все три элемента правила.
Даже небольшой набор данных может содержать большое количество ассоциативных правил. Чтобы упростить их анализ, набор обычно ограничивают только теми правилами, которые имеют высокие значения поддержки и достоверности. Правила, не отвечающие этим требованиям, не интересны либо потому, что охватывают очень небольшой процент корзин (низкая поддержка), либо потому, что взаимосвязь между предпосылкой и следствием низкая (низкая достоверность). Правила, которые являются тривиальными или их невозможно объяснить, также не принимаются во внимание. Тривиальные правила представляют собой ассоциации, которые очевидны и известны каждому, кто разбирается в данной сфере. Необъяснимые правила представляют собой ассоциации настолько странные, что трудно понять, как из этого правила вывести полезное действие. Вполне вероятно, что необъяснимое правило является результатом выброса данных (представляет собой ложную корреляцию). После сокращения набора правил специалист по данным может проанализировать оставшиеся и понять, какие продукты связаны друг с другом. Обычно организации используют эту информацию для составления планограмм торговых точек или проведения целевых маркетинговых кампаний. Последние могут включать в себя рекомендации продуктов на сайтах, рекламу в магазинах, прямые рассылки, перекрестные продажи на выезде и т. д.