Алгоритмы выявления ассоциаций


Алгоритмы выявления ассоциаций находят правила об отдельных предметах, которые появляются вместе в одной экономической операции, например в одной покупке. Последовательность – это тоже ассоциация, но зависящая от времени.

Ассоциация записывается как А(Б, где А называется левой частью или предпосылкой, Б – правой частью или следствием.

Частота появления каждого отдельного предмета, или группы предметов, определяется очень просто – считается количество появления этого предмета во всех событиях (покупках) и делится на общее количество событий. Эта величина измеряется в процентах и носит название ‘распространенность’. Низкий уровень распространенности (менее одной тысячной процента) говорит о том, что такая ассоциация не существенна.

Для определения важности каждого полученного ассоциативного правила необходимо получить величину, которая носит название ‘доверительность А к Б’ (или взаимосвязь А и Б). Эта величина показывает как часто при появлении А появляется Б и рассчитывается как отношение частоты появления (распространенности) А и Б вместе к распространенности А. То есть если доверительность А к Б равна 20%, то это значит, что при покупки товара А в каждом пятом случае приобретается и товар Б. Необходимо заметить, что если распространенность А не равна распространенности Б, то и доверительность А к Б не равна доверительности Б к А. В самом деле, покупка компьютера чаще ведет к покупке дискет, чем покупка дискеты к покупке компьютера.

Ещё одной важной характеристикой ассоциации является мощность ассоциации. Чем больше мощность, тем сильнее влияние которое появление А оказывает на появление Б. Мощность рассчитывается по формуле: (доверительность А к Б) / (распространенность Б).

Некоторые алгоритмы поиска ассоциаций сначала сортируют данные и только после этого определяют взаимосвязь и распространенность. Единственным различием таких алгоритмов является скорость или эффективность нахождения ассоциаций. Это особенно важно из-за огромного количества комбинаций, которые необходимо перебрать для нахождения наиболее значимых правил. Алгоритмы поиска ассоциаций могут создавать свои базы данных распространенности, доверительности и мощности, к которым можно обращаться по запросу. Например: «Найти все ассоциации, в которых для товара Х доверительность более 50% и распространенность не менее 2,5%»

При нахождении последовательностей добавляется переменная времени, которая позволяет работать с серией событий для нахождения последовательных ассоциаций на протяжении некоторого периода времени.

Подводя итоги этому методу анализа, необходимо сказать, что случайно может возникнуть такая ситуация, когда товары в супермаркете будут сгруппированы при помощи найденных моделей, но это, вместо ожидаемой прибыли, даст обратный эффект. Это может получиться из-за того, что клиент не будет долго ходить по магазину в поисках желаемого товара, приобретая при этом ещё что-то, что попадается на глаза, и то, что он изначально не планировал приобрести.

Загрузка...