Коллаборативная фильтрация | это... Что такое Коллаборативная фильтрация? (original) (raw)
Коллаборативная фильтрация, совместная фильтрация (англ. collaborative filtering) — это метод, дающий автоматические прогнозы (фильтрацию) относительно интересов пользователя по собранной информации о вкусах множества пользователей (сотрудничающих между собой). Его основное допущение состоит в следующем: те, кто одинаково оценивали предметы в прошлом, склонны давать похожие оценки другим предметам и в будущем. [1] Например, коллаборативная фильтрация или рекомендательная система по музыкальным вкусам способна прогнозировать, какая музыка понравится пользователю [⇨], имея неполный список его предпочтений (симпатий и антипатий).[2] Отметим, что эти прогнозы индивидуальны, хотя используемая информация собрана от многих участников. Тем самым они отличаются от более простого подхода, дающего усреднённую оценку для каждого объекта интереса, к примеру, базирующуюся на количестве поданных за него голосов.
Коллаборативная фильтрация является одним из основных методов используемых в рекомендательных системах[⇨]. [3].
Содержание
- 1 Описание
- 2 Виды
- 3 Применение в социальных сетях
- 4 Проблемы
- 5 См. также
- 6 Примечания
- 7 Литература
- 8 Ссылки
Описание
В век информационного взрыва такие технологии чрезвычайно полезны, поскольку количество объектов даже в одной категории (такой, как фильмы, музыка, книги, новости, веб-сайты) стало настолько большим, что отдельный человек не способен просмотреть их все, чтобы выбрать подходящие.
Системы коллаборативной фильтрации обычно применяют двухступенчатую схему:
- Находят тех, кто разделяет оценочные суждения активного (прогнозируемого) пользователя.
- Используют оценки сходно мыслящих людей, найденных на первом шаге, для вычисления прогноза.
Так же существует другая форма коллаборативной фильтрации, которая основывается на скрытом наблюдении обычного поведения пользователя (в противоположность искусственному, порождённому необходимостью оценивать). В этих системах вы наблюдаете, как поступил данный пользователь, и как — другие (какую музыку они слушали, какие композиции приобрели), и используете полученные данные, чтобы предсказать поведение пользователя в будущем, или предсказать, как пользователь желал бы поступить при наличии определённой возможности. Эти предсказания должны быть отфильтрованы согласно логике бизнеса. Например, бесполезно предлагать кому-либо купить музыкальный файл, который у него уже имеется.
Виды
Виды коллаборативной фильтрации
Коллаборативная фильтрация является одним из основных методов используемых при создании рекомендательных систем. Существуют 3 основных подхода при использовании коллаборативной фильтрации: [4]
Подход основанный на соседстве
Этот подход является самым первым и используется во многих рекомендательных системах. В данном подходе для активного пользователя подбирается подгруппа пользователей схожих с ним. Комбинация весов и оценок подгруппы используется для прогноза оценок активного пользователя.[5] Большинство подходов данного типа можно разбить на следующие шаги:
- Присвоить вес каждому пользователю с учётом его схожести на активного пользователя.
- Выбрать k пользователей, которые имеют максимальный вес, то есть максимально похожи на активного пользователя. Данная группа пользователей и называется соседями. [6]
- Высчитать предсказание с учётом весов и оценок соседей.
Подход основанный на модели
Данный подход предоставляет рекомендации измеряя параметры статистических моделей для оценок пользователей. Модели разработаны с использованием интеллектуального анализа данных, алгоритмов машинного обучения, чтобы найти закономерности на основе обучающих данных. Они используются для прогнозирования реальных данных. Данный подход включает в себя много методов. Они включают в себя метод байесовских сетей, кластеризации, латентной семантической модели, такие как сингулярное разложение, вероятностный латентный семантический анализ, латентное распределение Дирихле и марковской процесс принятия решений на основе моделей. [5]
Этот подход вялятся более целостным, что помогает раскрыть латентные факторы, объясняющие наблюдаемые оценки. [7]Большинство моделей основана на технике создания классификации и кластеризации для идентификации пользователя на основе тестового набора. Число параметров может быть уменьшено на основе видов анализа главных компонент.
Данная парадигма имеет ряд преимуществ. Он обрабатывает разреженные матрицы лучше, чем подход основанный на соседстве. Это помогает с масштабируемостью больших наборов данных. Это делает прогнозы более точными. Это дает интуитивное обоснование рекомендаций. Недостатки этого подхода в дорогом создании модели. Нужно иметь компромисс между точностью и масштабируемостью прогноза, так как можно потерять полезную информацию в связи с сокращением моделей.
Гибридный подход
Одним из самых популярных подходов в реальных проектах является и гибридный подход, который объединяет подход основанный на соседстве с подходом основанным на модели. Это помогает преодолеть ограничения изначального оригинального подхода (основанного на соседстве) и улучшить качество предсказаний. Этот подход также позволяет преодолеть проблему разряженности и потери информации. Однако данный подохд сложен и дорог в реализации и применении. [8]
Применение в социальных сетях
Коллаборативная фильтрация широко используется в коммерческих сервисах и социальных сетях. Первый сценарий использования это создание рекомендации относительно интересной и популярной информации на основе голосов сообщества. Такие сервисы как Reddit и Digg типичные примеры использования алгоритмов коллаборативной фильтрации.
Другая сфера использования заключается в создании персонализированных рекомендации для пользователя, относительно его предыдущей активности и других схожих с ним пользователей. Данный способ реализации можно найти на таких сайтах как YouTube, Last.fm и Amazon [9].
Проблемы
Данное исследовательское направление всё ещё активно и имеет не решённые проблемы.
Разреженность данных
Как правило, большинство коммерческих рекомендательных систем основаны на большом количестве данных (товаров), в то время как большинство пользователей не ставит оценки товарам. В результаты этого матрица «предмет-пользователь» получается очень большой и разреженной, что представляет проблемы при вычислении рекомендаций. Эта проблема особенно остра для новых, только что появившихся систем. [4] Также разреженность данных усиливает проблему холодного старта.[10]
Проблема холодного старта
Новый предмет или пользователь представляют большую проблему для рекомендательных систем. Частично проблему помогает решить контекстно-основанный подход так как он полагается не на оценки, а на атрибуты, что помогает включать новые предметы в рекомендации для пользователей. Однако проблему с предоставлением рекомендации для нового пользователя решить сложнее. [4]
Синонимика
Синонимикой называется тенденция похожих и одинаковых предметов иметь разные имена. Большинство рекомендательных систем не способны обнаружить эти скрытые связи и поэтому относятся к этим предметам как к разным. Например, «фильмы для детей» и «детский фильм» относятся к одному жанру, но система воспринимает их как разные. [5]
Мошенничество
В рекомендательных системах, где каждый может ставить оценки, люди могут давать позитивные оценки своим предметам и плохие их конкурентам. Также, с тех пор как рекомендательные системы получили широкое распространение в коммерческих сайтах, они стали сильно влиять на на продажи и прибыль. Это приводит к тому, что недобросовестные поставщики пытаются мошенническим образом поднимать рейтинг своих продуктов и понижать рейтинг свои конкурентов.[4]
Разнообразие
Коллаборативная фильтрация изначально признана увеличить разнообразие, чтобы позволять открывать пользователям новые продукты из бесчисленного множества. Однако некоторые алгоритмы делают противоположное. Так как алгоритмы коллаборативной фильтрации основаны на продажах и рейтингах, они не могут рекомендовать новые продукты. Это в свою очередь только увеличивает эффект «богатые становятся ещё богаче» и приводит в меньшему разнообразию. [11]
Белые вороны
К белым воронам относятся пользователи, чьё мнение постоянно не совпадает с большинством остальных. Из за их уникального вкуса, для них практически невозможно создавать рекомендации. Однако, такие люди имеют проблемы с получением рекомендаций и в реальной жизни, поэтому поиски решения данной проблемы в настоящее время не ведутся. [5]
См. также
Примечания
- ↑ A Survey of Collaborative Filtering Techniques, 2009, p. 1
- ↑ An integrated approach to TV Recommendations by TV Genius
- ↑ Рекомендательные системы на основе коллаборативной фильтрации, 2002, с. 187
- ↑ 1 2 3 4 Проблемы в рекомендательных системах, 2010, с. 7
- ↑ 1 2 3 4 A Survey of Collaborative Filtering Techniques, 2009, p. 3
- ↑ k-nearest neighbor algorithm
- ↑ Масштабируемая и точная коллаборативная фильтрация, 2009
- ↑ Проблемы в рекомендательных системах, 2010, с. 6
- ↑ Amazon, 2003, с. 1
- ↑ Холодный старт
- ↑ (May 2009) «Blockbuster Culture's Next Rise or Fall: The Impact of Recommender Systems on Sales Diversity». Management Science.
Литература
- Xiaoyuan Su and Taghi M. Khoshgoftaar A Survey of Collaborative Filtering Techniques A Survey of Collaborative Filtering Techniques (англ.) // Hindawi Publishing Corporation, Advances in Artificial Intelligence archive, USA : журнал. — 2009. — С. 1 - 19.
- Yehuda Koren Factor in the Neighbors: Scalable and Accurate Collaborative Filtering (англ.) // Yahoo! Research, Haifa : журнал. — 2009. — С. 1 - 11.
- Linden G., Smith B., and York J. Item-to-Item Collaborative Filtering (англ.) // IEEE Internet Computing, Los Alamitos, CA USA : журнал. — 2003. — С. 76 - 80.
- Sarwar B., Karypis G., Konstan J., and Riedl J. Item-Based Collaborative Filtering Recommendation Algorithms (англ.) // University of Minnesota, Minneapolis : Материалы конф. / WWW10, Hong Kong, May 1-5, 2001. — 2001. — С. 285-295.
- Melville P.,Mooney R., Nagarajan R. Content-Boosted Collaborative Filtering for Improved Recommendations (англ.) // University of Texas, USA : Материалы конф. / AAAI-02, Austin, TX, USA, 2002. — 2002. — С. 187-192.
- Zan Huang, Xin Li, Hsinchun Chen Link Prediction Approach to Collaborative Filtering (англ.) // University of Arizona, USA : Материалы конф. / JCDL’05, Denver, Colorado, USA, June 7–11, 2005. — 2005.
- Понизовкин Д.М. Построение оптимального графа связей в системах коллаборативной фильтрации (рус.) // «Программные системы: теория и приложения» : журнал. — 2011. — № 4(8). — С. 107-114. — ISSN 2079-3316.
- Sammut C., Webb J. (Eds.) Encyclopedia of Machine Learning. — NY, USA: IBM T. J.Watson Research Center, 2010. — Т. 1. — С. 829-838. — 1031 с. — ISBN 978-0-387-30768-8