Instagram объяснил, как отбирает контент для вкладки Explore

Instagram поделился подробной информацией о том, как отбирается контент для вкладки «Поиск и интересное» («Explore»).

По словам инженера Instagram Ивана Медведева, сервис впервые так детально рассказал о тех основах, которые помогают ему предоставлять пользователям персонализированный контент в широком масштабе.

В посте подчёркивается, что Instagram – это огромный сервис,
а контент, который в нём содержится, очень разный. Темы варьируются от арабской
каллиграфии до моделирования поездов и приготовления слайма. Это создаёт
определённые сложности при формировании рекомендаций, однако Instagram удаётся
преодолевать их за счёт фокуса не на отдельных постах, а на аккаунтах.

Instagram идентифицирует похожие аккаунты, применяя метод машинного обучения, известный как «встраивание слов». Системы встраивания слов изучают порядок, в котором слова появляются в тексте, чтобы понять, насколько они связаны.

При формировании рекомендаций система Explore анализирует так называемые «seed accounts» — те учётные записи, с которыми пользователи взаимодействовали в прошлом, лайкая или сохраняя их контент.

Далее он определяет аккаунты, похожие на них, а затем отбирает 500 публикаций. Эти кандидаты затем фильтруются, чтобы удалить спам, дезинформацию, а также «возможно нарушающий правила контент», а оставшиеся посты ранжируются на основании того, насколько вероятно, что пользователь будет взаимодействовать с каждым из них. В конечном итоге, остаётся 25 постов, которые отправляются на первую страницу вкладки «Explore».

Какие сигналы используются для идентификации спама и дезинформации, в Instagram не уточнили. Также непонятно, в каком объёме в этих процессах участвует машинное обучение.

Согласно Instagram, наилучший способ повлиять на контент,
который появляется на вкладке Explore, – это взаимодействовать с теми
публикациями, которые нравятся.

Чтобы видеть меньше публикаций определённого типа, лучше
всего использовать опцию «See fewer posts like this»
в меню поста – алгоритм учтёт эту подсказку.

По материалам: www.searchengines.ru