

Аналитики Яндекса изучили изучили запросы пользователей по поиску фильмов, название которых те забыли, и выяснили, что сильнее всего запоминается людям в кино.
Как правило, люди в таких случаях описывают сюжет, запомнившиеся сцены, яркие детали. По некоторым таким запросам сразу понятно, что искал человек: [фильм, где карлики несут кольцо в вулкан] («Властелин колец»), [фильм, где томми ненавидит цыган] («Большой куш»), [фильм, где человек пробежал всю америку] («Форрест Гамп»).
Однако некоторые запросы ставят поиск в тупик: [фильм, в котором змея молилась вместе с человеком], [фильм где все идиоты] [фильм, в котором британка сыграла русскую девушку хорошая игра бровями] и подобные.
Каким же образом Яндекс понимает, какой фильм ищет пользователь?
Как сообщили в пресс-службе поисковика, запросы про забытые фильмы в основном уникальны: люди обращают внимание на разные вещи и даже одну и ту же памятную сцену описывают по-разному.
«В отличие от обработки типовых запросов, про которые Поиск по опыту, то есть по статистике переходов на сайты из выдачи, знает, что хочет найти человек, показать нужные ссылки в ответ на что-нибудь вроде [фильм где в космосе говорящий барсук и дерево] — это очень нетривиальная задача. Но и очень важная: редкие и необычные запросы задают не только про кино, они вообще составляют огромную часть от всего потока.
Чтобы отвечать на них, Яндекс использует традиционные поисковые алгоритмы в сочетании с нейросетевыми технологиями. Например, с помощью нейросети оценивается смысловая близость уникального запроса к каждому из множества частотных, для которых известен хороший ответ. Так, запрос про говорящего барсука и дерево похож на [фильм в котором говорящий енот и дерево], который в свою очередь похож на [фильм где енот дерево и звездный лорд], на который, наконец, Поиск может уверенно ответить ссылкой на страницы фильма «Стражи галактики», потому что видит, что в их текстах важное место занимают словосочетания из запроса. Чтобы нейросеть лучше справлялась с уникальными запросами, ее обучают на редких запросах из истории Поиска — посвященных другим темам, но не менее неповторимых».
Исследование показало, что в воспоминаниях о российском кино особенно часто фигурируют подруги и менты. В описаниях турецких фильмов — невесты и богатые парни, для запросов про индийское кино характерно упоминание братьев и крокодилов. В китайских фильмах чаще всего дерутся и летают, в советских — пьют, поют и строят, в американских — худеют, переезжают и попадают в тюрьму.
Такие списки характерных слов можно составить и для фильмов разных жанров. Судя по запросам, самые яркие персонажи аниме — это разные демоны и пацаны. Мужья и жены возглавили топы сразу двух жанров — мелодрамы и триллера. Для фильмов ужасов характерны сцены в доме или в подвале, для комедий — на свадьбе или на вечеринке.
Увидеть полные топы персонажей, действий и обстоятельств, а также узнать другие подробности можно на странице исследования.
