Есть подозрения, что очень многим хотелось бы уметь предсказывать, что именно станет популярным. Думаете, это невозможно, поскольку придётся учитывать слишком много факторов, которые сложно измерить: к примеру, природу контента и связи между людьми?


Примеры каскадов распространения. Да, вот такими причудливыми путями распространяются ваши фоточки по соцсетям.

И всё-таки исследования, в которых утверждается, что способ найден, появляются с завидной регулярностью. Мол, сразу после публикации фото замеряем интерес публики за короткий промежуток времени и, экстраполируя, предсказываем популярность контента в будущем. Понятно, что сей метод несколько абстрактен и больше похож на сбор статистических данных.

Джастин Чэн (Justin Cheng) из Стэнфорда и его коллеги из Facebook и Корнеллского университета (все — США) предложили взглянуть на проблему по-новому. Исследователи показали, почему популярность так трудно предсказать, изучая публикации на ранних этапах. А вот некоторые стадии «каскада популярности» и впрямь можно предсказать с поразительной точностью, чтобы уже на основе этих данных рассматривать будущее публикации.

Г-н Чэн пришёл к таким выводам, анализируя пути «расшаривания» фотографий в Facebook в течение 28 дней после их первоначального размещения в июне 2013-го. Отслеживалось 150 тыс. фотографий, которыми поделились другие пользователи более 9 млн раз. В результате были определены люди (узлы), делившиеся чужими снимками, и время «расшаривания» после оригинальной публикации, что позволило построить сеть распространения контента.

До сих пор исследователи отслеживали то, как начиналось распространение, например, уже популярного видео, а затем пытались повторить ту же череду событий с другим контентом. Результаты получались... противоречивыми.

Г-н Чэн и компания использовали другой подход. Они брали фотографию, которой уже несколько раз поделились, и определяли вероятность того, что этот снимок будет «расшарен» вдвое больше. Другими словами, задача в том, чтобы предсказать, будет ли фото распространяться в два раза активнее, быстрее.


Джастин Чэн, молодое лицо современной науки (фото с сайта Джастина Чэна).

Учёные не просто так использовались этот метод, ведь сила каскада распространения подчиняется определённому закону. Одна половина каскада данного размера усилится двукратно, в то время как вторая — нет. То есть случайная догадка будет верна в половине случаев.

Понятно, что половина не лучший результат для предсказателя. Так что вопрос в том, как улучшить метод с помощью обучения искусственного интеллекта (ИИ). Поэтому Джастин Чэн с товарищами использовали часть данных, которые они собрали вручную, для обучения ИИ и улучшения предсказания каскадов. Виден ли на снимке крупный план человека или улица, есть ли надписи, сколько людей поделились оригинальным изображением, какова скорость распространения — всё это важно для определения формы будущего каскада. Ах да, эти самые формы могут быть разными: самая простая — звезда, когда популярность постепенно затухает при движении к лучам...

После того как учёные натаскали ИИ на разных данных, настала очередь испытания искусственного интеллекта. Начали с малого: взяли за основу изображения, которыми к началу тестирования поделились пять человек. Задача состояла в том, чтобы точно предсказать, «расшарят» ли их 10 раз и больше. Оказалось, что спрогнозировать подобное проще простого: алгоритм был точен в 79,5% случаев.

Правда, разные характеристики каскада предсказывались с разной точностью. Лучше всего ИИ удавалось определять скорость распространения. Но зачем тут ИИ, если любой интернет-зависимый человек скажет то же самое: чем быстрее что-то в начале распространяется, тем выше вероятность, что скорость распространения будет возрастать?

Джастин Чэн замечает, что на точность прогноза влияет также начальное количество публикаций. Это тоже понятно: много информации — всегда хорошо; чем больше людей поделились фотографией, тем точнее прогноз. По мнению учёных, именно поэтому проваливались предыдущие исследователи: они начинали со слишком малого количества данных.

Конечно, можно посетовать на некоторую ограниченность этой работы, ведь она оперировала только Facebook-информацией и только фотографиями. Вполне может быть, что пользователи Twitter, например, действуют по иному алгоритму, да и распространение видео может отличаться от фотографий, не говоря уже об обычных ссылках, скажем, на тексты «Компьюленты».

Джастин Чэн и Ко не настаивают на фундаментальности своего исследования, но считают, что оно поможет другим учёным. «Несмотря на ограниченность результатов, мы полагаем, что работа даёт общую идею, которая пригодится в будущем», — поясняет г-н Чэн.

Препринт исследования можно полистать здесь.

Подготовлено по материалам Technology Review.