Алгоритмы поиска актуальных новостей совершенствуются

Источником «горячих новостей» стала база данных википедии.


«Горячие» новости являются одной из основ существования интернет-СМИ. И очень важно иметь возможность вовремя автоматически определить интересные и важные события, которые происходят в мире.


В прошлом году Томас Штайнер из отделения Google в Гамбурге создал алгоритм, который позволяет обнаружить важные события сразу после того, как они происходят. На днях он обновил его, добавив возможность иллюстрировать новость картинками и фотографиями.

Процесс автоматического определения важности новостей относительно прост. Он основан на идее, что если что-то важное происходит сейчас, редакторы Википедии, пишущие на разных языках, будут обновлять соответствующие страницы одновременно.

Википедия и ее сестра Wikidata («Викиданные») публикуют все изменения с помощью IRC-сервера Wikimedia. Это позволяет всем заинтересованным отслеживать изменения, когда они происходят. Алгоритм Штайнера отслеживает этот канал, одновременная активность является маркером «горячей новости».

Приложение Wikipedia Live Monitor, основанное на алгоритме Штайнера, работает с прошлого года и успешно выявляет многочисленные горячие новости, например, теракт на Бостонском марафоне и недавняя пропажа малазийского самолета.

Далее Штайнер добавил в процесс визуальный элемент. Команда под его руководством разработала приложение, называющееся Social Media Illustrator, которое ищет в социальных сетях изображения, связанные с конкретным поисковым запросом. Приложение выделяет визуальную информацию, удаляет дубликаты и кадрирует картинки так, чтобы они сочетались друг с другом в сетке выдачи.

Social Media Illustrator использует для поиска информацию, полученную от Wikimedia Live Monitor и в результате получается организованный набор изображений, связанных с «горячими новостями». Штайнер предполагает, что эти образы рассказывают историю события, и публикует их в твиттере: https://twitter.com/mediagalleries


На днях Штайнер опубликовал результаты проверки работы новой системы, которая проходила во время Зимних Олимпийских Игр 2014 года. Когда заканчивались соревнования, информация о победителях почти сразу попадала в Википедию, сразу на многих языках. Это срабатывало как триггер и посылало сигнал программе на поиск изображений атлетов в социальных сетях и создание сетки иллюстраций.

Независимые зрители, наблюдавшие за работой алгоритма, отметили, что, несмотря на полное соответствие иллюстраций теме новости, сетка иллюстраций не всегда точно передает суть новостного сюжета. Кроме этого, имеется еще немало недоработок. Так, не всегда понятно, какую новость иллюстрирует сетка иллюстраций. Программа не генерирует гиперссылки, невозможно посмотреть, откуда взята картинка, кликнув на нее. Кроме того, автоматическое кадрирование способствует потере важной информации.

Нельзя сказать, что подход, продемонстрированный Томасом Штайнером и его командой, не имеет перспектив. Интерес к автоматизированному производству новостей растет, и сейчас существуют алгоритмы, которые делают это, с разной степенью успеха. Вполне возможно, что в будущем мы будем видеть больше новостей, замеченных и написанных специализированными программами. Сейчас они еще не настолько совершенны, чтобы конкурировать с живыми журналистами и в краткосрочной перспективе не ожидается появления программ, способных качественно выполнить весь цикл формирования новости. Но работа по совершенствованию алгоритмов продолжается.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND