Поиск за пределами поисковых систем
Универсальные поисковые системы обеспечивают миллиардам людей немедленный доступ к огромным объемам информации. Они были оценены в среднем в 17 530 долларов США в год (около 14 000 фунтов стерлингов) 80 000 участниками исследования, опубликованного в этом году исследователями из Массачусетского технологического института (MIT) и Университета Гронингена.
Респондентам был задан вопрос о том, какая им потребуется компенсация за то, что они откажутся от различных цифровых услуг. Поисковые системы были оценены более чем в два раза дороже электронной почты, почти в пять раз дороже, чем онлайн-карты, и более чем в 50 раз дороже, чем социальные сети.
Целью исследования было измерение «потребительского излишка» за такие услуги, то есть разницу между тем, какую сумму люди готовы платить и какую фактически платят (в большинстве случаев за такие сервисы мы сегодня не платим ничего). Авторы утверждают, что такие ценные, но бесплатные услуги подрывают экономические меры, в том числе валовой внутренний продукт.
Но поисковые системы предоставляют еще большие преимущества для тех, кому нужно найти информацию профессионально. Несколько лет назад журналисту, который краем уха слышал о подобном исследовании, спустя пару месяцев после публикации могли потребоваться часы на его поиск. Теперь, введя «потребительские излишки поисковых систем» в DuckDuckGo.com, вы получите список, увенчанный пресс-релизом MIT об этом исследовании.
Однако у универсальных поисковых систем есть свои недостатки. Они могут включать в себя потерю конфиденциальности, особенно с доминирующим провайдером Google, хотя есть и те игроки, кто наоборот ориентирован на конфиденциальность - такие как DuckDuckGo. Для профессиональных пользователей возникают более насущные проблемы, включая поиск определенных типов материалов, неточную обработку поисковых терминов, невозможность установить профессионально важные параметры и методы обработки невербального материала. Ответ на эти вопросы может означать выход за рамки универсальной поисковой системы для поиска более сфокусированных сервисов.
Компания Jisc предоставляет технологические услуги своим членам, университетам, колледжам и исследовательским организациям Великобритании, включая их библиотеки. В июле он завершил разработку национальной библиографической базы знаний – базы данных из 41 млн записей, созданной из 133 институциональных библиотечных каталогов, которые включают университеты, национальные библиотеки, благотворительные организации, музеи и исследовательские институты.
Эта база заменила более ранние «объединенные» каталоги Copac и Suncat, но, помимо включения большего количества типов материалов и организаций, она добавляет службы в стиле поисковых систем. Библиотека Hub Discover, которую может использовать каждый, имеет единственное окно поиска в качестве основного интерфейса, хотя также доступны целевые методы поиска, такие как поиск по автору, теме и учреждению. Результаты могут включать ссылки на растущее число онлайн-ресурсов, таких как оцифрованные версии книг, которыми управляют библиотеки или веб-сайты издателей.
Помимо предоставления собственных услуг на основе национальной библиографической базы знаний, Jisc публикует базовые данные, чтобы поисковые системы могли использовать их для прямой связи с каталогами институциональных библиотек.
Платный поиск
В то время как Jisc пытается повысить и улучшить качество того, что можно найти открыто, коммерческие провайдеры обычно создают платные системы поиска, нацеленные на повышение эффективности работы профессионалов, основанные на знаниях. Такое направление может включать доступ к информации только для подписчиков, например, публикации для юристов и бухгалтеров, а также может включать использование машинного обучения для улучшения поиска по ключевым словам.
Лондонский Signal AI применяет десятки тысяч «классификаторов» как для открытых, так и для платных материалов, которыми он управляет для своих клиентов. Они эквивалентны тегам, используемым публикациями и блогами, охватывающими бренды, страны, людей и темы. Но вместо того, чтобы привлекать к работе людей, компания использовала обученную систему машинного обучения, которая менее чем за минуту присваивает материалу соответствующий класс, а также рассчитывает другие показатели, в том числе значимость.
Signal AI начал работу с мониторинга СМИ, но расширился до обслуживания тех, кто работает в области соблюдения требований, управления рисками и высшего руководства. Дальнейший потенциал своего продукта создатели видят в продажах, управлении продуктами и разработке. И хотя можно создавать сложные запросы в универсальных поисковых системах, такой путь скорее будет более сложным и ненадежным.
Krzana, еще одна лондонская компания, использует аналогичный подход в обслуживании своих медиа-клиентов, в том числе национальными службами вещания и проверки фактов.
Предполагается, что журналисты при написании историй сосредотачиваются на «пяти единицах» - кто, что, когда, где и почему, - и компания помогает им, используя машинное обучение, находить людей и организации, упомянутые в материале.
Что касается «когда», то архитектура системы включает модель «журнала изменений», ориентированную на то, что появилось недавно. Для журналистов, освещающих географически определенные районы, «где» важно, поэтому Крзана геолокализирует материал.
Система также может помочь журналистам применять институциональные методы, такие как создание стандартного содержания данного типа статьи или материала. Например, система может предполагать, что новость о проведении фестиваля может включать комментарии местных жителей, предприятий и, конечно, посетителей.
Служба Inject Project, разрабатываемая для журналистов при финансировании Европейского Союза, направлена на повышение креативности журналистов путем использования искусственного интеллекта для предоставления связанных, но различных материалов. Она опирается на 380 источников новостей и более 16 миллионов статей на шести языках.
Система наводит на мысль и приводит идеи: например, поиск отставки в мае министра юстиции Кипра Ионаса Николау в связи с убийством женщин-иностранцев порождает связи с исчезновением иностранцев в Греции и других средиземноморских странах. Руководство Inject Project говорит, что система направлена на предоставление предложений в четырех областях – доказательства, человеческий интерес, причудливые или юмористические аспекты и возможные последствия.
Все эти сервисы ориентированы на слова, но некоторые люди работают в основном с изображениями или данными. Нью-йоркская библиотека изображений Shutterstock говорит, что более 90% пользователей используют поиск по ключевым словам для поиска изображений - процесс, который Shutterstock улучшает, предлагая популярные ключевые слова для фотографов и создателей изображений, когда они пишут описания. Компания планирует расширить использование обработки естественного языка, чтобы участники могли писать на любом из 21 языков, на которых она уже позволяет пользователям выполнять поиск.
Компания Shutterstock также запустила способы поиска с использованием изображений на основе таких факторов, как отображаемые цвета и объекты, с помощью технологии, которую она называет «компьютерное зрение». Reveal, поиск «один ко многим», направлен на то, чтобы вернуть изображения, аналогичные тем, которые были обнаружены с помощью расширения браузера Chrome, с помощью только что запущенной версии, которая также может возвращать видеозаписи. Refine, поиск «многие ко многим», позволяет пользователям обучать поисковик изображениям, которые им нравятся. Компания утверждает, что поисковые страницы с компьютерным зрением участвуют в 12% просмотров страниц поиска и 26% загрузок.
Разница между универсальными поисковыми системами и многими организациями, стремящимися выйти за их рамки, заключается в том, что последние хотят взимать за них плату. Но если они помогают профессионалам быстрее и эффективнее находить и использовать материал, за них, возможно, стоит заплатить, даже если излишки потребителя в этом случае окажутся ниже.