Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

ПРОБЛЕМА ОБРАБОТКИ ДЛИННЫХ ПОИСКОВЫХ ЗАПРОСОВ

Авторы:
Город:
Москва
ВУЗ:
Дата:
15 мая 2016г.

Информационный поиск – это процесс поиска неструктурированного материала, удовлетворяющего информационные потребности. В частности это относится к поиску информации в документах, поиск самих документов, извлечению метаданных из документов, поиску текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных, таких как Интернет и локальные интранет-системы [2].

Для выражения информационной потребности пользователей в информационно-поисковых системах используется язык поисковых запросов – набор метасимволов и правил, в соответствии с которыми строится запрос к поисковой системе. В различных поисковых системах язык может различаться, однако обычно он является некоторым подобием языка регулярных выражений с дополнениями, связанными со спецификой работы той или иной поисковой системы.

Современные поисковые системы получают от пользователя запрос на естественном языке, затем происходит его обработка и преобразование к формальному виду, соответствующему языку поисковых запросов системы.

Обработка длинных поисковых запросов на естественном языке является одной из ключевых проблем для многих современных поисковых платформ, поскольку средняя длина поискового запроса с каждым годом растет: в 2012 году средняя длина запроса в Яндекс составляла 3,4 слова [1], а в 2015 – около пяти слов.

Объем информации в Интернете в настоящее время ежедневно увеличивается. Простые, общие или неопределенные запросы приведут к общей информации, как например статьи Википедии, или к домашним страницам основных брендов. Чтобы найти наиболее подходящую информацию, пользователи вынуждены делать более длинные, более конкретные запросы.

С ростом популярности мобильных устройств набор текста стал сложнее для многих пользователей по причине малых размеров экранов. Альтернатива, которая существует в форме персонального цифрового помощника, такого как Siri от Apple, основана на голосовом поиске. В настоящее время становится популярным использование голосовых функций для управления поисковыми системами, что делает запросы диалогическими и увеличивает их длину.

Использование длинных запросов позволяет пользователям естественным образом выражать свои информационные потребности и не требует усилий для выбора ключевых слов. Однако избыточная, второстепенная информация, представленная в длинных запросах, усложняет работу поисковых систем.

Основной проблемой при обработке длинных поисковых запросов являются нулевые запросы – запросы, приводящие к нулевым результатам. Причинами получения нулевых результатов могут быть высокая степень специфичности запроса, избыточность терминов, редкость многословных запросов, отсутствие достаточно хорошего синтаксического анализа естественного языка [3].

Одним из методов решения проблемы обработки длинных поисковых запросов является уменьшение запроса через сведение к одному или нескольким подзапросам за счет выделения определенных слов, комбинаций, именных групп, именованных сущностей.

Метод уменьшения запроса сведением к одному подзапросу заключается в том, что исходный длинный запрос приводится к более короткому варианту.

При абсолютном уменьшении запросов из первоначального запроса удаляется одно или несколько слов и для поиска используется сокращенный запрос. Это требует высокой точности в выборе терминов, так как удаление ключевого слова может снизить производительность информационного поиска. Наиболее успешные методы абсолютного уменьшения запроса решают эту задачу с помощью контролируемых подходов, которые сочетают в себе множество характеристик запроса, документов и журнала поиска.

Ниже перечислены возможные кандидаты в подзапросы [3].

1)     Каждое слово в отдельности. Самый простой способ выбора кандидатов в подзапросы – это использовать каждое отдельное слово запроса. В данном случае одно или несколько слов могут быть выбраны для составления подзапроса.

2)     Все словосочетания из двух слов. Выбор каждого отдельного слова не учитывает соотношения значимости слов. Следовательно, словосочетания из двух слов также могут быть использованы в качестве кандидатов.

3)     Все подмножества слов. Для того чтобы учесть соотношения значимости нескольких слов, все подмножества набора слов из исходного запроса можно считать кандидатами.

4)     Все подмножества с удалением одного слова. Данный подход предполагает, что исходный запрос можно улучшить путем удаления только одного специфического ключевого слова.

5)     Все запросы из 1-3 слов, исключая стоп-слова. Стоп-слова (местоимения, частицы, междометия, предлоги, союзы) обычно не несут смысловой нагрузки, следовательно, их можно не учитывать при составлении подзапроса.

6)     Правая часть запроса. Часто в начале запроса содержатся неинформативные слова. Производительность таких длинных запросов можно существенно улучшить путем удаления первых нескольких неинформативных слов.

7)     Все субстантивные словосочетания. Субстантивные словосочетания надежно зарекомендовали себя для поиска ключевых понятий и обработки естественного языка. Они являются достаточно гибкими для того, чтобы естественно различать слова, словосочетания, объекты и личные имена в частности. Следовательно, субстантивные словосочетания могут выступать в качестве эффективных кандидатов в подзапросы.

8)     Все именованные объекты. Именованные объекты (личные имена, названия мест, организаций, дат и т.д.) играют важную роль во многих информационно-поисковых приложениях. Следовательно, именованные объекты могут выступать в качестве эффективных кандидатов в подзапросы.

9)     Все подходящие запросы из личного журнала запросов. Уменьшение запроса путем выбора случайного подмножества слов из исходного запроса может привести к запросам, не имеющим смысла. Последние использованные короткие запросы могут показать, какие конкретные аспекты интересуют пользователей, которые можно выявить в введенном длинном запросе. Кроме того, так как короткие запросы созданы пользователями, они должны содержать существенные и значимые термины для описания темы.

Вместо выбора одного подзапроса для представления длинного запроса можно применить другой подход: смоделировать задачу сокращения запроса как распределение над пространством всех возможных подзапросов. При таком подходе все подзапросы могут быть предоставлены поисковой системе, а результаты, полученные по ним, могут быть объединены для получения окончательного результата по исходному длинному запросу.

Таким образом, для решения проблемы появления нулевых результатов по длинным поисковым запросам можно использовать метод сведения исходного запроса к нескольким подзапросам. Кандидатами в подзапросы могут являться все словосочетания из двух слов, каждое слово в отдельности, все существительные из запроса, ключевые слова запроса. Результатом поиска по длинному запросу будет являться совокупность результатов поиска по выбранным подзапросам.

 

Список литературы

1.     Компания Яндекс – Исследования – Пользователи Яндекса: интересы и поисковое поведение URL: https://yandex.ru/company/researches/2013/ya_search_interests_2013 (дата обращения: 29.02.2016).

2.     Маннинг К. Введение в информационный поиск/ К. Маннинг, П. Рагхаван, Х. Шютце. – М.: Вильямс, 2011.– 528 с.

3.     Gupta M. Information Retrieval with Verbose Queries / M. Gupta, M. Bendersky. – Foundations and Trends in Information Retrieval. – Vol. 9, No. 3-4 (2015) 209–354.