Поисковый алгоритм — программно-математическая модель, посредством которой осуществляется поиск веб-документов и их последующее ранжирование на основании релевантности введенному запросу. Выделяют две разновидности поисковых алгоритмов:
Прямого действия
В индексе хранятся текстовые копии веб-документов. В ответ на пользовательский запрос осуществляется полная проверка каждого из них на предмет совпадений. Такой подход позволяет получить наиболее релевантные результаты, однако оказывается неэффективен ввиду длительности обработки информации, и актуален лишь для организации внутреннего поиска в рамках конкретного веб-ресурса;
Инвертированного действия
В базу данных (ее принято называть “обратный индекс”) заносятся только ключевые фразы, с которыми ассоциированы их координаты в исходном тексте, URL-адреса первоисточников и другие параметры. Хотя релевантность оказывается ниже по сравнению с прямым сканированием, скорость выполнения каждого запроса увеличивается на несколько порядков. В связи с этим высоконагруженные поисковые системы (Яндекс, Гугл, Бинг и другие) используют алгоритмы инвертированного действия.
Критерии оценки релевантности веб-документов
Современные поисковые алгоритмы воплощают концепцию “черного ящика”: с целью пресечения возможных манипуляций со стороны их устройство тщательно скрывается. Единственным методом исследования становится анализ результатов работы поисковых систем, на основании которых удалось определить ряд основополагающих критериев ранжирования сайтов:
Вот лишь небольшой ряд факторов учитываемых алгоритмами:
- Доменная зона и уровень домена;
- Возраст интернет-ресурса;
- Соответствие тематики контента и ключевых слов, используемых при его написании;
- Количество страниц и объем представленных сведений;
- Структурированность и уникальность текста;
- Наличие метатегов;
- Величина индекса цитирования;
- Частота обновления информации;
- Ссылочный профиль и его качество;
- Географическая принадлежность и другие факторы
- Поведенческие факторы