Что такое поисковая система?

Поисковая система, ПС — совокупность определенных алгоритмов работы, предоставляющих пользователю функции поиска и нахождения необходимой информации в глобальной сети.

Классификация поисковых систем

Выделяют поисковые системы:

  • Международные (глобальные) — их функция: выдача информации в рамках всемирной паутины, вне зависимости от местонахождения пользователя.
  • Локальные — выполняют отбор необходимых данных, ограничиваясь пределами локальной вычислительной сети.
  • Поисковые системы бывают:

  • Универсального назначения. При помощи таких ПС клиент может найти информацию с любым наполнением: тексты, аудио, видео, графика и др. Поисковая выдача будет содержать результаты из всех ресурсов Интернета. На международном уровне признанным чемпионом является Google, а в в рунете на первом месте — Яндекс. Вместе с тем, среди пользователей также распространены такие поисковые системы как: Yahoo!, Meta, Rambler, Nigma, Bing, Webalta и т.д.
  • Профильные. Назначением таких ПС является, прежде всего, поиск информации, относящейся к той или иной категории данных. Преимуществом таких поисковых систем является удобство и экономия времени пользователя. Это может быть поиск товаров в интернет-магазине, поиск информации о файлах на файловых серверах, каких-то специальных сведений или даже поиск музыки.
  • Тематические. В данном случае поиск в Интернете ведется только по ресурсам, потенциально интересным определенным социальным группам общества (исходя из вероисповедания, профессии, каких-либо интересов данной группы и др). Так например, поисковая система Koogle находит лишь данные, относящиеся к миропониманию правоверных иудеев.

Правила работы поисковых систем

Индексация

Поисковый алгоритм, безостановочно находящийся в действий, ежесекундно проводит сканирование всемирной паутины в целях нахождения новых источников. А происходит это путем перехода по ссылкам, имеющимся на сайтах, и индексирования (т.е пополнения базы данных) новых адресов и информации.

Стоит заметить, что индексации подлежат не все сайты, а только отвечающие следующим правилам:

  • исключительность и качество (системность, наличие необходимой информации) содержания,
  • наличие и объем ссылочной массы,
  • оживленность пользователей на веб-сайте,
  • отсутствие вирусов или прочих вредоносного обеспечения
  • адекватность и законность содержимого ресурса (например, отсутствие призывов к терроризму, незаконным действиям и др.)
  • соответствие продвижения сайтов (оптимизация) правилам.

Апдейт

Информация и адреса страниц веб-сайтов добавляются в индекс не сразу после завершения сканирования, а только в том случае, если поисковый механизм отсканирует их определенное количество (не исключены случаи, когда их число может достигнуть нескольких миллиардов). Добавление в базу данных новых ресурсов будет происходить во время апдейтов ПС.

Апдейт — это обновление базы данных ПС. Во время такого процесса из нее удаляются одни и добавляются другие ссылки, сайты и прочая информация.
Вместе с тем, во время апдейта сайтам присваиваются определенные параметры, которые влияют на их сортировку во время образования поисковой выдачи. К примеру, одной из самых полезных свойств являются тИЦ — тематический индекс цитирования у Yandex, а у Google это PageRank. Однако кроме вышеперечисленных на ранжирование влияет еще множество характеристик, количество которых у крупных ПС вполне может достигать не одной сотни (например, у Gogggle около 200).

Ранжирование и поисковая выдача.

Когда пользователь вводит свой запрос в строку поиска, механизм начинает осуществление своих основных функций: сначала происходит сканирование индекса (базы данных), где находятся веб-сайты и страницы, а затем система выдает клиенту найденный контент. Ключевые слова или же заданный запрос располагаются именно на выданных ресурсах. В случае, если найденные ключи не совпали с запросом, поисковая система выбирает и выдает веб-страницы с наиболее уместным контентом. Естественно, из-за огромного количества совпадений, система имеет дело с проблемой ранжирования сайтов и их страниц: сортировкой.

Таким образом, для того, чтобы пользователь смог ознакомиться с необходимым ему контентом в наиболее уместной форме, разработчиками решено было упорядочить список адресов в соответствии со следующими параметрами. На первом месте в списке оказываются страницы с лучшими характеристиками, они наиболее полно совпадают с запросом клиента, а в дальнейшем располагаются ссылки по убыванию данных свойств.
Именно такой список адресов, в котором пользователь, по мнению ПС, найдет нужную информацию, называется поисковой выдачей. К тому же, в таком списке дается минимальная характеристика содержимого сайта — сниппет. Она позволяет пользователю, не заходя на страницу, посмотреть полезна ли будет ему информация на ресуре или же нет.

Штрафные функции поисковых механизмов

В том случае, если поисковый механизм найдет в источнике неприемлемые или непозволительные приемы, к ним могут быть применены следующие меры:
Понижение в списке поисковой выдачи. Удаление из базы данных поисковой системы— бан.

К непозволительным приемам, приводящим к наказанию от ПС, относят: «черное» продвижение, воровство содержимого, публикация информации, запрещенной законом, размещение вредоносного или вредного ПО (всевозможные вирусы) и др.

Цели развития поисковых систем

  • Поиск по запросу.
    Вследствие роста количества веб-сайтов по геометрической прогрессии, перед поисковыми системами встала задача об усовершенствовании организации данных и создания более совершенных алгоритмов поиска информации. Многие владельцы ПС увидели выход в кластеризации документов — разбиение множества схожих по определенным свойства документов в группы. При этом характеристики не задаются заранее, а будут определяться на основе их попарного подобия.
  • Выдача найденной информации.
    Главной задачей всех ПС является предельное удовлетворение запросов клиентов. Исходя из этого, системы постоянно обновляются, в целях сформировать наиболее совершенную поисковую выдачу. Очень часто усилия направлены на то, чтобы контент оказывался не только информативным и полезным для пользователя, но и интересным, удобным.
  • Полнота выдачи.
    Базы данных гигантов среди поисковых систем содержат более нескольких миллиардов адресов, а объем содержимого, хранящейся на их серверах, исчисляется сотнями миллионов гигабайт. Вдобавок, с недавних пор известные ПС позволяют пользователям искать информацию не только по привычным текстовым запросам, но и по фотографиям, видео, и аудио фрагментам. Данное упорядочение облегчает работу не только клиентов, но и снимает нагрузку с серверов.
  • Актуальность выданного контента.
    Кроме основных поисковых алгоритмов (таких, как Panda у Google), поисковые системы активно применяют и более узкоспециализированные. Примером может послужить поисковый алгоритм для новостей Fresh Google. Данная система проводит ежесекундное сканирование новостей и имеет возможность индексировать их через считанные минут после того, как они еще были актуальны.
  • Скорость.
    Еще одной важной задачей работников поисковых систем является снижение времени обработки запроса системой и выдачи контента. Стоит заметить, что скорость выдачи информации зависит от множества факторов: поисковый сервер, правильно выбранный алгоритм работы и пр. В настоящее время средняя скорость обработки одного запроса в популярных поисковиках составляет 0.25 секунды. Разработчики постоянно стараются уменьшить время поиска: во-первых, это удобнее для пользователей, а во-вторых — рейтинг компании, естественно, будет расти.

Поделитесь с друзьями

Комментарий (1)

  • Леша Reply

    В современном интернете поисковые системы уже давно стали нечто большим чем-то просто средством поиска информации. Гугл, например, развивается во всех направлениях. У них и свой видеохостинг (Ютуб), своя мобильная ОС (Андроид), даже свой беспилотный автомобиль (Тесла). У Яндекса масштаб поменьше, но суть та же. Так что, современные поисковики, на данный момент, охватывают все больше и больше отраслей.

    19.03.2016 at 08:12

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *