web разработка по низким ценам
ул. Шевченко, 37а / офис 1
Украина, ЧО, г. Нежин
+38 068 681 00 08
ежедневно с 08:00 до 22:00
Оставьте заявку, и мы перезвоним вам в течении 15 минут
отправить
Представьтесь пожалуйста *Например, Виктор Смирнов
Ваш номер телефона *Например, +38 (068)-681-00-08
Примечание для оператораНапример, Пожалуйста, свяжитесь со мной во второй половине дня
* - поля, обязательные для заполнения
x
Оставьте заявку, и мы свяжемся с вами в ближайшее время
отправить
Тема обращенияНапример, Требуется продвижение сайта
Представьтесь пожалуйстаНапример, Виктор Смирнов
Ваш номер телефонаНапример, +38 (068)-681-00-08
Ваш e-mailНапример, youname@site.com
Сообщение для оператораНапример, Пожалуйста, помогите мне определиться с тарифом
Все поля, обязательны для заполнения
x
» Поисковый робот

Поисковый робот

Опубликовано: 11.02.2017 в 23:33

Поисковые роботы – это специальные программы какой-то поисковой системы, основная задача которых – занесение в базу данных (индексирование) найденных в интернете страниц и сайтов. Также могут использоваться такие названия, как «паук», «краулер», bot, webcrawler, ant, webrobots, webscutter, webspider.

Поисковый робот

Принцип работы поискового робота

Поисковый робот представляет собой программу браузерного типа. Она регулярно сканирует интернет: посещает проиндексированные страницы, переходит по ссылкам и находит новые сайты. Обнаружив новый сайт, робот добавляет его в базу данных (индекс). Также поисковый робот индексирует обновления на интернет-ресурсах, периодичность которых фиксируется. К примеру, если сайт обновляется раз в неделю, то поисковый робот будет посещать сайт с этой частотой, а страницы на новостных порталах могут попадать в индекс поисковых систем уже через несколько минут после размещения. Если на сайт нет ни одной ссылки с других сайтов, то для привлечения поисковых ботов его URL-адрес нужно добавить через специальную форму (панель веб-мастера «Яндекс», Центр вебмастеров Google и т.д.).

Виды поисковых роботов Google и «Яндекс»

Пауки Google:  

  • Основной робот – Googlebot.
  • Сканирует и индексирует новости – Googlebot News.
  • Бот, индексирующий веб-сайты для мобильных устройств – Google Mobile.
  • Бот, индексирующий видео – Googlebot Video.
  • Робот, индексирующий изображения – Googlebot Image.
  • Оценивает качество целевой страницы – Google AdsBot.
  • Бот, индексирующий сайты рекламой сети Google – Google AdSense и Google Mobile AdSense.

Пауки «Яндекса»:

  • Основной робот, занимающийся индексацией страниц – Yandex/1.01.001 I.
  • Индексирует картинки – Yandex/1.01.001 (P).
  • Находит зеркала сайтов – Yandex/1.01.001 (H).
  • Определяет, отвечает ли страница, добавленная в панель веб-мастера, параметрам индексации – Yandex/1.03.003 (D).
  • Индексирует сайты из рекламной сети «Яндекса» – YaDirectBot/1.0 (I).
  • Индексирует фавиконы сайтов – Yandex/1.02.000 (F).

Другие поисковые системы тоже используют своих роботов, но они функционально схожи с перечисленными выше.

Поисковый робот 

Чего не делают поисковые роботы

Вопреки расхожему мнению, боты не занимаются обработкой сканированных документов. Они просто считывают и сохраняют, а дальше их обработку производят другие программы. Вы можете получить наглядное подтверждение этого, проанализировав логи сайта, которые индексируются впервые. При первом же визите робот сначала запрашивает файл robots.txt, дальше главную страницу ресурса. То есть отправляется по единствственной ссылке, которая ему известна. На этом первый визит робота всегда и заканчивается. Через определенное время (чаще всего на следующий день) робот запрашивает следующие страницы, переходя по ссылкам, которые были найдены на считанной странице. Затем процесс продолжается в точно таком же порядке: запрос страниц сайта, ссылки на которые уже были найдены – пауза на обработку считанных страниц – следующий сеанс с запросом найденных ссылок.

Если бы робот «на лету» разбирал страницы, то он потерял бы много времени и ресурсоемкость. Каждый сервер сканирования параллельно запускает много процессов-ботов. Они должны действовать очень быстро, чтобы считывать новые страницы и успевать повторно перечитать уже известные. По этой причине роботы только считывают и сохраняют документы. Сохраненные ими документы, ставятся на обработку. Найденные ссылки страниц при обработке ставятся в очередь заданий для роботов. Таким образом, и совершается постоянно сканирование мировой паутины. Единственное, что поисковый робот может и должен анализировать «на лету», так это robots.txt, дабы не запрашивать url-адреса, которые были запрещены в нем для индексации. Робот при каждом сеансе сканирования запрашивает именно этот файл, а затем уже остальные страницы, стоящие в очереди на сканирование. 

Понравился материал? Поделитесь с друзьям:
0
Поделилось
0 комментариев к новости
Комментарии к данной новости отсутствуют. Будьте первым, и выразите свое менение!
Добавить комментарий
Ваше Имя:
Ваш E-mail:
Ваш комментарий: