лет

Четверть века после его создания, стандартом де-факто robots.txt был представлен рабочей группы проектирования интернета от Google, чтобы стать оформлено и обновлено для соответствия современным случаев углу.

Это может показаться маленьким шагом, но не ошибся, это большое дело.

Создатель первого поиска в интернете Allweb двигателя, голландский инженер Мартейн костер, предложил набор правил, в 1994 году, что общества автоматизированный доступ поисковых роботов к сайтам, через плохо написанные индексатор вызвало отказ в обслуживании атаки на его сервера.

Вебмастера могут поставить правила в файл, robots.txt и сохранить его в корневом каталоге веб-сервера для руководства веб-пауков, какие сведения они должны и не должны открыть.

Поскольку файл robots.txt никогда не был в официальном интернет-стандартных, есть несколько различных толкований протокол в течение последних двух десятилетий использования.

Это затрудняет для вебмастеров, чтобы получить норм права, и Google теперь ищет по оформлению протокола, и обновить его.

Среди обновлений есть возможность сделать robots.txt применимо к любому единому протоколу идентификатор ресурса, а не только протоколом передачи гипертекста в настоящее время.

Убедившись, что первые 500 Кбайт robots.txt анализируются и определение максимального размера файла, чтобы избежать чрезмерных нагрузок на сервера предлагается компанией Google вместе с новым максимальное время кэширование 24 часов.

Google также предлагает, чтобы в случае сбоя сервера делает ранее разобранный файл robots.txt недоступные, как известно исключенные страницы не должны быть приползли в течение достаточно долгого времени.

Совершенствование определения синтаксиса robots.txt также является частью предлагаемого стандарт интернета, чтобы помочь разработчикам написать код, чтобы правильно проанализировать файл.

На протяжении многих лет, роботы исключении протокола или рэп стал де-факто стандартом интернета многие индексаторы – но не все – совместима с ним.

Сайты, которые не имеют robots.txt предполагается предоставить никаких инструкций для поисковых систем. Эти приступит к доступ все данные на сервере и в обход всего сайта.

Следующие инструкции robots.txt является добровольной, вредоносных роботов, часто игнорируя файл.

Интернет-архива теперь еще больше не следует robots.txt как это мешает их работе, чтобы сохранить точные исторические записи веб-контента.

Параллельно с представлением протокола к протоколу, компания Google сделала код C++ библиотеки, что поисковый гигант использует в производстве систем для анализа robots.txt файлы на веб-серверах он индексирует с открытым исходным кодом.

Google заявил, что во время синтаксического анализа robots.txt развивалась на протяжении последних двадцати лет использования, она содержит фрагменты кода, написанные в 90-х годах.

ОСТАВЬТЕ ОТВЕТ

Please enter your comment!
Please enter your name here