Все про пошукову систему Google


Обробка записів в robots. Txt

Barry Schwartz дає посилання на обговорення пріоритету вибору записів в robots. Txt роботами пошукових систем. Мене завжди дивувало, як можна робити такі разниє і химерні помилки в такому простому файлі виключень з чітким і однозначним форматом. Можна, звичайно, грішити на велику кількість розширень, які додає в стандарт кожна значуща система з широко відомими у вузьких кругах іменами роботів: Google, Yahoo, MSN, Yandex. Але у такому разі і питання по robots. Txt виникали б перш за все саме по розширеннях. Повернемося до пріоритетів. Як відомо, записи в robots. Txt розділяються порожніми рядками, кожен запис — це інструкція для одного або декількох роботів. Хай ми маємо наступний зміст файлу виключень: User-agent: Disallow: /dir/file User-agent: Yandex Disallow: /reports User-agent: Googlebot Disallow: /users Allow: /best-page. Htmlвопрос полягав в тому, якими директивами в даному випадку керуватиметься робот Гугля, що для нього буде заборонено? Можна подумати, що робот наткнеться насамперед на секцію для всіх роботів і саме її правила візьме до розгляду. Це невірне припущення. Робот при парсинге файлу працює приблизно по наступному алгоритму: Отримує повністю файл Виділяє у файлі коректні секції Шукає "свою" секцію Якщо своя секція знайдена приймає до керівництва її інструкції. Якщо своїй секції не виявлено, шукає секцію для всіх роботів Якщо виявлена секція для всіх роботів, приймає до керівництва її інструкції Якщо загальна секція не знайдена, робот вважає, що індексувати можна все без виключення. Звідси робимо відразу декілька виводів: Порядок секцій у файлі значення не має. Якщо буде знайдена "своя секція", то робот керуватиметься тільки її інструкціями, ігноруючи всі останні, тому в нашому прикладі робот Гугл абсолютно справедливо буде індексувати /dir/file. Відсутність загальної секції — дозвіл індексувати весь сайт роботам, не згаданим ні в одній секції.

Джерело: notes. Webartsolutions. Com

Схожі статті: