Быстрая CMS
Обратная связь Карта сайта
Главная Создание сайтов Практика Строим CMS Наивное О проекте Блог

Заметки на манжетах

22 сентября 2009 г.

Здравствуй, Яндекс-бот, давно не виделись. Снова о заголовках... и о грустном.

С ботом поздоровался. :-)

Теперь можно сообщить всем любопытствующим новость, которой пока еще нигде нет. Вероятно, в скором времени на webmaster.ya.ru появится сообщение, что Яндекс существенно расширил список индексируемых документов и далее стандартные заверения в своей приверженности интересам пользователей, ищущих многообразный контент во всевозможных форматах. А пока идет обкатка обновленного механизма индексации и неприятностей у вебмастеров будет много. Уж это к гадалке не ходи, все уже привыкли – как только обновление, так и неприятности...

А теперь плавно перейду к делу.

Началось все с апдейта индекса 14 сентября. Именно в эту ночь, когда выдача задвигалась, а на форумах оптимизаторов были открыты очередные топики «Ап!!!», этот сайт исчез из Яндекса. По проверке проиндексированных «ничего не найдено», в панели вебмастера «Ваш сайт не проиндексирован». А статистика запросов в целости и сохранности... в общем, сайт «выпал из индекса» по неизвестным причинам, о которых мне, конечно же, никто ничего не сообщит. Так что Платона Щукина даже спрашивать не захотелось. Но интересно все-таки...

Кому-то уже надоело читать эту фразу, но я все равно повторю: люблю рыться в логах. Благо, добрый хостер хранит их по месяцам, дополняя архив текущего месяца каждое утро. Первым делом я открыл сентябрьский лог. Забавно – оказывается, индексирующий бот за половину сентября вообще ни разу не заходил на сайт. Августовский лог уточнил ситуацию: с 27 августа I-бота не было, зато ко мне регулярно дважды в сутки ходил «картиночник», спрашивал robots.txt и две пиктограммы («Обратная связь» и «Карта сайта»). Завидное постоянство – учитывая, что пиктограммы он получал со статусом 304 Not Modified.

Как я уже писал в статье о заголовках, у меня на нескольких сайтах есть простенькая ловушка для ботов. Она пишет в логи полный набор заголовков HTTP-Request. После «вылета» захотелось проверить, хорошо ли бот посещал другие сайты. В потолстевшем логе я обнаружил существенно расширенный набор медиатипов в строке Accept. Привожу их полный список (для наглядности добавив переводы строк):


Accept:
text/html,
text/plain;q=0.1,
application/pdf;q=0.1,
application/rtf;q=0.1,
text/rtf;q=0.1,
application/msword;q=0.1,
application/x-shockwave-flash;q=0.1,
application/vnd.ms-excel;q=0.1,
application/vnd.ms-powerpoint;q=0.1,
----------------------------------------------
application/vnd.openxmlformats-officedocument.wordprocessingml.document;q=0.1,
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet;q=0.1,
application/vnd.openxmlformats-officedocument.presentationml.presentation;q=0.1,
application/vnd.oasis.opendocument.text;q=0.1,
application/vnd.oasis.opendocument.presentation;q=0.1,
application/vnd.oasis.opendocument.spreadsheet;q=0.1,
application/vnd.oasis.opendocument.graphics;q=0.1



Пунктиром отделено то место, где список кончался раньше. Хотя это и не совсем точное разделение, еще в старом списке отсутствовал тип text/plain. В запросах бота новый список медиатипов впервые был засечен 31 июля. Да, давненько я не проверял капканы...

«Ну и что?» – спросят в этом месте некоторые оптимизаторы, из тех, что первыми открывают очередную тему «Ап!!!». В самом деле, а что тут особенного, бэклинков-то от этого у них не прибавится... :-) Это правда, ребята. Бэки отсюда не растут.

Пополнение списка индексируемых типов вряд ли сильно обогатит выдачу полезным контентом. В конце концов, уважающий себя (и посетителей) вебмастер подобный контент выкладывает для скачивания в отдельном разделе, а большинство посетителей вовсе не хочет открывать в браузере все подряд. Да и не у всех в браузерах включена поддержка этого добра. Так что отчет о новых достижениях Яндекс со временем опубликует, большого фурора не произведет, будет поставлена галочка в отчетах по Public Relation.

А отладка обновленного индексатора, как и всех обновлений алгоритмов Яндекса, сопровождается обычными делами: ни с того ни с сего выпадают из индекса сайты. Часто совершенно ни в чем подозрительном не замешанные. Впрочем, это еще как сказать. Подозрительность Яндекса сильно возросла, в последнее время она начинает граничить с паранойей. Или, как минимум, шпиономанией.

О «шпионских страстях» Яндекса я подробнее расскажу как-нибудь в другой раз. Честно говоря, промолчал бы, но меня возмутила отправка запросов к сайту, грубо имитирующих переходы со страниц поисковой выдачи. Отправка с IP-адресов, зарегистрированных на Яндекс, так что отпираться бесполезно. Лгать могут люди, но не логи.

PS Да, а почему же я с ботом здороваюсь? :-) Ничего особенного, просто бот вернулся. Как раз 19 сентября, после моей злобной реплики на MasterTalk – через три с половиной часа, когда я уже вынес сайт из панели вебмастера, бот прибежал и начал интересоваться в robots.txt, что здесь можно почитать. Сейчас индексирует сайт заново, с нуля.

PPS А я уже начал было мастерить страницу с формой «Вы робот?» для поддельных переходов с выдачи. Они тоже прекратились, как по команде... Но 14-го после исчезновения сайта из индекса они еще были.

 

 

Заметки
на манжетах

31 июля 2009 г.
И еще немного об HTTP-заголовках. На этот раз о том, какие заголовки нужны и как движок должен их отдавать.

21 июня 2009 г.
Продолжаем разговор о взаимодействии с поисковыми роботами. Как с ними разговаривать?

9 июня 2009 г.
Только сейчас дошли руки как-то обозначить смену статуса...

8 февраля 2009 г.
Сегодня закончил описание новостной ленты. Тема ленты завершена, но мы к ней еще вернемся...

4 февраля 2009 г.
И наконец, давно обещанное описание ленты новостей

3 февраля 2009 г.
Едва успел описать здесь плагин для отсылки почтовых сообщений, как обнаружил в нем дыру. Исправлено, мин нет.

1 февраля 2009 г.
Жизнь продолжается. А я этого и не заметил...

30 октября 2008 г.
И еще один новый раздел. Он называется «Наивное». Не удивляйтесь, там собраны ответы на ваши вопросы.

17 октября 2008 г.
По вашим письмам. Они уже начали приходить – честно говоря, меня это радует. Начну делиться планами.

15 июля 2008 г.
Продолжаем разговор на тему «Как подружиться с роботами».