Быстрая CMS
Обратная связь Карта сайта
Главная Создание сайтов Практика Строим CMS Наивное О проекте Блог

Заметки на манжетах

22 сентября 2009 г.

Здравствуй, Яндекс-бот, давно не виделись. Снова о заголовках... и о грустном.

С ботом поздоровался. :-)

Теперь можно сообщить всем любопытствующим новость, которой пока еще нигде нет. Вероятно, в скором времени на webmaster.ya.ru появится сообщение, что Яндекс существенно расширил список индексируемых документов и далее стандартные заверения в своей приверженности интересам пользователей, ищущих многообразный контент во всевозможных форматах. А пока идет обкатка обновленного механизма индексации и неприятностей у вебмастеров будет много. Уж это к гадалке не ходи, все уже привыкли – как только обновление, так и неприятности...

А теперь плавно перейду к делу.

Началось все с апдейта индекса 14 сентября. Именно в эту ночь, когда выдача задвигалась, а на форумах оптимизаторов были открыты очередные топики «Ап!!!», этот сайт исчез из Яндекса. По проверке проиндексированных «ничего не найдено», в панели вебмастера «Ваш сайт не проиндексирован». А статистика запросов в целости и сохранности... в общем, сайт «выпал из индекса» по неизвестным причинам, о которых мне, конечно же, никто ничего не сообщит. Так что Платона Щукина даже спрашивать не захотелось. Но интересно все-таки...

Кому-то уже надоело читать эту фразу, но я все равно повторю: люблю рыться в логах. Благо, добрый хостер хранит их по месяцам, дополняя архив текущего месяца каждое утро. Первым делом я открыл сентябрьский лог. Забавно – оказывается, индексирующий бот за половину сентября вообще ни разу не заходил на сайт. Августовский лог уточнил ситуацию: с 27 августа I-бота не было, зато ко мне регулярно дважды в сутки ходил «картиночник», спрашивал robots.txt и две пиктограммы («Обратная связь» и «Карта сайта»). Завидное постоянство – учитывая, что пиктограммы он получал со статусом 304 Not Modified.

Как я уже писал в статье о заголовках, у меня на нескольких сайтах есть простенькая ловушка для ботов. Она пишет в логи полный набор заголовков HTTP-Request. После «вылета» захотелось проверить, хорошо ли бот посещал другие сайты. В потолстевшем логе я обнаружил существенно расширенный набор медиатипов в строке Accept. Привожу их полный список (для наглядности добавив переводы строк):


Accept:
text/html,
text/plain;q=0.1,
application/pdf;q=0.1,
application/rtf;q=0.1,
text/rtf;q=0.1,
application/msword;q=0.1,
application/x-shockwave-flash;q=0.1,
application/vnd.ms-excel;q=0.1,
application/vnd.ms-powerpoint;q=0.1,
----------------------------------------------
application/vnd.openxmlformats-officedocument.wordprocessingml.document;q=0.1,
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet;q=0.1,
application/vnd.openxmlformats-officedocument.presentationml.presentation;q=0.1,
application/vnd.oasis.opendocument.text;q=0.1,
application/vnd.oasis.opendocument.presentation;q=0.1,
application/vnd.oasis.opendocument.spreadsheet;q=0.1,
application/vnd.oasis.opendocument.graphics;q=0.1



Пунктиром отделено то место, где список кончался раньше. Хотя это и не совсем точное разделение, еще в старом списке отсутствовал тип text/plain. В запросах бота новый список медиатипов впервые был засечен 31 июля. Да, давненько я не проверял капканы...

«Ну и что?» – спросят в этом месте некоторые оптимизаторы, из тех, что первыми открывают очередную тему «Ап!!!». В самом деле, а что тут особенного, бэклинков-то от этого у них не прибавится... :-) Это правда, ребята. Бэки отсюда не растут.

Пополнение списка индексируемых типов вряд ли сильно обогатит выдачу полезным контентом. В конце концов, уважающий себя (и посетителей) вебмастер подобный контент выкладывает для скачивания в отдельном разделе, а большинство посетителей вовсе не хочет открывать в браузере все подряд. Да и не у всех в браузерах включена поддержка этого добра. Так что отчет о новых достижениях Яндекс со временем опубликует, большого фурора не произведет, будет поставлена галочка в отчетах по Public Relation.

А отладка обновленного индексатора, как и всех обновлений алгоритмов Яндекса, сопровождается обычными делами: ни с того ни с сего выпадают из индекса сайты. Часто совершенно ни в чем подозрительном не замешанные. Впрочем, это еще как сказать. Подозрительность Яндекса сильно возросла, в последнее время она начинает граничить с паранойей. Или, как минимум, шпиономанией.

О «шпионских страстях» Яндекса я подробнее расскажу как-нибудь в другой раз. Честно говоря, промолчал бы, но меня возмутила отправка запросов к сайту, грубо имитирующих переходы со страниц поисковой выдачи. Отправка с IP-адресов, зарегистрированных на Яндекс, так что отпираться бесполезно. Лгать могут люди, но не логи.

PS Да, а почему же я с ботом здороваюсь? :-) Ничего особенного, просто бот вернулся. Как раз 19 сентября, после моей злобной реплики на MasterTalk – через три с половиной часа, когда я уже вынес сайт из панели вебмастера, бот прибежал и начал интересоваться в robots.txt, что здесь можно почитать. Сейчас индексирует сайт заново, с нуля.

PPS А я уже начал было мастерить страницу с формой «Вы робот?» для поддельных переходов с выдачи. Они тоже прекратились, как по команде... Но 14-го после исчезновения сайта из индекса они еще были.

 

 

Заметки
на манжетах

11 ноября 2011 г.
Кто-то исследует недостатки сайта. Выражаю глубокую благодарность скромному анониму.

6 ноября 2011 г.
Сайт снова пошел в рост, а новости застыли на месте больше года назад. Пора опубликовать какую-нибудь новость

19 июня 2010 г.
Пара банальностей и немного о новых алгоритмах. Или Caffeine и число страниц в индексе Google.

15 июня 2010 г.
Вот уж никогда не подумал бы... но маленький эксперимент зашел дальше, чем можно было предположить.

12 апреля 2010 г.
Не очень новая новость от Google – появился еще один фактор, влияющий на ранжирование.

11 января 2010 г.
Вернемся ненадолго в старый год – благо, по старому стилю Новый еще не наступил. Хорошая лазейка для опоздавших.

4 декабря 2009 г.
Еще раз о надоевшем. То есть, о коде статуса несуществующей страницы.

4 декабря 2009 г.
Ох уж эта форма... Не ожидал, что ей будут так интересоваться. Даю инструкцию по применению.

11 ноября 2009 г.
Что-то радует, а что-то не очень.

22 сентября 2009 г.
Здравствуй, Яндекс-бот, давно не виделись. Снова о заголовках... и о грустном.