Заметки на манжетах
19 июня 2010 г.
Пара банальностей и немного о новых алгоритмах. Или Caffeine и число страниц в индексе Google.
Сенсаций не будет. «Кофеин шагает по планете», и это давно уже не новость. У очень многих сайтов при запросе "site:domain.tld" стало видно маловато страниц, и это тоже не новость. Или новость, но только для самых невнимательных, которые редко проверяют свои сайты. По этому поводу уже нарастает тихая паника пополам с обычным форумным «плачем Ярославны» – мол, страницы из индекса выпадают, караул, спасите, люди добрые...
Предположения были обычные: например, очистка индекса от лишнего хлама. Или какие-то ранее неизвестные санкции за никому не известные нарушения. И, разумеется, глюки поисковой системы, на которые большинство по привычке валит все явления, не описанные в FAQ любимых форумов.
Но все-таки санкции просто так не раздают, надо непременно что-то нарушить. А тут и чистые, и нечистые одинаково резво теряют страницы. Санкции отпадают. Очистка индекса... ох, не верю, если Google ее начнет, то первыми повылетают страницы сайтов, три тысячи раз перекопировавших одну и ту же никому не нужную статью «Как Заработать В Интернете, Ничего Не Зная И Не Умея». Вместе с надоевшими варезниками, миллиардом игровых клановых сайтиков и прочим шлаком, который поиску действительно не нужен.
Остаются глюки, но в глюки я не верю. Верю в то, что в Google работают профессионалы, иначе он бы давно свалился, вороша такие объемы информации. Разговоры о глюках ПС чаще всего ведут люди, от программирования очень далекие.
Ладно, хватит с вас предисловий. Теперь главное: страницы из индекса никуда не делись. Яндекс придумал АГС, который блокирует для всех видов поиска ненужные страницы, а Google придумал немного хитрее. Он по-прежнему ничего не выбрасывает, но не все показывает, и в этом весь секрет.
Да-да, я не глухой, уже слышу – кто-то требует доказательств. Сейчас будут – ясные, наглядные, и доступные пониманию.
Всем известно, что запрос "site:domain.tld" должен выводить список страниц в индексе. Но всем ли известно, что строчка после "site:" рассматривается как простейший шаблон регулярного выражения? Боюсь, что не всем...
Для примера возьмем сайт test.ru, у которого в директории /forum/ установлен форум. Спрашиваем у Google "site:test.ru/forum/" – и Google показывает нам только страницы форума. Уже догадались, что делать дальше? :-)
В общем, есть сайт, около 800 страниц. URL вида http://site.tld/rubric/article-name/. То, что бот пробежал уже по всем страницам, мне известно. По запросу site: уже отображалось число, близкое к истине. А дальше Google начал показывать примерно 150 страниц и никакого прогресса. Неделю за неделей. Мистика.
Вчера мне стало интересно, какая часть страниц из каждой рубрики представлена в индексе. Сколько статей в каждой рубрике, я знаю точно – сам делал, движок все перенумеровал. Начал делать запросы по рубрикам... и обалдел. По этим запросам вылезли почти все страницы, сумма страниц по всем рубрикам вышла очень близкой к числу страниц на сайте. Вот вам и мистика...
Конечно, по самым крупным рубрикам Google не показал стопроцентную индексацию. Он и в этом случае скрыл часть страниц. Но согласитесь, это разница: в индексе 150 страниц при общем запросе или 700 в сумме запросов по рубрикам.
Осталось попробовать еще одно: выбрать список страниц, показанных в рубрике, а потом по уникальной цитате (или просто по тайтлам) поискать те страницы, которые в этот список не попали. Что-то мне подсказывает, что они найдутся.