Быстрая CMS
Обратная связь Карта сайта
Главная Создание сайтов Практика Строим CMS Наивное О проекте Блог

Заметки на манжетах

19 июня 2010 г.

Пара банальностей и немного о новых алгоритмах. Или Caffeine и число страниц в индексе Google.

Сенсаций не будет. «Кофеин шагает по планете», и это давно уже не новость. У очень многих сайтов при запросе "site:domain.tld" стало видно маловато страниц, и это тоже не новость. Или новость, но только для самых невнимательных, которые редко проверяют свои сайты. По этому поводу уже нарастает тихая паника пополам с обычным форумным «плачем Ярославны» – мол, страницы из индекса выпадают, караул, спасите, люди добрые...

Предположения были обычные: например, очистка индекса от лишнего хлама. Или какие-то ранее неизвестные санкции за никому не известные нарушения. И, разумеется, глюки поисковой системы, на которые большинство по привычке валит все явления, не описанные в FAQ любимых форумов.

Но все-таки санкции просто так не раздают, надо непременно что-то нарушить. А тут и чистые, и нечистые одинаково резво теряют страницы. Санкции отпадают. Очистка индекса... ох, не верю, если Google ее начнет, то первыми повылетают страницы сайтов, три тысячи раз перекопировавших одну и ту же никому не нужную статью «Как Заработать В Интернете, Ничего Не Зная И Не Умея». Вместе с надоевшими варезниками, миллиардом игровых клановых сайтиков и прочим шлаком, который поиску действительно не нужен.

Остаются глюки, но в глюки я не верю. Верю в то, что в Google работают профессионалы, иначе он бы давно свалился, вороша такие объемы информации. Разговоры о глюках ПС чаще всего ведут люди, от программирования очень далекие.

Ладно, хватит с вас предисловий. Теперь главное: страницы из индекса никуда не делись. Яндекс придумал АГС, который блокирует для всех видов поиска ненужные страницы, а Google придумал немного хитрее. Он по-прежнему ничего не выбрасывает, но не все показывает, и в этом весь секрет.

Да-да, я не глухой, уже слышу – кто-то требует доказательств. Сейчас будут – ясные, наглядные, и доступные пониманию.

Всем известно, что запрос "site:domain.tld" должен выводить список страниц в индексе. Но всем ли известно, что строчка после "site:" рассматривается как простейший шаблон регулярного выражения? Боюсь, что не всем...

Для примера возьмем сайт test.ru, у которого в директории /forum/ установлен форум. Спрашиваем у Google "site:test.ru/forum/" – и Google показывает нам только страницы форума. Уже догадались, что делать дальше? :-)

В общем, есть сайт, около 800 страниц. URL вида http://site.tld/rubric/article-name/. То, что бот пробежал уже по всем страницам, мне известно. По запросу site: уже отображалось число, близкое к истине. А дальше Google начал показывать примерно 150 страниц и никакого прогресса. Неделю за неделей. Мистика.

Вчера мне стало интересно, какая часть страниц из каждой рубрики представлена в индексе. Сколько статей в каждой рубрике, я знаю точно – сам делал, движок все перенумеровал. Начал делать запросы по рубрикам... и обалдел. По этим запросам вылезли почти все страницы, сумма страниц по всем рубрикам вышла очень близкой к числу страниц на сайте. Вот вам и мистика...

Конечно, по самым крупным рубрикам Google не показал стопроцентную индексацию. Он и в этом случае скрыл часть страниц. Но согласитесь, это разница: в индексе 150 страниц при общем запросе или 700 в сумме запросов по рубрикам.

Осталось попробовать еще одно: выбрать список страниц, показанных в рубрике, а потом по уникальной цитате (или просто по тайтлам) поискать те страницы, которые в этот список не попали. Что-то мне подсказывает, что они найдутся.

 

 

Заметки
на манжетах

11 ноября 2011 г.
Кто-то исследует недостатки сайта. Выражаю глубокую благодарность скромному анониму.

6 ноября 2011 г.
Сайт снова пошел в рост, а новости застыли на месте больше года назад. Пора опубликовать какую-нибудь новость

19 июня 2010 г.
Пара банальностей и немного о новых алгоритмах. Или Caffeine и число страниц в индексе Google.

15 июня 2010 г.
Вот уж никогда не подумал бы... но маленький эксперимент зашел дальше, чем можно было предположить.

12 апреля 2010 г.
Не очень новая новость от Google – появился еще один фактор, влияющий на ранжирование.

11 января 2010 г.
Вернемся ненадолго в старый год – благо, по старому стилю Новый еще не наступил. Хорошая лазейка для опоздавших.

4 декабря 2009 г.
Еще раз о надоевшем. То есть, о коде статуса несуществующей страницы.

4 декабря 2009 г.
Ох уж эта форма... Не ожидал, что ей будут так интересоваться. Даю инструкцию по применению.

11 ноября 2009 г.
Что-то радует, а что-то не очень.

22 сентября 2009 г.
Здравствуй, Яндекс-бот, давно не виделись. Снова о заголовках... и о грустном.