Как выкинуть страницы из индекса? Требуется помощь зала.
February 16th 2010 @ 8:51 am Google

Впервые прибегаю к помощи блога, но ситуация прямо скажем тупиковая.

С гуглом как то давно работаю, но в основном проблема была как вогнать в индекс, тут нужно обратное.

Есть www.arvuti24.ee , пару лет на нем был вялотекущий форум, форум я перевез на новое место, на домене поставил шоп.  Перевезти через панель вебмастера не получилось, потому как переносил на субдомен, а с субдоменами их инструмент не работает нормально. Я рассудил, что поставлю 404 и все само вывалится.

И вот тут появилась проблема с индексом.  На момент переезда в индексе было около 100к страниц.

Я поставил шоп, в шопе есть фильтры товаров. Ссылки на фильтры запрещены в robots.txt, сами результаты по фильтрации закрыты мета тегом noindex.

Казалось бы сщас станет все как в сказке, но нет
В данный момент, по site:arvuti24.ee находит 389,000 страниц
дергая inurl видно что форумные паги ни куда особо не пропали и более того в индексе сидят все фильтры (которые вроде как закрыты все чем можно)

В активной выдаче всего страниц 300. Все остальное в соплях, и под каким то аццким фильтром, что подтверждают статсы вебмастер тулз

image и в sitemap.xml из 3700 страниц проиндексено только 526.

Гугль бот носится по сайту, практически не вылезая,в том числе и по продуктам, но мусор этот не выпадает.

Я в ступоре, может читатели посоветуют, как это дело кильнуть грамотно?

-kass
Добавь в закладки: del.icio.us reddit.com technorati.com news2.ru moemesto.ru bobrdobr.ru memori.ru rucity.com rumarkz.ru

Похожие посты:

comments are closed
  1. February 16th, 2010 | 10:11 | #1

    Подпишусь на комменты, чтоб узнать, если чего дельного напишут :) Не то, чтобы сильно, но надо для некоторых сайтов удалить левое, запрета в роботсе ему явно мало.

  2. February 16th, 2010 | 15:19 | #2

    Таки да, нестандартная ситуация. Как правило, роботс.тхт всегда хорошо делал свое дело. Тоже подписываюсь, чтоб узнать рецепт…

  3. Alex
    February 17th, 2010 | 14:37 | #3

    В гугле для вебмастеров есть форма для удаления УРЛов. Правда, не знаю, дружит ли она с шаблонами УРЛов…
    Почему индексуруются фильтры непонятно, прогони robots.txt через валидатор, может там что-то не то. В самом гугле есть форма для проверки ссылок по robots.txt, попробуй там прогнать некоторые, может гугль каких-то строк не воспринимает…

  4. kass
    February 17th, 2010 | 14:58 | #4

    в том то и фикус, что через валидатор он пишет что запрещен к индексации.

    А с шаблонами удалялся не дружит. Тут мне на серче предложили удалять все по одному урлу :) Можно конечно написать робота, благо дел там на 5 минут с зенно. Но жесть какая то, удалять по одному 300к урлов :)

  5. Ippi
    February 17th, 2010 | 16:26 | #5

    Я там на searchengines.ru в форуме ответил, продублирую вкратце и тут:

    - блокировку в robots.txt нужно убрать;
    - на запросы несуществующих страниц возвращать 410 (или через mod_alias (Redirect), или через mod_rewrite (RewriteCond/RewriteRule));
    - в существующих страницах, которые не нужно индексировать, оставить meta noindex.

  6. February 18th, 2010 | 00:34 | #6

    Алекс прав. Давно заметил, что гугл и компания забивают на правила, прописанные в robots.txt, хотя в долгосрочном периоде они все таки работает. Сам недавно столкнулся с аналогичной задачей. Решил все из google.com/webmasters/tool/

  7. христофор банифатич
    February 20th, 2010 | 14:03 | #7

    из гугл хелпа:
    Компания Google регулярно обновляет свой индекс полностью. При сканировании Интернета наша система автоматически обнаруживает новые страницы, удаляет устаревшие ссылки и изменяет данные обновленных существующих страниц, что делает индекс Google максимально свежим и точным.

    Если в результатах поиска появляются устаревшие ссылки вашего сайта, убедитесь, что в заголовке страниц возвращается статус 404 (страница не найдена) или 410 (страница удалена). Эти коды статуса извещают робот Googlebot о том, что запрошенный URL-адрес недействителен. Некоторые серверы ошибочно возвращают для несуществующих страниц статус 200 (успешно), из-за чего робот Googlebot индексирует данные URL как действительные. Если при обращении к странице в http-заголовках возвращается ошибка 404, удалить эту страницу из индекса Google может кто угодно. Это позволяет сделать инструмент для создания заявки на удаление веб-страницы. Устаревшие страницы, не возвращающие ошибку 404, обычно исчезают из нашего индекса естественным образом, когда другие страницы перестают на них ссылаться.

  8. христофор банифатич
    February 20th, 2010 | 14:20 | #8

    у тебя при клике на старых ссылках http://www.arvuti24.ee/viewtopic.php?p=…….. редиректится на главную, может быть по этому они и не удаляются. я думаю надо просто убрать редирект чтобы гуглбот получил ошибку 404 Not Found и со временем само все удалится с индекса.

  9. Кузбасса
    February 22nd, 2010 | 19:48 | #9

    Нужная инфа.

  10. March 3rd, 2010 | 12:39 | #10

    У яндекса на сколько знаю есть только это и то с группами урлов не дружит удилить 100к страниц это самоубийство, или как вариант через распознавалку капчи както реализовывать
    http://webmaster.yandex.ru/delurl.xml