Впервые прибегаю к помощи блога, но ситуация прямо скажем тупиковая.
С гуглом как то давно работаю, но в основном проблема была как вогнать в индекс, тут нужно обратное.
Есть www.arvuti24.ee , пару лет на нем был вялотекущий форум, форум я перевез на новое место, на домене поставил шоп. Перевезти через панель вебмастера не получилось, потому как переносил на субдомен, а с субдоменами их инструмент не работает нормально. Я рассудил, что поставлю 404 и все само вывалится.
И вот тут появилась проблема с индексом. На момент переезда в индексе было около 100к страниц.
Я поставил шоп, в шопе есть фильтры товаров. Ссылки на фильтры запрещены в robots.txt, сами результаты по фильтрации закрыты мета тегом noindex.
Казалось бы сщас станет все как в сказке, но нет
В данный момент, по site:arvuti24.ee находит 389,000 страниц
дергая inurl видно что форумные паги ни куда особо не пропали и более того в индексе сидят все фильтры (которые вроде как закрыты все чем можно)
В активной выдаче всего страниц 300. Все остальное в соплях, и под каким то аццким фильтром, что подтверждают статсы вебмастер тулз
и в sitemap.xml из 3700 страниц проиндексено только 526.
Гугль бот носится по сайту, практически не вылезая,в том числе и по продуктам, но мусор этот не выпадает.
Я в ступоре, может читатели посоветуют, как это дело кильнуть грамотно?

Подпишусь на комменты, чтоб узнать, если чего дельного напишут
Не то, чтобы сильно, но надо для некоторых сайтов удалить левое, запрета в роботсе ему явно мало.
Таки да, нестандартная ситуация. Как правило, роботс.тхт всегда хорошо делал свое дело. Тоже подписываюсь, чтоб узнать рецепт…
В гугле для вебмастеров есть форма для удаления УРЛов. Правда, не знаю, дружит ли она с шаблонами УРЛов…
Почему индексуруются фильтры непонятно, прогони robots.txt через валидатор, может там что-то не то. В самом гугле есть форма для проверки ссылок по robots.txt, попробуй там прогнать некоторые, может гугль каких-то строк не воспринимает…
в том то и фикус, что через валидатор он пишет что запрещен к индексации.
А с шаблонами удалялся не дружит. Тут мне на серче предложили удалять все по одному урлу
Можно конечно написать робота, благо дел там на 5 минут с зенно. Но жесть какая то, удалять по одному 300к урлов
Я там на searchengines.ru в форуме ответил, продублирую вкратце и тут:
- блокировку в robots.txt нужно убрать;
- на запросы несуществующих страниц возвращать 410 (или через mod_alias (Redirect), или через mod_rewrite (RewriteCond/RewriteRule));
- в существующих страницах, которые не нужно индексировать, оставить meta noindex.
Алекс прав. Давно заметил, что гугл и компания забивают на правила, прописанные в robots.txt, хотя в долгосрочном периоде они все таки работает. Сам недавно столкнулся с аналогичной задачей. Решил все из google.com/webmasters/tool/
из гугл хелпа:
Компания Google регулярно обновляет свой индекс полностью. При сканировании Интернета наша система автоматически обнаруживает новые страницы, удаляет устаревшие ссылки и изменяет данные обновленных существующих страниц, что делает индекс Google максимально свежим и точным.
Если в результатах поиска появляются устаревшие ссылки вашего сайта, убедитесь, что в заголовке страниц возвращается статус 404 (страница не найдена) или 410 (страница удалена). Эти коды статуса извещают робот Googlebot о том, что запрошенный URL-адрес недействителен. Некоторые серверы ошибочно возвращают для несуществующих страниц статус 200 (успешно), из-за чего робот Googlebot индексирует данные URL как действительные. Если при обращении к странице в http-заголовках возвращается ошибка 404, удалить эту страницу из индекса Google может кто угодно. Это позволяет сделать инструмент для создания заявки на удаление веб-страницы. Устаревшие страницы, не возвращающие ошибку 404, обычно исчезают из нашего индекса естественным образом, когда другие страницы перестают на них ссылаться.
у тебя при клике на старых ссылках http://www.arvuti24.ee/viewtopic.php?p=…….. редиректится на главную, может быть по этому они и не удаляются. я думаю надо просто убрать редирект чтобы гуглбот получил ошибку 404 Not Found и со временем само все удалится с индекса.
Нужная инфа.
У яндекса на сколько знаю есть только это и то с группами урлов не дружит удилить 100к страниц это самоубийство, или как вариант через распознавалку капчи както реализовывать
http://webmaster.yandex.ru/delurl.xml