Впервые прибегаю к помощи блога, но ситуация прямо скажем тупиковая.
phentermine online pharmacyС гуглом как то давно работаю, но в основном проблема была как вогнать в индекс, тут нужно обратное.
buy provigil online no prescriptionЕсть www.arvuti24.ee , пару лет на нем был вялотекущий форум, форум я перевез на новое место, на домене поставил шоп. Перевезти через панель вебмастера не получилось, потому как переносил на субдомен, а с субдоменами их инструмент не работает нормально. Я рассудил, что поставлю 404 и все само вывалится.
buy xanax onlineИ вот тут появилась проблема с индексом. На момент переезда в индексе было около 100к страниц.
buy diazepam without prescriptionЯ поставил шоп, в шопе есть фильтры товаров. Ссылки на фильтры запрещены в robots.txt, сами результаты по фильтрации закрыты мета тегом noindex.
buy soma no prescriptionКазалось бы сщас станет все как в сказке, но нет
В данный момент, по site:arvuti24.ee находит 389,000 страниц
дергая inurl видно что форумные паги ни куда особо не пропали и более того в индексе сидят все фильтры (которые вроде как закрыты все чем можно)
В активной выдаче всего страниц 300. Все остальное в соплях, и под каким то аццким фильтром, что подтверждают статсы вебмастер тулз
tramadol online pharmacy и в sitemap.xml из 3700 страниц проиндексено только 526.
Гугль бот носится по сайту, практически не вылезая,в том числе и по продуктам, но мусор этот не выпадает.
buy ambien onlineЯ в ступоре, может читатели посоветуют, как это дело кильнуть грамотно?
buy klonopin online without prescriptionbuy valium online no prescription xanax online pharmacy buy ambien no prescription valium online without prescription buy ambien without prescription ambien online pharmacy buy phentermine no prescription
Подпишусь на комменты, чтоб узнать, если чего дельного напишут
Не то, чтобы сильно, но надо для некоторых сайтов удалить левое, запрета в роботсе ему явно мало.
Таки да, нестандартная ситуация. Как правило, роботс.тхт всегда хорошо делал свое дело. Тоже подписываюсь, чтоб узнать рецепт…
В гугле для вебмастеров есть форма для удаления УРЛов. Правда, не знаю, дружит ли она с шаблонами УРЛов…
Почему индексуруются фильтры непонятно, прогони robots.txt через валидатор, может там что-то не то. В самом гугле есть форма для проверки ссылок по robots.txt, попробуй там прогнать некоторые, может гугль каких-то строк не воспринимает…
в том то и фикус, что через валидатор он пишет что запрещен к индексации.
А с шаблонами удалялся не дружит. Тут мне на серче предложили удалять все по одному урлу
Можно конечно написать робота, благо дел там на 5 минут с зенно. Но жесть какая то, удалять по одному 300к урлов
Я там на searchengines.ru в форуме ответил, продублирую вкратце и тут:
- блокировку в robots.txt нужно убрать;
- на запросы несуществующих страниц возвращать 410 (или через mod_alias (Redirect), или через mod_rewrite (RewriteCond/RewriteRule));
- в существующих страницах, которые не нужно индексировать, оставить meta noindex.
Алекс прав. Давно заметил, что гугл и компания забивают на правила, прописанные в robots.txt, хотя в долгосрочном периоде они все таки работает. Сам недавно столкнулся с аналогичной задачей. Решил все из google.com/webmasters/tool/
из гугл хелпа:
Компания Google регулярно обновляет свой индекс полностью. При сканировании Интернета наша система автоматически обнаруживает новые страницы, удаляет устаревшие ссылки и изменяет данные обновленных существующих страниц, что делает индекс Google максимально свежим и точным.
Если в результатах поиска появляются устаревшие ссылки вашего сайта, убедитесь, что в заголовке страниц возвращается статус 404 (страница не найдена) или 410 (страница удалена). Эти коды статуса извещают робот Googlebot о том, что запрошенный URL-адрес недействителен. Некоторые серверы ошибочно возвращают для несуществующих страниц статус 200 (успешно), из-за чего робот Googlebot индексирует данные URL как действительные. Если при обращении к странице в http-заголовках возвращается ошибка 404, удалить эту страницу из индекса Google может кто угодно. Это позволяет сделать инструмент для создания заявки на удаление веб-страницы. Устаревшие страницы, не возвращающие ошибку 404, обычно исчезают из нашего индекса естественным образом, когда другие страницы перестают на них ссылаться.
у тебя при клике на старых ссылках http://www.arvuti24.ee/viewtopic.php?p=…….. редиректится на главную, может быть по этому они и не удаляются. я думаю надо просто убрать редирект чтобы гуглбот получил ошибку 404 Not Found и со временем само все удалится с индекса.
Нужная инфа.
У яндекса на сколько знаю есть только это и то с группами урлов не дружит удилить 100к страниц это самоубийство, или как вариант через распознавалку капчи както реализовывать
http://webmaster.yandex.ru/delurl.xml