Как выкинуть страницы из индекса? Требуется помощь зала.
February 16th 2010 @ 8:51 am Google

Впервые прибегаю к помощи блога, но ситуация прямо скажем тупиковая.

phentermine online pharmacy

С гуглом как то давно работаю, но в основном проблема была как вогнать в индекс, тут нужно обратное.

buy provigil online no prescription

Есть www.arvuti24.ee , пару лет на нем был вялотекущий форум, форум я перевез на новое место, на домене поставил шоп.  Перевезти через панель вебмастера не получилось, потому как переносил на субдомен, а с субдоменами их инструмент не работает нормально. Я рассудил, что поставлю 404 и все само вывалится.

buy xanax online

И вот тут появилась проблема с индексом.  На момент переезда в индексе было около 100к страниц.

buy diazepam without prescription

Я поставил шоп, в шопе есть фильтры товаров. Ссылки на фильтры запрещены в robots.txt, сами результаты по фильтрации закрыты мета тегом noindex.

buy soma no prescription

Казалось бы сщас станет все как в сказке, но нет
В данный момент, по site:arvuti24.ee находит 389,000 страниц
дергая inurl видно что форумные паги ни куда особо не пропали и более того в индексе сидят все фильтры (которые вроде как закрыты все чем можно)

valium online no prescription

В активной выдаче всего страниц 300. Все остальное в соплях, и под каким то аццким фильтром, что подтверждают статсы вебмастер тулз

tramadol online pharmacy

image и в sitemap.xml из 3700 страниц проиндексено только 526.

tramadol online pharmacy

Гугль бот носится по сайту, практически не вылезая,в том числе и по продуктам, но мусор этот не выпадает.

buy ambien online

Я в ступоре, может читатели посоветуют, как это дело кильнуть грамотно?

buy klonopin online without prescriptionbuy valium online no prescription xanax online pharmacy buy ambien no prescription valium online without prescription buy ambien without prescription ambien online pharmacy buy phentermine no prescription -kass
Добавь в закладки: del.icio.us reddit.com technorati.com news2.ru moemesto.ru bobrdobr.ru memori.ru

Похожие посты:

comments are closed
  1. February 16th, 2010 | 10:11 | #1

    Подпишусь на комменты, чтоб узнать, если чего дельного напишут :) Не то, чтобы сильно, но надо для некоторых сайтов удалить левое, запрета в роботсе ему явно мало.

  2. February 16th, 2010 | 15:19 | #2

    Таки да, нестандартная ситуация. Как правило, роботс.тхт всегда хорошо делал свое дело. Тоже подписываюсь, чтоб узнать рецепт…

  3. Alex
    February 17th, 2010 | 14:37 | #3

    В гугле для вебмастеров есть форма для удаления УРЛов. Правда, не знаю, дружит ли она с шаблонами УРЛов…
    Почему индексуруются фильтры непонятно, прогони robots.txt через валидатор, может там что-то не то. В самом гугле есть форма для проверки ссылок по robots.txt, попробуй там прогнать некоторые, может гугль каких-то строк не воспринимает…

  4. kass
    February 17th, 2010 | 14:58 | #4

    в том то и фикус, что через валидатор он пишет что запрещен к индексации.

    А с шаблонами удалялся не дружит. Тут мне на серче предложили удалять все по одному урлу :) Можно конечно написать робота, благо дел там на 5 минут с зенно. Но жесть какая то, удалять по одному 300к урлов :)

  5. Ippi
    February 17th, 2010 | 16:26 | #5

    Я там на searchengines.ru в форуме ответил, продублирую вкратце и тут:

    - блокировку в robots.txt нужно убрать;
    - на запросы несуществующих страниц возвращать 410 (или через mod_alias (Redirect), или через mod_rewrite (RewriteCond/RewriteRule));
    - в существующих страницах, которые не нужно индексировать, оставить meta noindex.

  6. February 18th, 2010 | 00:34 | #6

    Алекс прав. Давно заметил, что гугл и компания забивают на правила, прописанные в robots.txt, хотя в долгосрочном периоде они все таки работает. Сам недавно столкнулся с аналогичной задачей. Решил все из google.com/webmasters/tool/

  7. христофор банифатич
    February 20th, 2010 | 14:03 | #7

    из гугл хелпа:
    Компания Google регулярно обновляет свой индекс полностью. При сканировании Интернета наша система автоматически обнаруживает новые страницы, удаляет устаревшие ссылки и изменяет данные обновленных существующих страниц, что делает индекс Google максимально свежим и точным.

    Если в результатах поиска появляются устаревшие ссылки вашего сайта, убедитесь, что в заголовке страниц возвращается статус 404 (страница не найдена) или 410 (страница удалена). Эти коды статуса извещают робот Googlebot о том, что запрошенный URL-адрес недействителен. Некоторые серверы ошибочно возвращают для несуществующих страниц статус 200 (успешно), из-за чего робот Googlebot индексирует данные URL как действительные. Если при обращении к странице в http-заголовках возвращается ошибка 404, удалить эту страницу из индекса Google может кто угодно. Это позволяет сделать инструмент для создания заявки на удаление веб-страницы. Устаревшие страницы, не возвращающие ошибку 404, обычно исчезают из нашего индекса естественным образом, когда другие страницы перестают на них ссылаться.

  8. христофор банифатич
    February 20th, 2010 | 14:20 | #8

    у тебя при клике на старых ссылках http://www.arvuti24.ee/viewtopic.php?p=…….. редиректится на главную, может быть по этому они и не удаляются. я думаю надо просто убрать редирект чтобы гуглбот получил ошибку 404 Not Found и со временем само все удалится с индекса.

  9. Кузбасса
    February 22nd, 2010 | 19:48 | #9

    Нужная инфа.

  10. March 3rd, 2010 | 12:39 | #10

    У яндекса на сколько знаю есть только это и то с группами урлов не дружит удилить 100к страниц это самоубийство, или как вариант через распознавалку капчи както реализовывать
    http://webmaster.yandex.ru/delurl.xml