Перейти к содержимому



Почему индексируются закрытые страницы

#1 Тарасов Роман

Тарасов Роман
  • Пользователь
  • 524 сообщений
  • Репутация: 83
0

Отправлено 20 Июль 2016 - 22:40

На днях закрыл в файле robots.txt от индексации страницы с /?tag, они являются дублирующими.

 

Сегодня после АПа посмотрел, не только бывшие там страницы остались, но и прибавилась новая.

 

При этом проверка файла показывает, что эти страницы запрещены к индексации.

 

Что за ерунда? Кто сталкивался, и что с этим делать? И нужно ли заморачиваться?


 

 

  • 0

robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85
Советую обратить внимание на следующее:
  1. Как закрыть от индексации конкретную страницу
  2. Яндекс не индексирует страницы записей на wordpress
  3. Максимальный размер индексируемой поисковиками веб-страницы
  4. Не индексируются страницы сайта в Яндексе
  5. Как закрыть от индексации page 1,2,3...?

#2 BLIK

BLIK
  • Супермодератор
  • 3 184 сообщений
  • Репутация: 633

Отправлено 20 Июль 2016 - 22:50

@Тарасов Роман,Для wordpress robots стандарт

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-feed
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: /xmlrpc.php
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag/
Disallow: /*.php

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-feed
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag/
Disallow: /*.php
Host: sait.com

Sitemap: http://sait.com/sitemap.xml 

остальное закрывает по мере необходимости

 


  • 0


#3 Тарасов Роман

Тарасов Роман
    Topic Starter
  • Пользователь
  • 524 сообщений
  • Репутация: 83

Отправлено 20 Июль 2016 - 23:39

@BLIK, у меня  убран Disallow: /*?* почему-то закрывает все страницы и записи кроме главной.

 

И как-то интересно получается, что при проверке файла страница с тегами запрещена к индексации, а по факту индексируется.


  • 0

#4 BLIK

BLIK
  • Супермодератор
  • 3 184 сообщений
  • Репутация: 633

Отправлено 20 Июль 2016 - 23:42

почему-то закрывает все страницы и записи кроме главной.  

Настрой ЧПУ установи плагин и активируй Cyr-To-Lat

 

В разделе настроек ссылки установи произвольно и поставь там код

/%postname%.html 

Этот код будет в ссылке выводить название записи. Можно и по другому выводить но у меня так везде настроены ЧПУ


Сообщение отредактировал BLIK: 20 Июль 2016 - 23:43

  • 1


#5 TimurR

TimurR
  • Пользователь PRO
  • 831 сообщений
  • Репутация: 180

Отправлено 21 Июль 2016 - 00:30

Файл robots.txt не более чем набор рекомендаций для ПС (на этом форуме сказано это уже не раз). Индексировать и добавлять их в выдачу решается уже на стороне ПС. К слову, запрещенная для индексации страница, может проиндексирована и более того добавлена в выдачу, а в описании (в выдаче) будет написано, что страница закрыта в роботсе и т.д.


  • 2

Рекомендую хостинг: www.ihc.ru

Разработка сайтов / Дизайн / Верстка - писать в л.с.



#6 hammer8

hammer8
  • Пользователь
  • 308 сообщений
  • Репутация: 31

Отправлено 21 Июль 2016 - 00:40

К слову, запрещенная для индексации страница, может проиндексирована и более того добавлена в выдачу

 

Да, роботс - это рекомендация для ПС, а не абсолютная данность, но ситуация с надписью "закрыто в роботсе" происходит при закрытии уже проиндексированных страниц. Для того чтобы убрать такие страницы нужно на них ставить тег ноуиндекс и ноуфоллов 


  • 0

#7 BLIK

BLIK
  • Супермодератор
  • 3 184 сообщений
  • Репутация: 633

Отправлено 21 Июль 2016 - 01:02

@TimurR,@hammer8,  Речь о Яндексе, он хорошо понимает robots.txt в отличии от Google и я не видел чтоб Яндекс в выдачи писал 


 

 

Описание недоступно из-за ограничений в файле robots.txt.

 

Если конечно сайт не закрыт от индекса целиком и еще не выпал из индекса.

 

А вот дорвейный Google не особо и прислушивается к правилам robots, хоть и помещает такие страницы в сопли и подписывает, но все же они попадаются.

 

Но, в Яндексе закрытых страниц с надписью


 

 

Описание недоступно из-за ограничений в файле robots.txt.

я не видел.

 

Именно не видел страниц, которые правильно закрыты в robots(то есть закрытые дубли у меня нет подобного)

 

Можете дать ссылку на выдачу Яндекса, где есть помечены страницы в поиске? И у сайта в robots стоят правила о запрете на индекс этих страниц?


  • 0


#8 hammer8

hammer8
  • Пользователь
  • 308 сообщений
  • Репутация: 31

Отправлено 21 Июль 2016 - 01:06

Яндекс такие страницы удаляет на основе robots.txt(поэтому их и нет) без дополнительных метатегов. 


  • 0

#9 BLIK

BLIK
  • Супермодератор
  • 3 184 сообщений
  • Репутация: 633

Отправлено 21 Июль 2016 - 01:26

Яндекс такие страницы удаляет на основе robots.txt

Ну так, а в этой теме ведь речь о Яндексе? 

 

В Яндексе хорошо понимает robots и с нужными правилами работает отлично, а рекомендации это только для дорвея Google.

 

P.s Уточнил чтоб ТС не запутать лишними словами, так как он имел виду Яндекс.


  • 0


#10 ShowPrint

ShowPrint
  • Пользователь PRO
  • 1 712 сообщений
  • Репутация: 407

Отправлено 21 Июль 2016 - 11:29

@Тарасов Роман, Янд добавляет текстовый контент в выдачу с некоторой задержкой, возможно из-за этого появляются новые закрытые страницы в выдаче.

Удаляет закрытые роботсом Янд также неспешно, как и добавляет - по мере обхода. Возможно еще и "паузу берет": а не передумает ли овнер? чтоб потом заново не индексить...

Я в аналогичных случаях сносил урлы ручками, через Я-сервис - в этом варианте он удаляет достаточно охотно и шустро...

 

Описание недоступно из-за ограничений в файле robots.txt
@BLIK, у меня такого рода описания наблюдались в Гугле...

Кстати, Александр, помнишь темку в которой чел рекомендовал для Гугля не через robots.txt закрывать ранее проиндексированные страницы, а прописывать запрет через htaccess? Так вот у себя я это сделал и это помогло - почти всё из соплей вылетело... Не сразу, конечно, через какой-то промежуток времени, но почти (надо проверить) все эти сопли вытекли и "насморк прекратился"

 

То есть если Яндекс всё-таки рассматривает robots.txt как некоторое действо к руководству, пусть не жёстко и не спеша, но по крайней мере "прислушивается" к нему, то для Гугля - это просто файл, не более того...  :)


  • 0
MasterWEBS: третий дом - моё хобби и увлечение... Второй дом: работа - не меньше 12 часов в день...
Первый дом - под охраной: "Осторожно - злая жена!" (дрессировалась долго и надёжно) /*ссылку не просите - не дам!*/


robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85


Оформление форума – IPBSkins.ru