Перейти к содержимому



Почему индексируются закрытые страницы

#1

Поделиться сообщением #1



Тарасов Роман

Тарасов Роман
  • Пользователь
  • 720 сообщений
  • Репутация: 150
0

Отправлено 20 Июль 2016 - 22:40

На днях закрыл в файле robots.txt от индексации страницы с /?tag, они являются дублирующими.

 

Сегодня после АПа посмотрел, не только бывшие там страницы остались, но и прибавилась новая.

 

При этом проверка файла показывает, что эти страницы запрещены к индексации.

 

Что за ерунда? Кто сталкивался, и что с этим делать? И нужно ли заморачиваться?


 

 

  • 0

robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85
Советую обратить внимание на следующее:
  1. Как закрыть от индексации конкретную страницу
  2. Почему сайт не индексируется поисковыми системами
  3. Яндекс не индексирует страницы записей на wordpress
  4. Закрывать ли внешние ссылки на соц сети?
  5. WordPress дубли страниц – можно ли закрыть

#2

Поделиться сообщением #2



BLIK

BLIK
  • Супермодератор
  • 3 649 сообщений
  • Репутация: 783

Отправлено 20 Июль 2016 - 22:50

@Тарасов Роман,Для wordpress robots стандарт

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-feed
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: /xmlrpc.php
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag/
Disallow: /*.php

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-feed
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag/
Disallow: /*.php
Host: sait.com

Sitemap: http://sait.com/sitemap.xml 

остальное закрывает по мере необходимости

 


  • 0

Sign Up  bonus 100$ в фарма ПП Skype: cristina.rx2, ICQ: 676017111, Jabber: cristina.rx@jabb3r.org | Качественный хостинг



#3

Поделиться сообщением #3



Тарасов Роман

Тарасов Роман
    Topic Starter
  • Пользователь
  • 720 сообщений
  • Репутация: 150

Отправлено 20 Июль 2016 - 23:39

@BLIK, у меня  убран Disallow: /*?* почему-то закрывает все страницы и записи кроме главной.

 

И как-то интересно получается, что при проверке файла страница с тегами запрещена к индексации, а по факту индексируется.


  • 0

#4

Поделиться сообщением #4



BLIK

BLIK
  • Супермодератор
  • 3 649 сообщений
  • Репутация: 783

Отправлено 20 Июль 2016 - 23:42

почему-то закрывает все страницы и записи кроме главной.  

Настрой ЧПУ установи плагин и активируй Cyr-To-Lat

 

В разделе настроек ссылки установи произвольно и поставь там код

/%postname%.html 

Этот код будет в ссылке выводить название записи. Можно и по другому выводить но у меня так везде настроены ЧПУ


Сообщение отредактировал BLIK: 20 Июль 2016 - 23:43

  • 1

Sign Up  bonus 100$ в фарма ПП Skype: cristina.rx2, ICQ: 676017111, Jabber: cristina.rx@jabb3r.org | Качественный хостинг



#5

Поделиться сообщением #5



TimurR

TimurR
  • Пользователь PRO
  • 872 сообщений
  • Репутация: 196

Отправлено 21 Июль 2016 - 00:30

Файл robots.txt не более чем набор рекомендаций для ПС (на этом форуме сказано это уже не раз). Индексировать и добавлять их в выдачу решается уже на стороне ПС. К слову, запрещенная для индексации страница, может проиндексирована и более того добавлена в выдачу, а в описании (в выдаче) будет написано, что страница закрыта в роботсе и т.д.


  • 2

Просто хостинг www.ihc.ru



#6

Поделиться сообщением #6



hammer8

hammer8
  • Пользователь
  • 321 сообщений
  • Репутация: 31

Отправлено 21 Июль 2016 - 00:40

К слову, запрещенная для индексации страница, может проиндексирована и более того добавлена в выдачу

 

Да, роботс - это рекомендация для ПС, а не абсолютная данность, но ситуация с надписью "закрыто в роботсе" происходит при закрытии уже проиндексированных страниц. Для того чтобы убрать такие страницы нужно на них ставить тег ноуиндекс и ноуфоллов 


  • 0

#7

Поделиться сообщением #7



BLIK

BLIK
  • Супермодератор
  • 3 649 сообщений
  • Репутация: 783

Отправлено 21 Июль 2016 - 01:02

@TimurR,@hammer8,  Речь о Яндексе, он хорошо понимает robots.txt в отличии от Google и я не видел чтоб Яндекс в выдачи писал 


 

 

Описание недоступно из-за ограничений в файле robots.txt.

 

Если конечно сайт не закрыт от индекса целиком и еще не выпал из индекса.

 

А вот дорвейный Google не особо и прислушивается к правилам robots, хоть и помещает такие страницы в сопли и подписывает, но все же они попадаются.

 

Но, в Яндексе закрытых страниц с надписью


 

 

Описание недоступно из-за ограничений в файле robots.txt.

я не видел.

 

Именно не видел страниц, которые правильно закрыты в robots(то есть закрытые дубли у меня нет подобного)

 

Можете дать ссылку на выдачу Яндекса, где есть помечены страницы в поиске? И у сайта в robots стоят правила о запрете на индекс этих страниц?


  • 0

Sign Up  bonus 100$ в фарма ПП Skype: cristina.rx2, ICQ: 676017111, Jabber: cristina.rx@jabb3r.org | Качественный хостинг



#8

Поделиться сообщением #8



hammer8

hammer8
  • Пользователь
  • 321 сообщений
  • Репутация: 31

Отправлено 21 Июль 2016 - 01:06

Яндекс такие страницы удаляет на основе robots.txt(поэтому их и нет) без дополнительных метатегов. 


  • 0

#9

Поделиться сообщением #9



BLIK

BLIK
  • Супермодератор
  • 3 649 сообщений
  • Репутация: 783

Отправлено 21 Июль 2016 - 01:26

Яндекс такие страницы удаляет на основе robots.txt

Ну так, а в этой теме ведь речь о Яндексе? 

 

В Яндексе хорошо понимает robots и с нужными правилами работает отлично, а рекомендации это только для дорвея Google.

 

P.s Уточнил чтоб ТС не запутать лишними словами, так как он имел виду Яндекс.


  • 0

Sign Up  bonus 100$ в фарма ПП Skype: cristina.rx2, ICQ: 676017111, Jabber: cristina.rx@jabb3r.org | Качественный хостинг



#10

Поделиться сообщением #10



ShowPrint

ShowPrint
  • Пользователь PRO
  • 2 382 сообщений
  • Репутация: 608

Отправлено 21 Июль 2016 - 11:29

@Тарасов Роман, Янд добавляет текстовый контент в выдачу с некоторой задержкой, возможно из-за этого появляются новые закрытые страницы в выдаче.

Удаляет закрытые роботсом Янд также неспешно, как и добавляет - по мере обхода. Возможно еще и "паузу берет": а не передумает ли овнер? чтоб потом заново не индексить...

Я в аналогичных случаях сносил урлы ручками, через Я-сервис - в этом варианте он удаляет достаточно охотно и шустро...

 

Описание недоступно из-за ограничений в файле robots.txt
@BLIK, у меня такого рода описания наблюдались в Гугле...

Кстати, Александр, помнишь темку в которой чел рекомендовал для Гугля не через robots.txt закрывать ранее проиндексированные страницы, а прописывать запрет через htaccess? Так вот у себя я это сделал и это помогло - почти всё из соплей вылетело... Не сразу, конечно, через какой-то промежуток времени, но почти (надо проверить) все эти сопли вытекли и "насморк прекратился"

 

То есть если Яндекс всё-таки рассматривает robots.txt как некоторое действо к руководству, пусть не жёстко и не спеша, но по крайней мере "прислушивается" к нему, то для Гугля - это просто файл, не более того...  :)


  • 0
MasterWEBS: третий дом - моё хобби и увлечение... Второй дом: работа - не меньше 12 часов в день...
Первый дом - под охраной: "Осторожно - злая жена!" (дрессировалась долго и надёжно) /*ссылку не просите - не дам!*/


robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85


Оформление форума – IPBSkins.ru