Перейти к содержимому



Почему индексируются закрытые страницы

#1

Поделиться сообщением #1



Тарасов Роман

Тарасов Роман
  • Пользователь
  • 720 сообщений
  • Репутация: 150
0

Отправлено 20 Июль 2016 - 22:40

На днях закрыл в файле robots.txt от индексации страницы с /?tag, они являются дублирующими.

 

Сегодня после АПа посмотрел, не только бывшие там страницы остались, но и прибавилась новая.

 

При этом проверка файла показывает, что эти страницы запрещены к индексации.

 

Что за ерунда? Кто сталкивался, и что с этим делать? И нужно ли заморачиваться?


 

 

  • 0

robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85
Советую обратить внимание на следующее:
  1. Как запретить индексировать часть страницы
  2. Как закрыть от индексации конкретную страницу
  3. Почему сайт не индексируется поисковыми системами
  4. Запрет на индексацию страниц сайта и отдельных частей контента
  5. Не индексируются страницы сайта в Яндексе

#2

Поделиться сообщением #2



BLIK

BLIK
  • Супермодератор
  • 3 591 сообщений
  • Репутация: 765

Отправлено 20 Июль 2016 - 22:50

@Тарасов Роман,Для wordpress robots стандарт

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-feed
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: /xmlrpc.php
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag/
Disallow: /*.php

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-feed
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag/
Disallow: /*.php
Host: sait.com

Sitemap: http://sait.com/sitemap.xml 

остальное закрывает по мере необходимости

 


  • 0

Sign Up  bonus 100$ в фарма ПП Skype: cristina.rx2, ICQ: 676017111, Jabber: cristina.rx@jabb3r.org | Качественный хостинг



#3

Поделиться сообщением #3



Тарасов Роман

Тарасов Роман
    Topic Starter
  • Пользователь
  • 720 сообщений
  • Репутация: 150

Отправлено 20 Июль 2016 - 23:39

@BLIK, у меня  убран Disallow: /*?* почему-то закрывает все страницы и записи кроме главной.

 

И как-то интересно получается, что при проверке файла страница с тегами запрещена к индексации, а по факту индексируется.


  • 0

#4

Поделиться сообщением #4



BLIK

BLIK
  • Супермодератор
  • 3 591 сообщений
  • Репутация: 765

Отправлено 20 Июль 2016 - 23:42

почему-то закрывает все страницы и записи кроме главной.  

Настрой ЧПУ установи плагин и активируй Cyr-To-Lat

 

В разделе настроек ссылки установи произвольно и поставь там код

/%postname%.html 

Этот код будет в ссылке выводить название записи. Можно и по другому выводить но у меня так везде настроены ЧПУ


Сообщение отредактировал BLIK: 20 Июль 2016 - 23:43

  • 1

Sign Up  bonus 100$ в фарма ПП Skype: cristina.rx2, ICQ: 676017111, Jabber: cristina.rx@jabb3r.org | Качественный хостинг



#5

Поделиться сообщением #5



TimurR

TimurR
  • Пользователь PRO
  • 857 сообщений
  • Репутация: 192

Отправлено 21 Июль 2016 - 00:30

Файл robots.txt не более чем набор рекомендаций для ПС (на этом форуме сказано это уже не раз). Индексировать и добавлять их в выдачу решается уже на стороне ПС. К слову, запрещенная для индексации страница, может проиндексирована и более того добавлена в выдачу, а в описании (в выдаче) будет написано, что страница закрыта в роботсе и т.д.


  • 2

Просто хостинг www.ihc.ru



#6

Поделиться сообщением #6



hammer8

hammer8
  • Пользователь
  • 321 сообщений
  • Репутация: 31

Отправлено 21 Июль 2016 - 00:40

К слову, запрещенная для индексации страница, может проиндексирована и более того добавлена в выдачу

 

Да, роботс - это рекомендация для ПС, а не абсолютная данность, но ситуация с надписью "закрыто в роботсе" происходит при закрытии уже проиндексированных страниц. Для того чтобы убрать такие страницы нужно на них ставить тег ноуиндекс и ноуфоллов 


  • 0

#7

Поделиться сообщением #7



BLIK

BLIK
  • Супермодератор
  • 3 591 сообщений
  • Репутация: 765

Отправлено 21 Июль 2016 - 01:02

@TimurR,@hammer8,  Речь о Яндексе, он хорошо понимает robots.txt в отличии от Google и я не видел чтоб Яндекс в выдачи писал 


 

 

Описание недоступно из-за ограничений в файле robots.txt.

 

Если конечно сайт не закрыт от индекса целиком и еще не выпал из индекса.

 

А вот дорвейный Google не особо и прислушивается к правилам robots, хоть и помещает такие страницы в сопли и подписывает, но все же они попадаются.

 

Но, в Яндексе закрытых страниц с надписью


 

 

Описание недоступно из-за ограничений в файле robots.txt.

я не видел.

 

Именно не видел страниц, которые правильно закрыты в robots(то есть закрытые дубли у меня нет подобного)

 

Можете дать ссылку на выдачу Яндекса, где есть помечены страницы в поиске? И у сайта в robots стоят правила о запрете на индекс этих страниц?


  • 0

Sign Up  bonus 100$ в фарма ПП Skype: cristina.rx2, ICQ: 676017111, Jabber: cristina.rx@jabb3r.org | Качественный хостинг



#8

Поделиться сообщением #8



hammer8

hammer8
  • Пользователь
  • 321 сообщений
  • Репутация: 31

Отправлено 21 Июль 2016 - 01:06

Яндекс такие страницы удаляет на основе robots.txt(поэтому их и нет) без дополнительных метатегов. 


  • 0

#9

Поделиться сообщением #9



BLIK

BLIK
  • Супермодератор
  • 3 591 сообщений
  • Репутация: 765

Отправлено 21 Июль 2016 - 01:26

Яндекс такие страницы удаляет на основе robots.txt

Ну так, а в этой теме ведь речь о Яндексе? 

 

В Яндексе хорошо понимает robots и с нужными правилами работает отлично, а рекомендации это только для дорвея Google.

 

P.s Уточнил чтоб ТС не запутать лишними словами, так как он имел виду Яндекс.


  • 0

Sign Up  bonus 100$ в фарма ПП Skype: cristina.rx2, ICQ: 676017111, Jabber: cristina.rx@jabb3r.org | Качественный хостинг



#10

Поделиться сообщением #10



ShowPrint

ShowPrint
  • Пользователь PRO
  • 2 214 сообщений
  • Репутация: 571

Отправлено 21 Июль 2016 - 11:29

@Тарасов Роман, Янд добавляет текстовый контент в выдачу с некоторой задержкой, возможно из-за этого появляются новые закрытые страницы в выдаче.

Удаляет закрытые роботсом Янд также неспешно, как и добавляет - по мере обхода. Возможно еще и "паузу берет": а не передумает ли овнер? чтоб потом заново не индексить...

Я в аналогичных случаях сносил урлы ручками, через Я-сервис - в этом варианте он удаляет достаточно охотно и шустро...

 

Описание недоступно из-за ограничений в файле robots.txt
@BLIK, у меня такого рода описания наблюдались в Гугле...

Кстати, Александр, помнишь темку в которой чел рекомендовал для Гугля не через robots.txt закрывать ранее проиндексированные страницы, а прописывать запрет через htaccess? Так вот у себя я это сделал и это помогло - почти всё из соплей вылетело... Не сразу, конечно, через какой-то промежуток времени, но почти (надо проверить) все эти сопли вытекли и "насморк прекратился"

 

То есть если Яндекс всё-таки рассматривает robots.txt как некоторое действо к руководству, пусть не жёстко и не спеша, но по крайней мере "прислушивается" к нему, то для Гугля - это просто файл, не более того...  :)


  • 0
MasterWEBS: третий дом - моё хобби и увлечение... Второй дом: работа - не меньше 12 часов в день...
Первый дом - под охраной: "Осторожно - злая жена!" (дрессировалась долго и надёжно) /*ссылку не просите - не дам!*/


robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85


Оформление форума – IPBSkins.ru