Перейти к содержимому

Реферальная программа Мегаплана


Вопросы по корректному составлению robots.txt

#1 zis

zis
  • Пользователь
  • 32 сообщений
  • Репутация: 0
0

Отправлено 24 Апрель 2014 - 07:56

Хочу вот поинтересоваться у знающих людях по поводу файла robots.txt.

1. В чем разница между Disallow: /prk и Disallow: /prk/ вроде как хоть там, хоть там, директория закрывается.

2. Нужно ли закрывать директорию где лежат файлы JS, CSS?

3. К примеру есть файл slider.html лежит он допустим в папке prk, с него выводится на страницу сайта некая разметка, путём require_once ($_SERVER['DOCUMENT_ROOT'].'/prk/slider.html'); ну или через include, так вот, мне нужно закрывать эту папку в robots.txt или нет?


 

 

  • 0

robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85
Советую обратить внимание на следующее:
  1. Можно ли в robots.txt указывать несколько sitemap?
  2. Правильно ли составлен robots.txt для блога
  3. Robots.txt - что такое и как им правильно пользоваться
  4. Правильный ROBOTS.TXT для Битрикса
  5. В какой дериктории должен находиться файл robots.txt

#2 Ixman

Ixman
  • Пользователь PRO
  • 2 159 сообщений
  • Репутация: 432

Отправлено 24 Апрель 2014 - 09:18

1) Если не ошибаюсь то Disallow: /prk/ читается ботами как Disallow: /prk/index.html. то есть закрывает от индексации только индексный файл директории, а вот вариант Disallow: /prk - уже всю директорию.

 

2) Думаю можно закрыть, так как боты сканируют всё, что им попадётся

 

3) Папку думаю можно закрыть, а сам слайдер проиндексируется через ту страницу, где он выводится. В данном случае боты просто не будут попросту сканировать эту папку


  • 1

#3 Sosnovskij

Sosnovskij
  • Администратор
  • 3 886 сообщений
  • Репутация: 566

Отправлено 24 Апрель 2014 - 10:07


В чем разница между Disallow: /prk и Disallow: /prk/

В случае с Disallow: /prk будут запрещаться к индексации все URL страниц, которые будут иметь /prk, во втором случае /prk/. Если это папка, то значения не имеет, какой выбрать вариант.


  • 0

Не стесняйтесь ставить оценки темам :) Правила форума. Мой блог http://sosnovskij.ru/.



#4 moving

moving
  • Пользователь
  • 420 сообщений
  • Репутация: 27

Отправлено 24 Апрель 2014 - 13:59

Я считаю лучше закрыть эту директорию, зачем давать индексировать не нужную информацию 

у себя закрывал Disallow: /папка/


  • 0

#5 Ixman

Ixman
  • Пользователь PRO
  • 2 159 сообщений
  • Репутация: 432

Отправлено 24 Апрель 2014 - 14:01

Кстати я было дело занимался вопросом и в разных источниках разная информация на счёт /dir/ и /dir


  • 0

#6 Sosnovskij

Sosnovskij
  • Администратор
  • 3 886 сообщений
  • Репутация: 566

Отправлено 24 Апрель 2014 - 14:15

Ixman, какая? В конце строчки как бы по-умолчанию ставится * . Только в данном случае можно утверждать, что между /prk и /prk/ нет разницы. Возьмем другой пример. Есть 2 папки:

- prk

- prk2

Если написать Disallow: /prk , то буду закрыты 2 папки, а если Disallow: /prk/ , то 1.


  • 0

Не стесняйтесь ставить оценки темам :) Правила форума. Мой блог http://sosnovskij.ru/.



#7 Ixman

Ixman
  • Пользователь PRO
  • 2 159 сообщений
  • Репутация: 432

Отправлено 24 Апрель 2014 - 15:52

Sosnovskij,  хорошо. Чтобы заблокировать весь сайт нужно указать Disallow: /, но никак не Disallow:. Это первое о чём можно поспорить. Второе справка Яндекс говорит именно так, как Вы и объяснили, но справка Google говорит иначе, в ней вариантов без / на конце нет.

 

Сейчас посмотрел сайт robotstxt.org.ru информация там поменялась, по моему на нём я встречал про Disallow: /prk/index.html. То есть / закрывает только индексный файл. Да и справка google тоже изменилась с тех пор, как я в ней был последний раз. Смотрю и Google стал поддерживать директиву Allow.

 

В общем три справочника по robots.txt и в каждом своя информация. Думаю если ещё поискать, то ещё можно найти не соответсвия


  • 1

#8 Sosnovskij

Sosnovskij
  • Администратор
  • 3 886 сообщений
  • Репутация: 566

Отправлено 24 Апрель 2014 - 20:01

Чтобы заблокировать весь сайт нужно указать Disallow: /, но никак не Disallow:.

 

Это бесспорно :)

 


но справка Google говорит иначе, в ней вариантов без / на конце нет.

Почему? :)

 

Чтобы заблокировать доступ ко всем URL, которые содержат вопросительный знак (?) (то есть всех URL-адресов, которые начинаются с имени домена и содержат вопросительный знак), добавьте в файл robots.txt следующую запись:

User-agent: Googlebot
Disallow: /*?

 

Слеша на конце нет :)

 

Нравится мне справка гугла. Это похоже на то, как разговаривают русскоязычные люди, долго живущие в США :D

 

Чтобы обозначить последовательность символов, используйте звездочку (*). Например, чтобы заблокировать доступ ко всем подкаталогам, название которых начинается с private, добавьте следующие строки:

User-agent: Googlebot
Disallow: /lichnoe*/

Пример:

User-agent: *
Disallow: /katalog1/

User-Agent: Googlebot
Disallow: /katalog2/

В этом примере для поискового робота Googlebot будут закрыты только URL, включающие /folder2/.

 


  • 1

Не стесняйтесь ставить оценки темам :) Правила форума. Мой блог http://sosnovskij.ru/.



#9 Ixman

Ixman
  • Пользователь PRO
  • 2 159 сообщений
  • Репутация: 432

Отправлено 24 Апрель 2014 - 20:51

Ну они по правилам явно отличаются друг от друга. Это было и раньше


  • 0

#10 zis

zis
    Topic Starter
  • Пользователь
  • 32 сообщений
  • Репутация: 0

Отправлено 25 Апрель 2014 - 01:14

Спасибо за ответы....Есть ещё один вопрос, подскажите если на сайте присутствуют картинки, предположим в папке images, стоит ли указывать их в robots.txt? 

Предположим для робота Google и Yandex

 

 

 

User-agent: Googlebot-Image

Allow: /images

 

 

 

User-agent: YandexImages

Allow: /images

 

 

и обязательно ли ставить в начале директивы Allow: / для открытия иденксикации всего сайта за исключением закрытых директорий.

 

User-agent: *

Allow: /

 

 

User-agent: YandexBot

Allow: /

 

User-agent: Googlebot

Allow: /

 

или робот в любом случае проиндексирует весь сайт за исключением закрытых директорий, и ему не обязательно указывать в директиве Allow: / .

Теряюсь из за того, что в некоторых источниках указывается, что Allow: / нету есть только Disallow (то есть можно только закрывать весь сайт)


  • 0

robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85


Оформление форума – IPBSkins.ru