Перейти к содержимому

Сервис обмена электронных валют


Правильный robots.txt

#1 magnet

magnet
  • Пользователь PRO
  • 1 128 сообщений
  • Репутация: 155
0

Отправлено 17 Август 2016 - 23:13

Всем привет.

 

Решил я заглянуть в свое первое детище, до которого все не как не доходят руки, что бы вдохнуть в него жизнь. Сайте на движке dle и начал я с robots.txt

 

И собственно для меня было не удивлением, что я обнаружил дубли страниц и ко всему этому еще кучу не нужных страниц для индексации. Начал я гуглить и попал на блог Алаича. У него есть модуль для ленивых. Ну так же я нашел у него готовое решение, специально для dle, что меня вполне устроило.

 

Так вот я не стал ничего выдумывать и закрыл все страницы, кроме полной новости)

 

Список закрытых страниц:

 

  • Страница добавления новости с сайта
  • Страница просмотра списка тегов
  • Страница формы обратной связи
  • Страницы закладок пользователей
  • Страница просмотра всех последних комментариев на сайте, в т.ч. комментариев отдельного пользователя
  • Страница просмотра всех последних новостей
  • Страница восстановления пароля
  • Страницы личных сообщений пользователей
  • Страница регистрации нового пользователя
  • Страница правил сайта Страница статистики сайта
  • Страница поиска и результатов поиска
  • Все статические страницы Просмотр новостей по тегу
  • Просмотр новостей новостей по доп. полям
  • Просмотр всех новостей пользователя
  • Просмотр непрочитанных новостей для пользователя
  • Просмотр архива новостей за год/месяц/день. Заменяет собой сразу все три следующие строки
  • Просмотр профиля пользователя
  • Просмотр архива новостей за год
  • Просмотр архива новостей за месяц
  • Просмотр архива новостей за день
  • Любые страницы пагинации
  • Страницы пагинации для главной страницы
  • Страницы пагинации только для категорий
  • Просмотр любой категории
  • Просмотр каталога по буквенному идентификатору

Понятно, что большинство этих страниц относится только к dle ну в целом смысл их значения понятен. От сюда вопрос, это не перебор? Может  все же не обязательно закрывать весь этот список? Интересно мнение знатоков)

 

P.S. Хотел список хальдом или оффтопиком выложить, ну там каша получается... не сохраняет столбиком.


 

 

  • 0


#2 ShowPrint

ShowPrint
  • Пользователь PRO
  • 1 729 сообщений
  • Репутация: 409

Отправлено 17 Август 2016 - 23:47

@magnet, я не совсем знаток, но по описанию страниц - правильно. Лично у меня спорные чувства вызывают страницы пагинации главной(или)категорий - исходя из логического анализа:

Просто если новости старые, то думаю что всё равно должен быть открытый путь по которым бот мог бы добраться с главной страницы до конкретной новости, как минимум чтоб посмотреть на наличие изменений на ней, и что она (страница) на месте и никуда не делась.

Если предположить что в какую-то категорию добавились в течение пары часов 20-30 новостей и ПС не смогла их проиндексить "на лету". Получается что новости которые ушли на страницу пагинации никогда не будут проиндексированы. Нелогично как-то...

 

Повторюсь - я не совсем знаток. Если бы я стоял перед выбором, то закрыл бы все страницы пагинации для главной страницы, а пагинацию для категорий оставил бы открытой для ботов, то есть не закрывал бы их.

 

Надеюсь гуру меня поправят, если я ошибаюсь. Допускаю, т.к. не знаком со структурой cms - может быть в них есть какой-то обходной путь для того чтоб добраться до полных новостей...

Понятно что можно через карту сайта, но это тоже как-то не совсем правильно (имхо)


  • 0
MasterWEBS: третий дом - моё хобби и увлечение... Второй дом: работа - не меньше 12 часов в день...
Первый дом - под охраной: "Осторожно - злая жена!" (дрессировалась долго и надёжно) /*ссылку не просите - не дам!*/


#3 fedornabilkin

fedornabilkin
  • Пользователь
  • 696 сообщений
  • Репутация: 91

Отправлено 18 Август 2016 - 10:10

Я бы не спешил закрывать так много страниц. Обычно стоит закрыть служебные страницы типа логина и регистрации. Все остальные страницы по сути и создаются для скорейшей индексации новых страниц и перелинковки, поэтому смысл от них, если они закрыты?

Также эти страницы надо прописать в карте сайта и указать период их обновления.

Я бы оставил только эти страницы в роботсе, а с другими более тщательно поработал.

11000805.png


Сообщение отредактировал fedornabilkin: 18 Август 2016 - 10:11

  • 1
Как часто в горестной разлуке,В моей блуждающей судьбе, ФО, я думал о тебе.


#4 magnet

magnet
    Topic Starter
  • Пользователь PRO
  • 1 128 сообщений
  • Репутация: 155

Отправлено 18 Август 2016 - 13:18

Получается что новости которые ушли на страницу пагинации никогда не будут проиндексированы. Нелогично как-то...

 

Так полная новость доступна для индексации, разве бот идет до неё через всю категорию и постранично?

 

@fedornabilkin, А как же архивы и теги, дубли получаются полным ходом?


  • 0


#5 fedornabilkin

fedornabilkin
  • Пользователь
  • 696 сообщений
  • Репутация: 91

Отправлено 18 Август 2016 - 13:25

Так полная новость доступна для индексации, разве бот идет до неё через всю категорию и постранично?

Уровень вложенности решает. Ув2 = 1 клик от главной - это самая хорошая страница, потому что она ближе к боту, ближе к людям.

Ув2 предоставит свой материал быстрее, чем ув3 и т.д.

Многие часто используют на главной странице пиксельные карты. Человеку неудобной ей пользоваться, а бот хорошо ходит по ссылкам.

А как же архивы и теги, дубли получаются полным ходом?

Я бы хотел пример дублей.


  • 1
Как часто в горестной разлуке,В моей блуждающей судьбе, ФО, я думал о тебе.


#6 ShowPrint

ShowPrint
  • Пользователь PRO
  • 1 729 сообщений
  • Репутация: 409

Отправлено 18 Август 2016 - 13:32

разве бот идет до неё через всю категорию
А если  возникнет ситуация:

Если предположить что в какую-то категорию добавились в течение пары часов 20-30 новостей и ПС не смогла их проиндексить "на лету". Получается что новости которые ушли на страницу пагинации никогда не будут проиндексированы. Нелогично как-то...

 

Как по твоему бот узнает урлы? Только по цепочке ссылкок от морда сайта. Потом - да, возможно он может брать урл из индекса, но я придерживаюсь мнения что должна быть открыта хоть одна "цепочка ссылок" от главной к странице с полной новостью. Совсем "разрывать связь" как-то неправильно.

 

В остальном, как сказал @fedornabilkin, вопрос уровня вложенности, оказывающего влияние на ранжирование.


  • 0
MasterWEBS: третий дом - моё хобби и увлечение... Второй дом: работа - не меньше 12 часов в день...
Первый дом - под охраной: "Осторожно - злая жена!" (дрессировалась долго и надёжно) /*ссылку не просите - не дам!*/


#7 magnet

magnet
    Topic Starter
  • Пользователь PRO
  • 1 128 сообщений
  • Репутация: 155

Отправлено 18 Август 2016 - 13:49

@ShowPrint, @fedornabilkin, А значит я пошел по беспределу) Ну хотел я сделать революцию, все мои планы в миг разрушили)

 

Последую вашим советам и сделаю запрет по выше приведенному примеру и после буду анализировать.

 

Раз уж начал я эту тему, тогда в придачу для полной картинки, хотел бы так же узнать мнение по robots.txt.  Я до сих пор для себя не определил, какой он должен быть... Сколько не читал про него, столько мнений, у всех своя правда, ну конечно все индивидуально, хотя и в индивидуальных случаях всегда разногласия.

 

Собственно, мы определились, какие страницы нужно закрыть. В таком случае, я оставляю robots по сути так:

 

User-agent: *
Disallow: /engine/
Host: сайт
Sitemap: http://сайт/


  • 0


#8 ShowPrint

ShowPrint
  • Пользователь PRO
  • 1 729 сообщений
  • Репутация: 409

Отправлено 18 Август 2016 - 14:01

@magnet, я у себя разделяю robots.txt на "Y" и "*"...

 

В этом виде как ты написал в G закрытые страницы (если они уже проиндексированы) навсегда повиснут в соплях.

Выкинуть из соплей Гугля проиндексированые страницы можно только указывая noindex в meta-robots или отправляя заголовок через htaccess.

 

Тут на форуме проплывала как-то тема, там чела обозвали "умником", а я задолбавшись утирать сопли решил что "попитка - не питка, правда товарищ Берия?" (с). Сделал себе - не моментально, но через какое-то время все сопли убрались.

 

Если не найдешь тему самостоятельно, а желание будет - маякни, я на досуге найду.


  • 0
MasterWEBS: третий дом - моё хобби и увлечение... Второй дом: работа - не меньше 12 часов в день...
Первый дом - под охраной: "Осторожно - злая жена!" (дрессировалась долго и надёжно) /*ссылку не просите - не дам!*/


#9 fedornabilkin

fedornabilkin
  • Пользователь
  • 696 сообщений
  • Репутация: 91

Отправлено 18 Август 2016 - 14:03

На всякий случай можно сначала все открыть. У меня в основном такие роботсы

User-Agent: *
Allow: /
Disallow: /template
Disallow: /engine
Disallow: /uploads
Disallow: /registration/
Disallow: /login/
Disallow: /passrec/
Disallow: /temp
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

  • 0
Как часто в горестной разлуке,В моей блуждающей судьбе, ФО, я думал о тебе.


robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85


Оформление форума – IPBSkins.ru