X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

Открыть тему
Тема закрыта
> Правильный robots.txt
priest
priest
Topic Starter сообщение 18.8.2016, 0:13; Ответить: priest
Сообщение #1


Всем привет.

Решил я заглянуть в свое первое детище, до которого все не как не доходят руки, что бы вдохнуть в него жизнь. Сайте на движке dle и начал я с robots.txt

И собственно для меня было не удивлением, что я обнаружил дубли страниц и ко всему этому еще кучу не нужных страниц для индексации. Начал я гуглить и попал на блог Алаича. У него есть модуль для ленивых. Ну так же я нашел у него готовое решение, специально для dle, что меня вполне устроило.

Так вот я не стал ничего выдумывать и закрыл все страницы, кроме полной новости)

Список закрытых страниц:

  • Страница добавления новости с сайта

  • Страница просмотра списка тегов

  • Страница формы обратной связи

  • Страницы закладок пользователей

  • Страница просмотра всех последних комментариев на сайте, в т.ч. комментариев отдельного пользователя

  • Страница просмотра всех последних новостей

  • Страница восстановления пароля

  • Страницы личных сообщений пользователей

  • Страница регистрации нового пользователя

  • Страница правил сайта Страница статистики сайта

  • Страница поиска и результатов поиска

  • Все статические страницы Просмотр новостей по тегу

  • Просмотр новостей новостей по доп. полям

  • Просмотр всех новостей пользователя

  • Просмотр непрочитанных новостей для пользователя

  • Просмотр архива новостей за год/месяц/день. Заменяет собой сразу все три следующие строки

  • Просмотр профиля пользователя

  • Просмотр архива новостей за год

  • Просмотр архива новостей за месяц

  • Просмотр архива новостей за день

  • Любые страницы пагинации

  • Страницы пагинации для главной страницы

  • Страницы пагинации только для категорий

  • Просмотр любой категории

  • Просмотр каталога по буквенному идентификатору

Понятно, что большинство этих страниц относится только к dle ну в целом смысл их значения понятен. От сюда вопрос, это не перебор? Может  все же не обязательно закрывать весь этот список? Интересно мнение знатоков)

P.S. Хотел список хальдом или оффтопиком выложить, ну там каша получается... не сохраняет столбиком.


--------------------
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ShowPrint
ShowPrint
сообщение 18.8.2016, 0:47; Ответить: ShowPrint
Сообщение #2


magnet, я не совсем знаток, но по описанию страниц - правильно. Лично у меня спорные чувства вызывают страницы пагинации главной(или)категорий - исходя из логического анализа:
Просто если новости старые, то думаю что всё равно должен быть открытый путь по которым бот мог бы добраться с главной страницы до конкретной новости, как минимум чтоб посмотреть на наличие изменений на ней, и что она (страница) на месте и никуда не делась.
Если предположить что в какую-то категорию добавились в течение пары часов 20-30 новостей и ПС не смогла их проиндексить "на лету". Получается что новости которые ушли на страницу пагинации никогда не будут проиндексированы. Нелогично как-то...

Повторюсь - я не совсем знаток. Если бы я стоял перед выбором, то закрыл бы все страницы пагинации для главной страницы, а пагинацию для категорий оставил бы открытой для ботов, то есть не закрывал бы их.

Надеюсь гуру меня поправят, если я ошибаюсь. Допускаю, т.к. не знаком со структурой cms - может быть в них есть какой-то обходной путь для того чтоб добраться до полных новостей...
Понятно что можно через карту сайта, но это тоже как-то не совсем правильно (имхо)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
fedornabilkin
fedornabilkin
сообщение 18.8.2016, 11:10; Ответить: fedornabilkin
Сообщение #3


Я бы не спешил закрывать так много страниц. Обычно стоит закрыть служебные страницы типа логина и регистрации. Все остальные страницы по сути и создаются для скорейшей индексации новых страниц и перелинковки, поэтому смысл от них, если они закрыты?
Также эти страницы надо прописать в карте сайта и указать период их обновления.
Я бы оставил только эти страницы в роботсе, а с другими более тщательно поработал.
11000805.png


Сообщение отредактировал fedornabilkin - 18.8.2016, 11:11
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
priest
priest
Topic Starter сообщение 18.8.2016, 14:18; Ответить: priest
Сообщение #4


(ShowPrint @ 18.8.2016, 03:47) *
Получается что новости которые ушли на страницу пагинации никогда не будут проиндексированы. Нелогично как-то...


Так полная новость доступна для индексации, разве бот идет до неё через всю категорию и постранично?

fedornabilkin, А как же архивы и теги, дубли получаются полным ходом?


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
fedornabilkin
fedornabilkin
сообщение 18.8.2016, 14:25; Ответить: fedornabilkin
Сообщение #5


(magnet @ 18.8.2016, 17:18) *
Так полная новость доступна для индексации, разве бот идет до неё через всю категорию и постранично?

Уровень вложенности решает. Ув2 = 1 клик от главной - это самая хорошая страница, потому что она ближе к боту, ближе к людям.
Ув2 предоставит свой материал быстрее, чем ув3 и т.д.
Многие часто используют на главной странице пиксельные карты. Человеку неудобной ей пользоваться, а бот хорошо ходит по ссылкам.
(magnet @ 18.8.2016, 17:18) *
А как же архивы и теги, дубли получаются полным ходом?

Я бы хотел пример дублей.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ShowPrint
ShowPrint
сообщение 18.8.2016, 14:32; Ответить: ShowPrint
Сообщение #6


(magnet @ 18.8.2016, 17:18) *
разве бот идет до неё через всю категорию
А если  возникнет ситуация:
(ShowPrint @ 18.8.2016, 03:47) *
Если предположить что в какую-то категорию добавились в течение пары часов 20-30 новостей и ПС не смогла их проиндексить "на лету". Получается что новости которые ушли на страницу пагинации никогда не будут проиндексированы. Нелогично как-то...


Как по твоему бот узнает урлы? Только по цепочке ссылкок от морда сайта. Потом - да, возможно он может брать урл из индекса, но я придерживаюсь мнения что должна быть открыта хоть одна "цепочка ссылок" от главной к странице с полной новостью. Совсем "разрывать связь" как-то неправильно.

В остальном, как сказал fedornabilkin, вопрос уровня вложенности, оказывающего влияние на ранжирование.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
priest
priest
Topic Starter сообщение 18.8.2016, 14:49; Ответить: priest
Сообщение #7


ShowPrint, fedornabilkin, А значит я пошел по беспределу) Ну хотел я сделать революцию, все мои планы в миг разрушили)

Последую вашим советам и сделаю запрет по выше приведенному примеру и после буду анализировать.

Раз уж начал я эту тему, тогда в придачу для полной картинки, хотел бы так же узнать мнение по robots.txt.  Я до сих пор для себя не определил, какой он должен быть... Сколько не читал про него, столько мнений, у всех своя правда, ну конечно все индивидуально, хотя и в индивидуальных случаях всегда разногласия.

Собственно, мы определились, какие страницы нужно закрыть. В таком случае, я оставляю robots по сути так:

User-agent: *
Disallow: /engine/
Host: сайт
Sitemap: http://сайт/


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ShowPrint
ShowPrint
сообщение 18.8.2016, 15:01; Ответить: ShowPrint
Сообщение #8


magnet, я у себя разделяю robots.txt на "Y" и "*"...

В этом виде как ты написал в G закрытые страницы (если они уже проиндексированы) навсегда повиснут в соплях.
Выкинуть из соплей Гугля проиндексированые страницы можно только указывая noindex в meta-robots или отправляя заголовок через htaccess.

Тут на форуме проплывала как-то тема, там чела обозвали "умником", а я задолбавшись утирать сопли решил что "попитка - не питка, правда товарищ Берия?" (с). Сделал себе - не моментально, но через какое-то время все сопли убрались.

Если не найдешь тему самостоятельно, а желание будет - маякни, я на досуге найду.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
fedornabilkin
fedornabilkin
сообщение 18.8.2016, 15:03; Ответить: fedornabilkin
Сообщение #9


На всякий случай можно сначала все открыть. У меня в основном такие роботсы

User-Agent: *
Allow: /
Disallow: /template
Disallow: /engine
Disallow: /uploads
Disallow: /registration/
Disallow: /login/
Disallow: /passrec/
Disallow: /temp
Host: site.ru
Sitemap: http://site.ru/sitemap.xml


Замечание модератора:
Эта тема была закрыта автоматически ввиду отсутствия активности в ней на протяжении 100+ дней.
Если Вы считаете ее актуальной и хотите оставить сообщение, то воспользуйтесь кнопкой
или обратитесь к любому из модераторов.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Услуги по сбору новостей .txt для ваших сайтов, любые тематики + Отзывы
Импорт в DLE, WP (Xml, SQL) с отложенной публикацией под заказ
138 Akira 79045 12.8.2019, 21:28
автор: neonix
Открытая тема (нет новых ответов) Правильный аудит для вашего проекта!
Высокое качество, хорошая цена, без воды!
6 Salikov 3386 6.5.2019, 14:56
автор: Salikov
Открытая тема (нет новых ответов) Куплю места для размещения TXT+URL Строительная тематика.
7 regem 7641 28.3.2019, 18:31
автор: regem
Открытая тема (нет новых ответов) Как создавать правильный контент
4 Triniti_Wel_mw 1578 30.4.2017, 20:39
автор: pozitron123
Открытая тема (нет новых ответов) Срочно требуется специалист по robots.txt
Разовая работа
1 tankoff 2204 8.3.2017, 1:56
автор: PavelMarty


 



RSS Текстовая версия Сейчас: 19.4.2024, 19:24
Дизайн