Перейти к содержимому


Партнерская программа Kredov

Скрипт по копированию контента

#1 Bazalt

Bazalt
  • Пользователь
  • 11 сообщений
  • Репутация: 0
0

Отправлено 30 Март 2009 - 21:15

Есть ли в природе скрипт по копированию новостей или статей с указанных заранее сайтов (ссылок)?

То есть вначале задается урл сайта на котором нужно скопировать например главную страницу и сохранить текст в отдельный файл в виде текста уже без мусорных тэгов. Может есть хотя бы наброски такого скрипта - доработаю сам.

 

 

  • 0

robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85
Советую обратить внимание на следующее:
  1. Копирование контента!?
  2. Нужен скрипт для сворачивания контента
  3. Копирование контента
  4. Поставил скрипт против копирования материалов. Как отнесутся к этому поисковики?
  5. Один из лучших скриптов для наполнения сайта видео контентом

#2 ZiTosS

ZiTosS
  • Пользователь
  • 5 148 сообщений
  • Репутация: 8

Отправлено 31 Март 2009 - 09:45

Вы поймите, что интелекта у языка нету, и анализировать что-то он может не по ощущениям, а только по строго заданным критериям и правилам. Поэтому под каждый парсер свой код понадобится (имею ввиду обработчик страницы).

А вообще чтобы скопировать код и убрать все мусорные теги, можно сделать так
1) Вытаскиваем со страницы контент в виде HTML с помощью file_get_contents()
2) Удаляем все ненужные теги с помощью функции strip_tags()
3) Сохраняем полученный текст в базу или файл... Всё :)
  • 0

#3 m0tti

m0tti
  • Пользователь
  • 343 сообщений
  • Репутация: 0

Отправлено 31 Март 2009 - 17:12

А потом еще первести на анлг и обратно и выложить с себе уникум.
Если такое существует мне оно надо.
  • 0

#4 ilyazh

ilyazh
  • Пользователь
  • 356 сообщений
  • Репутация: 1

Отправлено 31 Март 2009 - 17:27

Такое существует, но без перевода. Текст получается уникальным, но на столько дерьмовым, что его невозможно читать. Стоят такие фиговины от $50 и выше. Сайты с таким не читабельным текстом банятся пс.
з.ы. Нужен уник контент - только руки и голова помогут вам. Придётся сами всё писать или покупать у других людей.
Иначе, все бы делали сайты для сапы тонными, на халявном и уникальном контенте, и не работали бы вообще. =)
  • 0

#5 m0tti

m0tti
  • Пользователь
  • 343 сообщений
  • Репутация: 0

Отправлено 31 Март 2009 - 18:55

А как пс узнает что контент не читабельный, ведь самое главное слова.
Я бы на самом деле глянул результат такой фиговины и метод ее внедрения в автоматизацию.
  • 0

#6 admin

admin
  • Пользователь PRO
  • 5 272 сообщений
  • Репутация: 54

Отправлено 31 Март 2009 - 19:02

Саты с уникальным генерированным контентов сидят в индексе, но вылетают по стуку
  • 0

Сколько лет прошло, а ссылки всё ещё лучше покупать тут



#7 Bazalt

Bazalt
    Topic Starter
  • Пользователь
  • 11 сообщений
  • Репутация: 0

Отправлено 31 Март 2009 - 19:23

Я как раз и имел ввиду копирование html страницы и последующая его очистка от мусора.
  • 0

#8 kimer

kimer
  • Пользователь
  • 360 сообщений
  • Репутация: 1

Отправлено 31 Март 2009 - 20:04

Саты с уникальным генерированным контентов сидят в индексе, но вылетают по стуку

А если они всё равно под сапу сделаны - какая разница? Или у них ещё и тИЦ слетает?
И кстати говоря, что - для сапы нельзя использовать неуникальный контент? :)
  • 0

robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85


Оформление форума – IPBSkins.ru