Перейти к содержимому



Скрипт по копированию контента

#1

Поделиться сообщением #1



Bazalt

Bazalt
  • Неактивные
  • 11 сообщений
  • Репутация: 0
0

Отправлено 30 Март 2009 - 21:15

Есть ли в природе скрипт по копированию новостей или статей с указанных заранее сайтов (ссылок)?

То есть вначале задается урл сайта на котором нужно скопировать например главную страницу и сохранить текст в отдельный файл в виде текста уже без мусорных тэгов. Может есть хотя бы наброски такого скрипта - доработаю сам.

 

 

  • 0

robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85
Советую обратить внимание на следующее:
  1. Нужен скрипт для сворачивания контента
  2. Копирование контента
  3. Поставил скрипт против копирования материалов. Как отнесутся к этому поисковики?
  4. Один из лучших скриптов для наполнения сайта видео контентом
  5. Скрипт клонирования сайтов

#2

Поделиться сообщением #2



ZiTosS

ZiTosS
  • Неактивные
  • 5 148 сообщений
  • Репутация: 8

Отправлено 31 Март 2009 - 09:45

Вы поймите, что интелекта у языка нету, и анализировать что-то он может не по ощущениям, а только по строго заданным критериям и правилам. Поэтому под каждый парсер свой код понадобится (имею ввиду обработчик страницы).

А вообще чтобы скопировать код и убрать все мусорные теги, можно сделать так
1) Вытаскиваем со страницы контент в виде HTML с помощью file_get_contents()
2) Удаляем все ненужные теги с помощью функции strip_tags()
3) Сохраняем полученный текст в базу или файл... Всё :)
  • 0

#3

Поделиться сообщением #3



m0tti

m0tti
  • Неактивные
  • 343 сообщений
  • Репутация: 0

Отправлено 31 Март 2009 - 17:12

А потом еще первести на анлг и обратно и выложить с себе уникум.
Если такое существует мне оно надо.
  • 0

#4

Поделиться сообщением #4



ilyazh

ilyazh
  • Неактивные
  • 356 сообщений
  • Репутация: 1

Отправлено 31 Март 2009 - 17:27

Такое существует, но без перевода. Текст получается уникальным, но на столько дерьмовым, что его невозможно читать. Стоят такие фиговины от $50 и выше. Сайты с таким не читабельным текстом банятся пс.
з.ы. Нужен уник контент - только руки и голова помогут вам. Придётся сами всё писать или покупать у других людей.
Иначе, все бы делали сайты для сапы тонными, на халявном и уникальном контенте, и не работали бы вообще. =)
  • 0

#5

Поделиться сообщением #5



m0tti

m0tti
  • Неактивные
  • 343 сообщений
  • Репутация: 0

Отправлено 31 Март 2009 - 18:55

А как пс узнает что контент не читабельный, ведь самое главное слова.
Я бы на самом деле глянул результат такой фиговины и метод ее внедрения в автоматизацию.
  • 0

#6

Поделиться сообщением #6



admin

admin
  • Пользователь PRO
  • 5 275 сообщений
  • Репутация: 55

Отправлено 31 Март 2009 - 19:02

Саты с уникальным генерированным контентов сидят в индексе, но вылетают по стуку
  • 0

#7

Поделиться сообщением #7



Bazalt

Bazalt
    Topic Starter
  • Неактивные
  • 11 сообщений
  • Репутация: 0

Отправлено 31 Март 2009 - 19:23

Я как раз и имел ввиду копирование html страницы и последующая его очистка от мусора.
  • 0

#8

Поделиться сообщением #8



kimer

kimer
  • Пользователь
  • 360 сообщений
  • Репутация: 1

Отправлено 31 Март 2009 - 20:04

Саты с уникальным генерированным контентов сидят в индексе, но вылетают по стуку

А если они всё равно под сапу сделаны - какая разница? Или у них ещё и тИЦ слетает?
И кстати говоря, что - для сапы нельзя использовать неуникальный контент? :)
  • 0

robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85


Оформление форума – IPBSkins.ru