Перейти к содержимому


× Быстрый вопрос
Пользователь месяца
dos1k dos1k 1-й за Май
Очков активности: 1 194 28 тем, 115 сообщений, 4 балла репутации
Сайт: dos1k.ru
ТОП самых активных за этот месяц
  • Фотография Olya23
    #1

    Olya23
    Очков активности: 1278 3 темы, 133 сообщения, 6 баллов репутации

  • Фотография Rodiola
    #2

    Rodiola (rukodelkovo.ru)
    Очков активности: 693 0 тем, 77 сообщений, 6 баллов репутации

  • Фотография FIvYUr
    #3

    FIvYUr (catblogger.ru)
    Очков активности: 198 0 тем, 44 сообщения, 3 балла репутации

  • Фотография agrx
    #4

    agrx (key-assort.ru)
    Очков активности: 103.5 0 тем, 23 сообщения, 3 балла репутации

  • Фотография maxnik
    #5

    maxnik (konovalovpavel.ru)
    Очков активности: 99 0 тем, 22 сообщения, 3 балла репутации

  • Фотография fedornabilkin
    #6

    fedornabilkin (plohoneponyal.ru)
    Очков активности: 60 0 тем, 20 сообщений, 2 балла репутации

  • Фотография BLIK
    #7

    BLIK
    Очков активности: 54 Вне конкурса за определение пользователя месяца

  • Фотография re-search
    #8

    re-search
    Очков активности: 51 7 тем, 13 сообщений, 1 балл репутации

  • Фотография Artos
    #9

    Artos
    Очков активности: 45 0 тем, 10 сообщений, 3 балла репутации

  • Фотография Андрей WPMasterKZ
    #10

    Андрей WPMasterKZ (wpmaster.kz)
    Очков активности: 39 0 тем, 26 сообщений, 1 балл репутации

  • Показать весь ТОП 10
Поддержите форум! =)
Апдейты
  • Яндекс ИКС: 25.06.2019
  • Яндекс выдача: 24.06.2019
Топ 5 участников по репутации


Скрипт по копированию контента

#1 Bazalt

Bazalt
  • Неактивные
  • 11 сообщений
  • Репутация: 0
0

Отправлено 30 Март 2009 - 21:15

Есть ли в природе скрипт по копированию новостей или статей с указанных заранее сайтов (ссылок)?

То есть вначале задается урл сайта на котором нужно скопировать например главную страницу и сохранить текст в отдельный файл в виде текста уже без мусорных тэгов. Может есть хотя бы наброски такого скрипта - доработаю сам.

 

 

  • 0

#2 ZiTosS

ZiTosS
  • Неактивные
  • 5 148 сообщений
  • Репутация: 8

Отправлено 31 Март 2009 - 09:45

Вы поймите, что интелекта у языка нету, и анализировать что-то он может не по ощущениям, а только по строго заданным критериям и правилам. Поэтому под каждый парсер свой код понадобится (имею ввиду обработчик страницы).

А вообще чтобы скопировать код и убрать все мусорные теги, можно сделать так
1) Вытаскиваем со страницы контент в виде HTML с помощью file_get_contents()
2) Удаляем все ненужные теги с помощью функции strip_tags()
3) Сохраняем полученный текст в базу или файл... Всё :)
  • 0

#3 m0tti

m0tti
  • Неактивные
  • 343 сообщений
  • Репутация: 0

Отправлено 31 Март 2009 - 17:12

А потом еще первести на анлг и обратно и выложить с себе уникум.
Если такое существует мне оно надо.
  • 0

#4 ilyazh

ilyazh
  • Неактивные
  • 356 сообщений
  • Репутация: 1

Отправлено 31 Март 2009 - 17:27

Такое существует, но без перевода. Текст получается уникальным, но на столько дерьмовым, что его невозможно читать. Стоят такие фиговины от $50 и выше. Сайты с таким не читабельным текстом банятся пс.
з.ы. Нужен уник контент - только руки и голова помогут вам. Придётся сами всё писать или покупать у других людей.
Иначе, все бы делали сайты для сапы тонными, на халявном и уникальном контенте, и не работали бы вообще. =)
  • 0

#5 m0tti

m0tti
  • Неактивные
  • 343 сообщений
  • Репутация: 0

Отправлено 31 Март 2009 - 18:55

А как пс узнает что контент не читабельный, ведь самое главное слова.
Я бы на самом деле глянул результат такой фиговины и метод ее внедрения в автоматизацию.
  • 0

#6 admin

admin
  • Пользователь PRO
  • 5 275 сообщений
  • Репутация: 56

Отправлено 31 Март 2009 - 19:02

Саты с уникальным генерированным контентов сидят в индексе, но вылетают по стуку
  • 0

#7 Bazalt

Bazalt
    Topic Starter
  • Неактивные
  • 11 сообщений
  • Репутация: 0

Отправлено 31 Март 2009 - 19:23

Я как раз и имел ввиду копирование html страницы и последующая его очистка от мусора.
  • 0

#8 kimer

kimer
  • Неактивные
  • 360 сообщений
  • Репутация: 1

Отправлено 31 Март 2009 - 20:04

Саты с уникальным генерированным контентов сидят в индексе, но вылетают по стуку

А если они всё равно под сапу сделаны - какая разница? Или у них ещё и тИЦ слетает?
И кстати говоря, что - для сапы нельзя использовать неуникальный контент? :)
  • 0

robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85


Похожие темы

  Название темы Автор Статистика Последнее сообщение

Оформление форума – IPBSkins.ru