Перейти к содержимому


× Быстрый вопрос
Пользователь месяца
ShowPrint ShowPrint 1-й за Март
Очков активности: 1 152 1 тема, 61 сообщение, 12 баллов репутации
Сайт: ShowPrint.ru
ТОП самых активных за этот месяц
  • Фотография Андрей WPMasterKZ
    #1

    Андрей WPMasterKZ (wpmaster.kz)
    Очков активности: 1008 Вне конкурса за определение пользователя месяца

  • Фотография OlgaGetman
    #2

    OlgaGetman
    Очков активности: 564 Вне конкурса за определение пользователя месяца

  • Фотография Vmir
    #3

    Vmir
    Очков активности: 528 4 темы, 32 сообщения, 8 баллов репутации

  • Фотография Mandarin
    #4

    Mandarin
    Очков активности: 306 10 тем, 21 сообщение, 4 балла репутации

  • Фотография ShowPrint
    #5

    ShowPrint (ShowPrint.ru)
    Очков активности: 204 Вне конкурса за определение пользователя месяца

  • Фотография maxnik
    #6

    maxnik (konovalovpavel.ru)
    Очков активности: 72 1 тема, 21 сообщение, 2 балла репутации

  • Фотография pozitron123
    #7

    pozitron123
    Очков активности: 67.5 3 темы, 6 сообщений, 3 балла репутации

  • Фотография Megoydagi
    #8

    Megoydagi (24ho.ru)
    Очков активности: 66 1 тема, 19 сообщений, 2 балла репутации

  • Фотография re-search
    #9

    re-search
    Очков активности: 49.5 7 тем, 12 сообщений, 1 балл репутации

  • Фотография Constantine
    #10

    Constantine
    Очков активности: 39 4 темы, 14 сообщений, 1 балл репутации

  • Показать весь ТОП 10
Поддержите форум! =)
Апдейты
  • Яндекс ИКС: 20.04.2019
  • Яндекс выдача: 24.04.2019
Топ 5 участников по репутации


Сборщик новостей с rss

#1 Xap

Xap
  • Неактивные
  • 1 520 сообщений
  • Репутация: 0
0

Отправлено 02 Октябрь 2008 - 18:58

Вообщем что хочу спросить. Мне нужны новости с разных порталов чтобы собирались в одном месте. Понимаю, что это можно сделать с помощью rss.
Примерный список сайтов, с которых я планирую брать новости есть. Мне нужно где-то их собирать, чтобы после небольшого анализа прорерайтить и пустить себе на сайт. Нужно чтобы скрипт собирал с определенных сайтов новости с определенными ключевиками (на некоторых без этого фильтра собирал все поголовно новости) я их просматривал (некоторые удалял, другие добавлял, третьи рерайтил и использовал по своему назначению) и потом весь отобранный материал добавлял на сайт с ссылками на источник через редирект. А еще: сайт на Joomla. У меня вопрос - есть ли такой модуль или компонент (хотя скорее всего нет). С помощью каких средств этот модуль можно сделать? И если я буду заказывать его у мастера во сколько мне это может обойтись? И вообще по какому механизму это может работать, может возможно обойтись какими-то стандартными средствами?

 

 

  • 0

#2 Galeodor

Galeodor
  • Неактивные
  • 1 172 сообщений
  • Репутация: 2

Отправлено 02 Октябрь 2008 - 19:23

на WordPresse есть такой плагин если что.А вообще вы владете каким нибдь языками програмирования?Можно на VBasic на писать.
  • 0

#3 Xap

Xap
    Topic Starter
  • Неактивные
  • 1 520 сообщений
  • Репутация: 0

Отправлено 02 Октябрь 2008 - 19:43

Если бы владел то и не спрашивал. На форуме что-то было, но оно только тырит контент сайтов и автоматически размещает на сайте.
  • 0

#4 Galeodor

Galeodor
  • Неактивные
  • 1 172 сообщений
  • Репутация: 2

Отправлено 02 Октябрь 2008 - 21:35

а вам что нужно ?
Прорерайтить никак нельзя. Только от синонимить. Но быстро палиться это =)
Или вам просто нужен сборшик, а выкладывать он сам будет?
  • 0

#5 Xap

Xap
    Topic Starter
  • Неактивные
  • 1 520 сообщений
  • Репутация: 0

Отправлено 02 Октябрь 2008 - 22:22

Мне нужно, чтобы этот компонент собирал rss с определенных сайтов (с части сайтов все новости, с других только по определенным ключевым словам) и популярных новостных систем (lenta.ru ... и т.п. ... тот же Яндекс.Новости) по определенным ключевым словам (то есть находит в новости слово, включенное мной в список, и переводит новость мне).
Рерайтить мне новость не надо ее я буду сам рерайтить или видоизменять каким-либо образом. Мне эти все новости надо собирать в одном месте, чтобы я их просматривал: часть одобрял, другую часть немного видиозменял и все это что получилось на сайт (CMS Joomla) выводил как новости с указанием источника, но в виде редиректа.
  • 0

#6 Xap

Xap
    Topic Starter
  • Неактивные
  • 1 520 сообщений
  • Репутация: 0

Отправлено 03 Октябрь 2008 - 18:59

Если я объяснил недостаточно доходчиво, то скажите как разложу еще более подробно (хотя куда уже).
  • 0

#7 Galeodor

Galeodor
  • Неактивные
  • 1 172 сообщений
  • Репутация: 2

Отправлено 03 Октябрь 2008 - 19:54

нет. такого я не знаю....есть только вариант со стоп словами...но ИМХО не подходит
  • 0

#8 ZiTosS

ZiTosS
  • Неактивные
  • 5 148 сообщений
  • Репутация: 8

Отправлено 03 Октябрь 2008 - 20:36

Честно сказать, тут не такая простая задача... Вам надо грабить rss потоки с ресурсов, но не кто не обещал, что технология RSS в них одна и таже, где-то может быть 1.0, где-то 2.0
Тут уж под определённые сайты свой граббер, ну или целый класс писать под несколько сайтов.
А уж грабнутый XML не сложно разложить по полочкам. Тут главное написать граббер.
Цена может варироваться в зависимости от количества сайтов с которых вы хотите грабить. А так примерно не менее 40$
  • 0

#9 Xap

Xap
    Topic Starter
  • Неактивные
  • 1 520 сообщений
  • Репутация: 0

Отправлено 03 Октябрь 2008 - 22:05

А если граббер только под одну технологию rss (подобрать ресурсы со схожими технологиями). Меня например интересует rian.ru lenta.ru (с тематическими сайтами пока не определился).
  • 0

#10 ZiTosS

ZiTosS
  • Неактивные
  • 5 148 сообщений
  • Репутация: 8

Отправлено 04 Октябрь 2008 - 00:56

Посмотрел на rian.ru и не нашёл у них возможности rss-потока. Если я не прав, дайте пожалуйста ссылочку. Если RSS у них нет,Я то придётся писать граббер, но он точно уже не будет под несколько сайтов, только именно под этот.

На lenta.ru нашёл RSS, но если чесно, то немного не такой как ожидал http://img.lenta.ru/r/EX/import.rss
Вообщем тут нужно писать специализированный граббер. Денег это бдует стоить не мало!
  • 0

#11 Xap

Xap
    Topic Starter
  • Неактивные
  • 1 520 сообщений
  • Репутация: 0

Отправлено 04 Октябрь 2008 - 19:02

http://www.kavkazweb...ws.cgi?nid=0108
Мне вообще-то нужно что-то вроде вышеуказанного.

А в rian.ru нашел что-то: http://rian.ru/docs/about/rss.html
  • 0

#12 ZiTosS

ZiTosS
  • Неактивные
  • 5 148 сообщений
  • Репутация: 8

Отправлено 05 Октябрь 2008 - 10:26

Хех с rian.ru тут проблемы в том что они не предоставляют импорт прямого RSS файла.

А вот для Lenta.ru я нашёл алгоритм
1) Идём по ссылке http://img.lenta.ru/r/EX/import.rss
2) Бирём к примеру ссылку на первую новость в списке http://lenta.ru/news...0/05/protester/
Добавляем к ней _Printed.htm и получаем версию для печати
http://lenta.ru/news...er/_Printed.htm Которую разобрать уже намного легче, да и ссылка на картинку там также присутствует...
3) В версии для печати воспользоваться граббером не так уж и сложна.

Вот и весь алгоритм :)
  • 0

#13 Xap

Xap
    Topic Starter
  • Неактивные
  • 1 520 сообщений
  • Репутация: 0

Отправлено 05 Октябрь 2008 - 10:50

Я вообщем-то нашел граббер для Joomla (лучший, да и в принципе единственный для Joomla) News Grabber JС Вот только это чудо стоит 2500 рублей. Может у кого уже стоит, поделитесь плиз там лицензия на 5 доменов.

ZiTosS а как сделать, чтобы граббер весь алгоритм проделывал сам?
  • 0

#14 ZiTosS

ZiTosS
  • Неактивные
  • 5 148 сообщений
  • Репутация: 8

Отправлено 05 Октябрь 2008 - 16:35

Есть такое чудо в PHP, как соккеты. С помощью них можно изменять или передавать свои заголовки странице... К примеру формировать тот же самый POST массив и отсылать помимо нажатия кнопки submit
Вот ту есть пара функций по соккетам http://ru.php.net/ma...p?pattern=socet
А вот функция, которая подсоединяется к URL
http://ru.php.net/ma...n.fsockopen.php

Хотя в нашем случае это можно сделать намного проще...
1) считываем _http://img.lenta.ru/r/EX/import.rss с помощью file_get_contents()
2) С помощью функции preg_match() разбираем получнное по <items>.
3) Затем с помощью того же preg_match, разбираем в цикле и вытаскиваем то, что находится между <link> и </link> + сразу же добавляем к этому _Printed.htm
4) Затем в цикле также обрабатываем ссылки с помощью file_get_contents()
5) Далее в цикле вытаскиваем заголовок(Находится между H3) и текст.


Там довольно всё непросто устроенно :)
  • 0

#15 Xap

Xap
    Topic Starter
  • Неактивные
  • 1 520 сообщений
  • Репутация: 0

Отправлено 05 Октябрь 2008 - 19:37

Вообщем мне теперь стало ясно, что самому все это не сделать. Буду искать людей которые будут покупать лицензию News Grabber JС для Joomla. Все равно огромное спасибо. Может если освою язык, буду пробывать предложенные Вами советы.
  • 0

robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85

Оформление форума – IPBSkins.ru