Перейти к содержимому


Пользователь месяца
magnet magnet 1-й за Январь
Очков активности: 621 0 тем, 69 сообщений, 6 баллов репутации
Сайт: rbfxdirect.com
ТОП самых активных за этот месяц
  • Фотография BLIK
    #1

    BLIK
    Очков активности: 472.5 0 тем, 35 сообщений, 9 баллов репутации

  • Фотография Андрей WPMasterKZ
    #2

    Андрей WPMasterKZ (wpmaster.kz)
    Очков активности: 420 Вне конкурса за определение пользователя месяца

  • Фотография ShowPrint
    #3

    ShowPrint (ShowPrint.ru)
    Очков активности: 396 Вне конкурса за определение пользователя месяца

  • Фотография OlgaGetman
    #4

    OlgaGetman
    Очков активности: 393 Вне конкурса за определение пользователя месяца

  • Фотография Ixman
    #5

    Ixman (o5cat.ru)
    Очков активности: 315 Вне конкурса за определение пользователя месяца

  • Фотография Mandarin
    #6

    Mandarin
    Очков активности: 210 0 тем, 28 сообщений, 5 баллов репутации

  • Фотография r0mZet
    #7

    r0mZet (rz-style.ru)
    Очков активности: 102 0 тем, 17 сообщений, 4 балла репутации

  • Фотография magnet
    #8

    magnet (rbfxdirect.com)
    Очков активности: 43.5 Вне конкурса за определение пользователя месяца

  • Фотография WGN
    #9

    WGN (worldgamenews.com)
    Очков активности: 40.5 0 тем, 27 сообщений, 1 балл репутации

  • Фотография player09
    #10

    player09
    Очков активности: 37.5 3 темы, 16 сообщений, 1 балл репутации

  • Показать весь ТОП 10

Новый Teasernet

Поддержите форум! =)
Апдейты
  • Яндекс ИКС: 25.12.2018
  • Яндекс выдача: 19.02.2019
Топ 5 участников по репутации


Сборщик новостей с rss

#1 Xap

Xap
  • Неактивные
  • 1520 сообщений
  • Репутация: 0
0

Отправлено 02 October 2008 - 18:58

Вообщем что хочу спросить. Мне нужны новости с разных порталов чтобы собирались в одном месте. Понимаю, что это можно сделать с помощью rss.
Примерный список сайтов, с которых я планирую брать новости есть. Мне нужно где-то их собирать, чтобы после небольшого анализа прорерайтить и пустить себе на сайт. Нужно чтобы скрипт собирал с определенных сайтов новости с определенными ключевиками (на некоторых без этого фильтра собирал все поголовно новости) я их просматривал (некоторые удалял, другие добавлял, третьи рерайтил и использовал по своему назначению) и потом весь отобранный материал добавлял на сайт с ссылками на источник через редирект. А еще: сайт на Joomla. У меня вопрос - есть ли такой модуль или компонент (хотя скорее всего нет). С помощью каких средств этот модуль можно сделать? И если я буду заказывать его у мастера во сколько мне это может обойтись? И вообще по какому механизму это может работать, может возможно обойтись какими-то стандартными средствами?

 

 

  • 0

#2 Galeodor

Galeodor
  • Неактивные
  • 1172 сообщений
  • Репутация: 2

Отправлено 02 October 2008 - 19:23

на WordPresse есть такой плагин если что.А вообще вы владете каким нибдь языками програмирования?Можно на VBasic на писать.
  • 0

#3 Xap

Xap
    Topic Starter
  • Неактивные
  • 1520 сообщений
  • Репутация: 0

Отправлено 02 October 2008 - 19:43

Если бы владел то и не спрашивал. На форуме что-то было, но оно только тырит контент сайтов и автоматически размещает на сайте.
  • 0

#4 Galeodor

Galeodor
  • Неактивные
  • 1172 сообщений
  • Репутация: 2

Отправлено 02 October 2008 - 21:35

а вам что нужно ?
Прорерайтить никак нельзя. Только от синонимить. Но быстро палиться это =)
Или вам просто нужен сборшик, а выкладывать он сам будет?
  • 0

#5 Xap

Xap
    Topic Starter
  • Неактивные
  • 1520 сообщений
  • Репутация: 0

Отправлено 02 October 2008 - 22:22

Мне нужно, чтобы этот компонент собирал rss с определенных сайтов (с части сайтов все новости, с других только по определенным ключевым словам) и популярных новостных систем (lenta.ru ... и т.п. ... тот же Яндекс.Новости) по определенным ключевым словам (то есть находит в новости слово, включенное мной в список, и переводит новость мне).
Рерайтить мне новость не надо ее я буду сам рерайтить или видоизменять каким-либо образом. Мне эти все новости надо собирать в одном месте, чтобы я их просматривал: часть одобрял, другую часть немного видиозменял и все это что получилось на сайт (CMS Joomla) выводил как новости с указанием источника, но в виде редиректа.
  • 0

#6 Xap

Xap
    Topic Starter
  • Неактивные
  • 1520 сообщений
  • Репутация: 0

Отправлено 03 October 2008 - 18:59

Если я объяснил недостаточно доходчиво, то скажите как разложу еще более подробно (хотя куда уже).
  • 0

#7 Galeodor

Galeodor
  • Неактивные
  • 1172 сообщений
  • Репутация: 2

Отправлено 03 October 2008 - 19:54

нет. такого я не знаю....есть только вариант со стоп словами...но ИМХО не подходит
  • 0

#8 ZiTosS

ZiTosS
  • Неактивные
  • 5148 сообщений
  • Репутация: 8

Отправлено 03 October 2008 - 20:36

Честно сказать, тут не такая простая задача... Вам надо грабить rss потоки с ресурсов, но не кто не обещал, что технология RSS в них одна и таже, где-то может быть 1.0, где-то 2.0
Тут уж под определённые сайты свой граббер, ну или целый класс писать под несколько сайтов.
А уж грабнутый XML не сложно разложить по полочкам. Тут главное написать граббер.
Цена может варироваться в зависимости от количества сайтов с которых вы хотите грабить. А так примерно не менее 40$
  • 0

#9 Xap

Xap
    Topic Starter
  • Неактивные
  • 1520 сообщений
  • Репутация: 0

Отправлено 03 October 2008 - 22:05

А если граббер только под одну технологию rss (подобрать ресурсы со схожими технологиями). Меня например интересует rian.ru lenta.ru (с тематическими сайтами пока не определился).
  • 0

#10 ZiTosS

ZiTosS
  • Неактивные
  • 5148 сообщений
  • Репутация: 8

Отправлено 04 October 2008 - 00:56

Посмотрел на rian.ru и не нашёл у них возможности rss-потока. Если я не прав, дайте пожалуйста ссылочку. Если RSS у них нет,Я то придётся писать граббер, но он точно уже не будет под несколько сайтов, только именно под этот.

На lenta.ru нашёл RSS, но если чесно, то немного не такой как ожидал http://img.lenta.ru/r/EX/import.rss
Вообщем тут нужно писать специализированный граббер. Денег это бдует стоить не мало!
  • 0

#11 Xap

Xap
    Topic Starter
  • Неактивные
  • 1520 сообщений
  • Репутация: 0

Отправлено 04 October 2008 - 19:02

http://www.kavkazweb...ws.cgi?nid=0108
Мне вообще-то нужно что-то вроде вышеуказанного.

А в rian.ru нашел что-то: http://rian.ru/docs/about/rss.html
  • 0

#12 ZiTosS

ZiTosS
  • Неактивные
  • 5148 сообщений
  • Репутация: 8

Отправлено 05 October 2008 - 10:26

Хех с rian.ru тут проблемы в том что они не предоставляют импорт прямого RSS файла.

А вот для Lenta.ru я нашёл алгоритм
1) Идём по ссылке http://img.lenta.ru/r/EX/import.rss
2) Бирём к примеру ссылку на первую новость в списке http://lenta.ru/news...0/05/protester/
Добавляем к ней _Printed.htm и получаем версию для печати
http://lenta.ru/news...er/_Printed.htm Которую разобрать уже намного легче, да и ссылка на картинку там также присутствует...
3) В версии для печати воспользоваться граббером не так уж и сложна.

Вот и весь алгоритм :)
  • 0

#13 Xap

Xap
    Topic Starter
  • Неактивные
  • 1520 сообщений
  • Репутация: 0

Отправлено 05 October 2008 - 10:50

Я вообщем-то нашел граббер для Joomla (лучший, да и в принципе единственный для Joomla) News Grabber JС Вот только это чудо стоит 2500 рублей. Может у кого уже стоит, поделитесь плиз там лицензия на 5 доменов.

ZiTosS а как сделать, чтобы граббер весь алгоритм проделывал сам?
  • 0

#14 ZiTosS

ZiTosS
  • Неактивные
  • 5148 сообщений
  • Репутация: 8

Отправлено 05 October 2008 - 16:35

Есть такое чудо в PHP, как соккеты. С помощью них можно изменять или передавать свои заголовки странице... К примеру формировать тот же самый POST массив и отсылать помимо нажатия кнопки submit
Вот ту есть пара функций по соккетам http://ru.php.net/ma...p?pattern=socet
А вот функция, которая подсоединяется к URL
http://ru.php.net/ma...n.fsockopen.php

Хотя в нашем случае это можно сделать намного проще...
1) считываем _http://img.lenta.ru/r/EX/import.rss с помощью file_get_contents()
2) С помощью функции preg_match() разбираем получнное по <items>.
3) Затем с помощью того же preg_match, разбираем в цикле и вытаскиваем то, что находится между <link> и </link> + сразу же добавляем к этому _Printed.htm
4) Затем в цикле также обрабатываем ссылки с помощью file_get_contents()
5) Далее в цикле вытаскиваем заголовок(Находится между H3) и текст.


Там довольно всё непросто устроенно :)
  • 0

#15 Xap

Xap
    Topic Starter
  • Неактивные
  • 1520 сообщений
  • Репутация: 0

Отправлено 05 October 2008 - 19:37

Вообщем мне теперь стало ясно, что самому все это не сделать. Буду искать людей которые будут покупать лицензию News Grabber JС для Joomla. Все равно огромное спасибо. Может если освою язык, буду пробывать предложенные Вами советы.
  • 0

robot

robot
  • Пользователь PRO
  • 2652 сообщений
  • Репутация: 85

Оформление форума – IPBSkins.ru