Перейти к содержимому

Сервис обмена электронных валют

Выбрать шаблон и создать сайт

Не могу написать скрипт индексатора

#1 Arukard1

Arukard1
  • Пользователь
  • 193 сообщений
  • Репутация: 0
0

Отправлено 24 Март 2009 - 00:28

Всем привет, у меня вот идея возникла написать скрипт поиска
Вроде всё сделал, но не как не могу написать скрипт индексатора!

Не мог бы кто помочь? как сделать илиминтарно чтоб бот заходил на страницу и удаляя не нужные тэги добавлял её в БД ( индекс )

структура примерно такая - ID | text_page | url | ну или ID | text_page | url | title |

или может кто в инете нашол статью как пишут скрипт поиска по сайту? киньте ссылку плизз

Заранее сспасибо

 

 

  • 0

#2 ZiTosS

ZiTosS
  • Пользователь
  • 5 148 сообщений
  • Репутация: 8

Отправлено 24 Март 2009 - 00:54

Напишу алгоритм
1) С помощью функции file_get_contents() считываем страницу в строку
2) Есть такое понятие как регулярные выражения для поиска и вытаскивания совпадений, нашёл занёс
text_page вообще можно запросто сделать есть такая функция как strip_tags(), удаляет все теги и оставляет контент
title с помощью регулярок не сложно вытащить.
3) Занести в базу не составит труда
  • 0

#3 Arukard1

Arukard1
    Topic Starter
  • Пользователь
  • 193 сообщений
  • Репутация: 0

Отправлено 24 Март 2009 - 01:16

Спасибо, по пробую написать так

з.ы. что получится потом выложу
  • 0

#4 ZiTosS

ZiTosS
  • Пользователь
  • 5 148 сообщений
  • Репутация: 8

Отправлено 27 Март 2009 - 07:36

Ну как успехи в написании?
  • 0

#5 Arukard1

Arukard1
    Topic Starter
  • Пользователь
  • 193 сообщений
  • Репутация: 0

Отправлено 29 Март 2009 - 23:52

Да, есть )) правда хавает всю страницу пока что ) и не убирает лишнее :)
Но это только первая версия бота будет :)
  • 0

#6 ZiTosS

ZiTosS
  • Пользователь
  • 5 148 сообщений
  • Репутация: 8

Отправлено 30 Март 2009 - 19:56

Ты главное не накручивай, пытайся сделать как можно легче и оптимизированее. Понятно дело что между < и > искать не стоит, можно просто вырезать лишнее с помощью strip_tags(). Затем, чтобы правильно организовать поиск, стоит почтитать про регулярки.
Некоторые спецификаторы в регулярных выражениях жрут очень много ресурсов. Надо стараться уменьшить напряги сервера.

А вообще на PHP нормальные поисковики не пишут... Всё проблема в том, что у php нет компилятора, он сам является интерпритатором, что уменьшает скорость его работы.
  • 0

#7 Arukard1

Arukard1
    Topic Starter
  • Пользователь
  • 193 сообщений
  • Репутация: 0

Отправлено 30 Март 2009 - 20:44

ну яж не поисковый сервер пишу )
Этот робот будет работать на нескольких сайтах, а не по всему ру-нету ползать
так что по пробовать можно :)
  • 0


Оформление форума – IPBSkins.ru