Перейти к содержимому


Партнерская программа HomeWork

  • Закрытая тема Тема закрыта

Удаление дублей текстовом файле-списке

#1 admin

admin
  • Пользователь PRO
  • 5 275 сообщений
  • Репутация: 55
0

Отправлено 30 Декабрь 2010 - 12:28

Будьте добры, люди добрые, подскажите ;)
Есть текстовый файл, в котором много-много тысяч строк. Одни строка = один поисковой запросы. Запросы повторяются, поэтому нужно удалить эти дубликаты. Подскажите, чем бы на аватомате с этим справиться?
Зараннее благодарен.

Мне ужно сперва дочистить базу от правой колонки, тут бы тоже хотелось автоматизировать, потому что 15 тысяч запросов ручками образатывать долго очень. Вообщем структура примерно такова:

заработок в интернете,	N/A	414	
реальный заработок в интернете,	N/A	429	
как заработать в сети,	N/A	117	
как бесплатно поднять тиц?	N/A	249	
сайт о заработке в сети интернет	N/A	130	249
заработать в сети,	N/A	22	
заработать на интернете,	N/A	911	
реальный заработок в сети,	N/A	221

Вот нужно оставить только одни запросы. Есть у кого какие идеи? Пожно хотя бы на полуавтомате ;)

P.S. Предыдущий топик удалил, опять глюк был с отображением кода. По-идее он возникает при подсветке кода django. Разберёмся ;)
Kismedia, спасибо за предоставленную ссылку в прошлом топике!

 

 

  • 0

robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85
Советую обратить внимание на следующее:
  1. Запрет на индексацию страниц сайта и отдельных частей контента
  2. Вопрос дублированный контент или нет?
  3. Как быстро яндекс замечает, что текст на странице сайта поменялся?
  4. Как удалить дубли страниц на Joomla
  5. Удалить дубли страниц

#2 surfer

surfer
  • Заблокированные
  • 1 956 сообщений
  • Репутация: 71

Отправлено 30 Декабрь 2010 - 14:19

ну так сделай скрипт и удали, тему надо в php постить, это вполне решаемая задача.
читаются данные из файла в массив
удаляются дублирующиеся записи
задача из 2-х шагов, хорошая для тебя практика в php ;)
подсказка все решается встроенными функциями.
  • 0

#3 ZiTosS

ZiTosS
  • Пользователь
  • 5 148 сообщений
  • Репутация: 8

Отправлено 30 Декабрь 2010 - 18:27

admin, так, вопрос. Строки то у тебя полностью совпадают? Или же только запросы?
  • 0

#4 admin

admin
    Topic Starter
  • Пользователь PRO
  • 5 275 сообщений
  • Репутация: 55

Отправлено 30 Декабрь 2010 - 20:23

ZiTosS, совпадают только запросы. Строки разные, потому что запросы брались из статистики более чем 100 сайтов. Понятное дело, что для одной тематики запросы попадались одинаковые, некоторые даже очень часто. Но а позиции разных сайтов в поисковиках явно разные.

surfer, спасибо, я что-то даже не подумал вобще, что всё можно на PHP реализовать. Как-то по привычке в экселе начал или ручками ;) Как только прочитал твоё сообщение, примерно представил как решить задачу. Спасибо за намёк!
  • 0

#5 ZiTosS

ZiTosS
  • Пользователь
  • 5 148 сообщений
  • Репутация: 8

Отправлено 30 Декабрь 2010 - 23:39

admin, тогда решай на PHP. Разбирай строки и помещай в массив. Затем простым фильтром прогоняй массив и убирай дубли.
  • 0

#6 Игорян

Игорян
  • Пользователь
  • 296 сообщений
  • Репутация: 10

Отправлено 10 Март 2011 - 09:25

вот это дело -> N/A 221 можно косануть через простой блотнот, Ctrl + H заменяем N/A 221 на пробел :rolleyes:
  • 0


Оформление форума – IPBSkins.ru