Перейти к содержимому



  • Закрытая тема Тема закрыта

Удаление дублей текстовом файле-списке

#1

Поделиться сообщением #1



admin

admin
  • Пользователь PRO
  • 5 275 сообщений
  • Репутация: 55
0

Отправлено 30 Декабрь 2010 - 12:28

Будьте добры, люди добрые, подскажите ;)
Есть текстовый файл, в котором много-много тысяч строк. Одни строка = один поисковой запросы. Запросы повторяются, поэтому нужно удалить эти дубликаты. Подскажите, чем бы на аватомате с этим справиться?
Зараннее благодарен.

Мне ужно сперва дочистить базу от правой колонки, тут бы тоже хотелось автоматизировать, потому что 15 тысяч запросов ручками образатывать долго очень. Вообщем структура примерно такова:

заработок в интернете,	N/A	414	
реальный заработок в интернете,	N/A	429	
как заработать в сети,	N/A	117	
как бесплатно поднять тиц?	N/A	249	
сайт о заработке в сети интернет	N/A	130	249
заработать в сети,	N/A	22	
заработать на интернете,	N/A	911	
реальный заработок в сети,	N/A	221

Вот нужно оставить только одни запросы. Есть у кого какие идеи? Пожно хотя бы на полуавтомате ;)

P.S. Предыдущий топик удалил, опять глюк был с отображением кода. По-идее он возникает при подсветке кода django. Разберёмся ;)
Kismedia, спасибо за предоставленную ссылку в прошлом топике!

 

 

  • 0

robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85
Советую обратить внимание на следующее:
  1. Проблема дублей – безоговорочная победа
  2. Как проще всего избавиться от дублей страниц в гугл
  3. Помогите удалить внешнюю ссылку с сайта
  4. Как удалить дубли страниц на Joomla
  5. Удалить дубли страниц

#2

Поделиться сообщением #2



surfer

surfer
  • Заблокированные
  • 1 956 сообщений
  • Репутация: 71

Отправлено 30 Декабрь 2010 - 14:19

ну так сделай скрипт и удали, тему надо в php постить, это вполне решаемая задача.
читаются данные из файла в массив
удаляются дублирующиеся записи
задача из 2-х шагов, хорошая для тебя практика в php ;)
подсказка все решается встроенными функциями.
  • 0

#3

Поделиться сообщением #3



ZiTosS

ZiTosS
  • Неактивные
  • 5 148 сообщений
  • Репутация: 8

Отправлено 30 Декабрь 2010 - 18:27

admin, так, вопрос. Строки то у тебя полностью совпадают? Или же только запросы?
  • 0

#4

Поделиться сообщением #4



admin

admin
    Topic Starter
  • Пользователь PRO
  • 5 275 сообщений
  • Репутация: 55

Отправлено 30 Декабрь 2010 - 20:23

ZiTosS, совпадают только запросы. Строки разные, потому что запросы брались из статистики более чем 100 сайтов. Понятное дело, что для одной тематики запросы попадались одинаковые, некоторые даже очень часто. Но а позиции разных сайтов в поисковиках явно разные.

surfer, спасибо, я что-то даже не подумал вобще, что всё можно на PHP реализовать. Как-то по привычке в экселе начал или ручками ;) Как только прочитал твоё сообщение, примерно представил как решить задачу. Спасибо за намёк!
  • 0

#5

Поделиться сообщением #5



ZiTosS

ZiTosS
  • Неактивные
  • 5 148 сообщений
  • Репутация: 8

Отправлено 30 Декабрь 2010 - 23:39

admin, тогда решай на PHP. Разбирай строки и помещай в массив. Затем простым фильтром прогоняй массив и убирай дубли.
  • 0

#6

Поделиться сообщением #6



Игорян

Игорян
  • Неактивные
  • 296 сообщений
  • Репутация: 10

Отправлено 10 Март 2011 - 09:25

вот это дело -> N/A 221 можно косануть через простой блотнот, Ctrl + H заменяем N/A 221 на пробел :rolleyes:
  • 0


Оформление форума – IPBSkins.ru