Перейти к содержимому

Сервис обмена электронных валют


Уникальность Текстов.

#1 m0tti

m0tti
  • Пользователь
  • 343 сообщений
  • Репутация: 0
0

Отправлено 07 Июнь 2009 - 19:28

А как происходит проверка, от точки до точки по предожениям или как то подругому?

 

 

  • 0

#2 v1ex

v1ex
  • Пользователь
  • 225 сообщений
  • Репутация: 0

Отправлено 07 Июнь 2009 - 21:18

Думаю по количество вхождений слов в статью... По крайней мере, я бы так делал...
  • 0

#3 m0tti

m0tti
    Topic Starter
  • Пользователь
  • 343 сообщений
  • Репутация: 0

Отправлено 07 Июнь 2009 - 22:12

Мне просто все эти синонимазеры ненравяться только из-за бредового изменения предлогов, а так в принципе есть качественные.
  • 0

#4 admin

admin
  • Пользователь PRO
  • 5 272 сообщений
  • Репутация: 54

Отправлено 08 Июнь 2009 - 04:31

Если разные алгоритмы определения уникальности, самый популярный это конечноже метод шингла. Его главный принцип можно описать примерно такими словами:

Для каждого десятисловия текста рассчитывается контрольная сумма (шингл). Десятисловия идут внахлест, с перекрытием, так, чтобы ни одно не пропало. А затем из всего множества контрольных сумм (очевидно, что их столько же, сколько слов в документе минус 9) отбираются только те, которые делятся на, скажем, 25. Поскольку значения контрольных сумм распределены равномерно, критерий выборки никак не привязан к особенностям текста. Ясно, что повтор даже одного десятисловия – весомый признак дублирования, если же их много, скажем, больше половины, то с определенной (несложно оценить вероятность) уверенностью можно утверждать: копия найдена! Ведь один совпавший шингл в выборке соответствует примерно 25 совпавшим десятисловиям в полном тексте!

А вообще алгоритмы определения уникальности текста у пс развиваются, как и сами пс. Поэтому ИМХО точно мало кто знает достоверно как определяется уникальность. Могу лишь с 99,9% уверенностью сказать, что если вы отключите Интернет и откроете блокнот, в котором напишите текст "с головы", то он будет уникальным
  • 0

Сколько лет прошло, а ссылки всё ещё лучше покупать тут



#5 m0tti

m0tti
    Topic Starter
  • Пользователь
  • 343 сообщений
  • Репутация: 0

Отправлено 08 Июнь 2009 - 11:49

Если разные алгоритмы определения уникальности, самый популярный это конечноже метод шингла. Его главный принцип можно описать примерно такими словами:

А вообще алгоритмы определения уникальности текста у пс развиваются, как и сами пс. Поэтому ИМХО точно мало кто знает достоверно как определяется уникальность. Могу лишь с 99,9% уверенностью сказать, что если вы отключите Интернет и откроете блокнот, в котором напишите текст "с головы", то он будет уникальным


То есть замене подлежит каждое 10-е слово? и тогда уник?
  • 0

#6 m0tti

m0tti
    Topic Starter
  • Пользователь
  • 343 сообщений
  • Репутация: 0

Отправлено 08 Июнь 2009 - 16:49

На соседнем форуме проскочила инфа то что предлоги не беруться в оценку уникальности это так?
  • 0

#7 admin

admin
  • Пользователь PRO
  • 5 272 сообщений
  • Репутация: 54

Отправлено 08 Июнь 2009 - 16:54

На счёт педлогов не уверен, и думаю они тоже учитываются.

То есть замене подлежит каждое 10-е слово? и тогда уник?

Абсолютно неверно. Просто внимательнее прочтите моё сообщение
  • 0

Сколько лет прошло, а ссылки всё ещё лучше покупать тут



#8 m0tti

m0tti
    Topic Starter
  • Пользователь
  • 343 сообщений
  • Репутация: 0

Отправлено 08 Июнь 2009 - 17:55

На счёт педлогов не уверен, и думаю они тоже учитываются.

Абсолютно неверно. Просто внимательнее прочтите моё сообщение


А в картинках нет объяснения, а то трудно понять как формируеться шингл
  • 0

robot

robot
  • Пользователь PRO
  • 2 652 сообщений
  • Репутация: 85


Оформление форума – IPBSkins.ru