.
Место для Вашей рекламы
25 Ноябрь 2009

Сравнение текстов с использованием шинглов

posted in Новости / Обзоры, Полезности |

Для одного из моих белых проектов понадобилось сделать мини-поисковичек — из довольно большого количества статей необходимо выбрать наиболее релевантные определенному запросу.

Решил заюзать механизм шинглов, кто не знает принцип такой — по набору слов строится шинг (md5() crc32() и т.д.), соответственно шинглы получаются одно-, двух-, трех-,  …. словные, после чего вычисляется количество совпавших шинглов 2х текстов, на основе этих данных уже получается процент совпадения текстов.

Прежде чем строить шинглы текст конечно же «чиститься» от тегов. Далее выкидываются все мелкие словечки (я беру от 3х букв, хотя можно и больше), все слова «нормализуются»  (единственное число, именительный падеж и т.д.) — тут я заюзал библиотеку PHPMorphy — так более правильно и эстетично, хотя думаю можно было тупо взять только длинные слова, да пообрубать по 2-3 буквы 🙂

В общем кому интересно — можете попробовать, что получилось:  представляю скриптик  сравнение текстов методом шинглов

P.S.

Один из самых моих любимых форумов фарма партнёрки drugrevenue, сменил своего хозяина. Теперь это отдельная ветка форума Webmasters.ru

Ну что-же, закон рынка — более крупная рыбка съедает более мелкую 🙂

Надеюсь хуже форум не станет, в том виде, что было — было супер — постоянные акции, фишки, живое обсуждение. Акция «Флуд — тоже труд» породил систему поинтов, за которые в последствии можно получать призы — вообще практически ноухау. Вроде как все эти фишки перенесены в Вебмастерс.ру, но вот например реф.ссылку я не нашел, поинты же были перенесены без потерь, топа по поинтам не вижу, какие призы и за какое кол-во поинтов тоже пока не нашел.

У нас 16 комментариев на запись “Сравнение текстов с использованием шинглов”

Почему бы Вам не высказать своем мнение! Позвольте нам узнать, что Вы думаете...

  1. 1 On 23.07.2010, Орион said:

    На мой взгляд, сравнение шинглами — это один из первых этапов обработки текста. Для уточнения нужно применять еще какой-нибудь метод!?

Оставить комментарий

Яндекс.Метрика