Псевдо-уникальный контент

Давно хотел затронуть тему уникального контента, да и вообще немного поразмыслить о синонимайзерах, генераторах – в общем работы с текстом. (нижеприведенные мысли думаю можно использовать для любых языков, но чтоб не путаться буду говорить о русском)

Для чего все это нужно думаю понятно, но в качестве вступления маленько пофлудю 🙂

Деньги в интернете так или иначе рождаются из трафа – хочешь много денег – нужно много трафа – это аксиома.

В идеале конечно нужно иметь один или несколько проектиков, пользующихся хорошей популярностью – всё в белую – стабильно и доходно, но к сожалению не креативный я человек 🙁 да и вообще имхо изобретение “кубика-рубика” и прочих гениальностей удел единиц из миллионов.

Поэтому-то в целях источника трафа для себя определил поисковые системы и низкочастотные запросы (высокочастотники как правило заняты белыми сайтами с хорошими SE бюджетами), для получения трафа по таким запросам соотвественно нужно иметь МНОГО страниц, а для этого нужно МНОГО текста.

Где взять текст ? Конечно же первая мысль – скоммуниздить на бескрайних просторах инета (помимо генерации и перемешки – это сразу отметаем, т.к. нечитабельно и думаю быстро вычисляемо поисковиками). Но и подобный плагиат тоже нетрудно вычисляется и клеется. Вариант собственного написания или покупки уникального контента тоже отметаем из за высокой стоимости – подобные вещи хороши только для бюджетных проектов, не наш случай…

Вот несложной цепочкой рассуждений и приходим к идее генерации либо уникализации готового текста (думаю награбить готового текста проблем не вызовет).

Генерация текста по своей суперсложности тоже отпадает (хотя всегда готов обсудить любые мысли по этому вопросу) – это подтверждает отсутствие до сих пор каких либо генераторов.

Итак – остается идея “синонимайзера” – т.е. изменение исходного текста до состояния неузнаваемого поисковыми системами, на эту тему и хотел немного порассуждать …

Путнего материала в инете по этому вопросу я нашел очень не много и для начала очень рекоммендую ознакомиться с выкладками Андрея Белоусова aka Hkey на его блоге в статье “Шинглы или как поискивики находят плагиат.“.

Так же Hkey реализует соответстующий софт – базы для постинга статей и ручной синонимайзер (к сожалению в пробный период ознакомиться толком не успел – а щас уже не даёт – время для тестирования вышло). Ручной потому, что все замены нужно прописывать руками. Т.е. опять же имхо софт хорош для “белого” продвижения – обработал как следует статью, получил, думаю N-ое количество неплохих псевдо-уникальных дублей и юзай их как заблагорассудится.

Моя же идея – реализация автоматического синонимайзера, и вот какие мысли я имею вам изложить:

0. Запоминание “скелета” исходного текста

Для этого необходимо определить “состояние” всех слов текста (часть речи, время, род, падеж, число) – задача не из тривиальных, думаю тут попробовать заюзать парсер mystem (других просто не знаю).
1. Нормализация исходного текста

Все найденные слова приводятся к “нормальной” форме – единственное число, именительный падеж и т.д. То есть все морфологические формы данного слова приводятся к одному.

2. Замена слова на синоним из базы синонима (случайным образом с использованием вероятности появления – это уже априорные данные о которых чуть ниже).

3. Приведение синонима к исходному морфологическому состоянию.
По идее всё 🙂 Насколько это всё реализуемо нужно будет ещё проверить на тестах.

Теперь хочу затронуть более подробно пункт 3, а точнее сбор баз синонимов.

Можно конечно попробовать использовать существующие базы синонимов, например Rhymes, но я хочу предложить следующий вариант использующий цепи Маркова, но слегка модифицированный:

Используем цепи Маркова + добавляем в массив дополнительное поле – частота совпадений. То есть если “скормить” достаточное количество “нормализованных” текстов (нормализация для избежания сбора морфологических дублей одного и того же слова), получаем довольно интересный массив, где в качестве элемента будет не только слово встречающее за звеном, но и частота этого слова. Для выявления синонимов будет достаточно только выбрать слова и словосочетания с максимальными частотами – они и будут между собой синонимами.

Вот такая теория 🙂

до реализации алгоритма хотелось бы кончено узнать другие точки зрения, подходы, опыт …

25 декабря, 2007

gtalex

SEO, Разное

4 комментария на «“Псевдо-уникальный контент”»

Valeriy M Matvienko:

02.11.2008 в 01:52

Интересная тема.
Если брошу заниматься капчами, займусь генератором осмысленных текстов.
В ваших рассуждениях мне видится несколько проблем:
1) Будет ли полученный текст хорошо воспринимаем человеком?
2) Как вы будете допустим одно предложение превращать в страницу текста?
3) Поймают ли вас поисковики на автогенерации текста, у них ведь тоже базы синонимов и т.д.?

Ответить
Money:

22.04.2009 в 14:49

Как обстоят дела с синонимизацией? Тема интересная, но дата публикации насторожила.

Ответить
Always last:

22.04.2009 в 14:50

Самое обсуждаемое на блогах:
Светлана Бахмина освобождена по УДО
Динара Сафина -теннисистка номер 1 в мире
Погиб музыкант группы "Любэ" Анатолий Кулешов

Ответить
бродяга:

26.06.2009 в 22:19

По поводу синонимайзеров вот тут http://phpsin.ru/sinonim/ ноый появился

Ответить

GTAlex о работе в сети и не только

Псевдо-уникальный контент

4 комментария на «“Псевдо-уникальный контент”»

Добавить комментарий Отменить ответ