Производство фотообоев в Новосибирске. Интернет магазин фотообоев. Изготовление - один день! Каталог 10 000 изображений!
25 Декабрь 2007

Псевдо-уникальный контент

posted in SEO, Разное |

Давно хотел затронуть тему уникального контента, да и вообще немного поразмыслить о синонимайзерах, генераторах — в общем работы с текстом. (нижеприведенные мысли думаю можно использовать для любых языков, но чтоб не путаться буду говорить о русском)

Для чего все это нужно думаю понятно, но в качестве вступления маленько пофлудю 🙂

Деньги в интернете так или иначе рождаются из трафа — хочешь много денег — нужно много трафа — это аксиома.

В идеале конечно нужно иметь один или несколько проектиков, пользующихся хорошей популярностью — всё в белую — стабильно и доходно, но к сожалению не креативный я человек 🙁 да и вообще имхо изобретение «кубика-рубика» и прочих гениальностей удел единиц из миллионов.

Поэтому-то в целях источника трафа для себя определил поисковые системы и низкочастотные запросы (высокочастотники как правило заняты белыми сайтами с хорошими SE бюджетами), для получения трафа по таким запросам соотвественно нужно иметь МНОГО страниц, а для этого нужно МНОГО текста.

Где взять текст ? Конечно же первая мысль — скоммуниздить на бескрайних просторах инета (помимо генерации и перемешки — это сразу отметаем, т.к. нечитабельно и думаю быстро вычисляемо поисковиками). Но и подобный плагиат тоже нетрудно вычисляется и клеется. Вариант собственного написания или покупки уникального контента тоже отметаем из за высокой стоимости — подобные вещи хороши только для бюджетных проектов, не наш случай…

Вот несложной цепочкой рассуждений и приходим к идее генерации либо уникализации готового текста (думаю награбить готового текста проблем не вызовет).

Генерация текста по своей суперсложности тоже отпадает (хотя всегда готов обсудить любые мысли по этому вопросу) — это подтверждает отсутствие до сих пор каких либо генераторов.

Итак — остается идея «синонимайзера» — т.е. изменение исходного текста до состояния неузнаваемого поисковыми системами, на эту тему и хотел немного порассуждать …

Путнего материала в инете по этому вопросу я нашел очень не много и для начала очень рекоммендую ознакомиться с выкладками Андрея Белоусова aka Hkey на его блоге в статье «Шинглы или как поискивики находят плагиат.«.

Так же Hkey реализует соответстующий софт — базы для постинга статей и ручной синонимайзер (к сожалению в пробный период ознакомиться толком не успел — а щас уже не даёт — время для тестирования вышло). Ручной потому, что все замены нужно прописывать руками. Т.е. опять же имхо софт хорош для «белого» продвижения — обработал как следует статью, получил, думаю N-ое количество неплохих псевдо-уникальных дублей и юзай их как заблагорассудится.

Моя же идея — реализация автоматического синонимайзера, и вот какие мысли я имею вам изложить:

0. Запоминание «скелета» исходного текста

Для этого необходимо определить «состояние» всех слов текста (часть речи, время, род, падеж, число) — задача не из тривиальных, думаю тут попробовать заюзать парсер mystem (других просто не знаю).
1. Нормализация исходного текста

Все найденные слова приводятся к «нормальной» форме — единственное число, именительный падеж и т.д. То есть все морфологические формы данного слова приводятся к одному.

2. Замена слова на синоним из базы синонима (случайным образом с использованием вероятности появления — это уже априорные данные о которых чуть ниже).

3. Приведение синонима к исходному морфологическому состоянию.
По идее всё 🙂 Насколько это всё реализуемо нужно будет ещё проверить на тестах.

Теперь хочу затронуть более подробно пункт 3, а точнее сбор баз синонимов.

Можно конечно попробовать использовать существующие базы синонимов, например Rhymes, но я хочу предложить следующий вариант использующий цепи Маркова, но слегка модифицированный:

Используем цепи Маркова + добавляем в массив дополнительное поле — частота совпадений. То есть если «скормить» достаточное количество «нормализованных» текстов (нормализация для избежания сбора морфологических дублей одного и того же слова), получаем довольно интересный массив, где в качестве элемента будет не только слово встречающее за звеном, но и частота этого слова. Для выявления синонимов будет достаточно только выбрать слова и словосочетания с максимальными частотами — они и будут между собой синонимами.

Вот такая теория 🙂

до реализации алгоритма хотелось бы кончено узнать другие точки зрения, подходы, опыт …

У нас 4 комментария на запись “Псевдо-уникальный контент”

Почему бы Вам не высказать своем мнение! Позвольте нам узнать, что Вы думаете...

  1. 1 On 02.11.2008, Valeriy M Matvienko said:

    Интересная тема.
    Если брошу заниматься капчами, займусь генератором осмысленных текстов.
    В ваших рассуждениях мне видится несколько проблем:
    1) Будет ли полученный текст хорошо воспринимаем человеком?
    2) Как вы будете допустим одно предложение превращать в страницу текста?
    3) Поймают ли вас поисковики на автогенерации текста, у них ведь тоже базы синонимов и т.д.?

  2. 2 On 22.04.2009, Money said:

    Как обстоят дела с синонимизацией? Тема интересная, но дата публикации насторожила.

  3. 3 On 22.04.2009, Always last said:

    Самое обсуждаемое на блогах:
    Светлана Бахмина освобождена по УДО
    Динара Сафина -теннисистка номер 1 в мире
    Погиб музыкант группы "Любэ" Анатолий Кулешов

  4. 4 On 26.06.2009, бродяга said:

    По поводу синонимайзеров вот тут http://phpsin.ru/sinonim/ ноый появился

Оставить комментарий