Псевдо-уникальный контент


Давно хотел затронуть тему уникального контента, да и вообще немного поразмыслить о синонимайзерах, генераторах — в общем работы с текстом. (нижеприведенные мысли думаю можно использовать для любых языков, но чтоб не путаться буду говорить о русском)

Для чего все это нужно думаю понятно, но в качестве вступления маленько пофлудю 🙂

Деньги в интернете так или иначе рождаются из трафа — хочешь много денег — нужно много трафа — это аксиома.

В идеале конечно нужно иметь один или несколько проектиков, пользующихся хорошей популярностью — всё в белую — стабильно и доходно, но к сожалению не креативный я человек 🙁 да и вообще имхо изобретение «кубика-рубика» и прочих гениальностей удел единиц из миллионов.

Поэтому-то в целях источника трафа для себя определил поисковые системы и низкочастотные запросы (высокочастотники как правило заняты белыми сайтами с хорошими SE бюджетами), для получения трафа по таким запросам соотвественно нужно иметь МНОГО страниц, а для этого нужно МНОГО текста.

Где взять текст ? Конечно же первая мысль — скоммуниздить на бескрайних просторах инета (помимо генерации и перемешки — это сразу отметаем, т.к. нечитабельно и думаю быстро вычисляемо поисковиками). Но и подобный плагиат тоже нетрудно вычисляется и клеется. Вариант собственного написания или покупки уникального контента тоже отметаем из за высокой стоимости — подобные вещи хороши только для бюджетных проектов, не наш случай…

Вот несложной цепочкой рассуждений и приходим к идее генерации либо уникализации готового текста (думаю награбить готового текста проблем не вызовет).

Генерация текста по своей суперсложности тоже отпадает (хотя всегда готов обсудить любые мысли по этому вопросу) — это подтверждает отсутствие до сих пор каких либо генераторов.

Итак — остается идея «синонимайзера» — т.е. изменение исходного текста до состояния неузнаваемого поисковыми системами, на эту тему и хотел немного порассуждать …

Путнего материала в инете по этому вопросу я нашел очень не много и для начала очень рекоммендую ознакомиться с выкладками Андрея Белоусова aka Hkey на его блоге в статье «Шинглы или как поискивики находят плагиат.«.

Так же Hkey реализует соответстующий софт — базы для постинга статей и ручной синонимайзер (к сожалению в пробный период ознакомиться толком не успел — а щас уже не даёт — время для тестирования вышло). Ручной потому, что все замены нужно прописывать руками. Т.е. опять же имхо софт хорош для «белого» продвижения — обработал как следует статью, получил, думаю N-ое количество неплохих псевдо-уникальных дублей и юзай их как заблагорассудится.

Моя же идея — реализация автоматического синонимайзера, и вот какие мысли я имею вам изложить:

0. Запоминание «скелета» исходного текста

Для этого необходимо определить «состояние» всех слов текста (часть речи, время, род, падеж, число) — задача не из тривиальных, думаю тут попробовать заюзать парсер mystem (других просто не знаю).
1. Нормализация исходного текста

Все найденные слова приводятся к «нормальной» форме — единственное число, именительный падеж и т.д. То есть все морфологические формы данного слова приводятся к одному.

2. Замена слова на синоним из базы синонима (случайным образом с использованием вероятности появления — это уже априорные данные о которых чуть ниже).

3. Приведение синонима к исходному морфологическому состоянию.
По идее всё 🙂 Насколько это всё реализуемо нужно будет ещё проверить на тестах.

Теперь хочу затронуть более подробно пункт 3, а точнее сбор баз синонимов.

Можно конечно попробовать использовать существующие базы синонимов, например Rhymes, но я хочу предложить следующий вариант использующий цепи Маркова, но слегка модифицированный:

Используем цепи Маркова + добавляем в массив дополнительное поле — частота совпадений. То есть если «скормить» достаточное количество «нормализованных» текстов (нормализация для избежания сбора морфологических дублей одного и того же слова), получаем довольно интересный массив, где в качестве элемента будет не только слово встречающее за звеном, но и частота этого слова. Для выявления синонимов будет достаточно только выбрать слова и словосочетания с максимальными частотами — они и будут между собой синонимами.

Вот такая теория 🙂

до реализации алгоритма хотелось бы кончено узнать другие точки зрения, подходы, опыт …

,

4 комментария на «“Псевдо-уникальный контент”»

  1. Интересная тема.
    Если брошу заниматься капчами, займусь генератором осмысленных текстов.
    В ваших рассуждениях мне видится несколько проблем:
    1) Будет ли полученный текст хорошо воспринимаем человеком?
    2) Как вы будете допустим одно предложение превращать в страницу текста?
    3) Поймают ли вас поисковики на автогенерации текста, у них ведь тоже базы синонимов и т.д.?

  2. Самое обсуждаемое на блогах:
    Светлана Бахмина освобождена по УДО
    Динара Сафина -теннисистка номер 1 в мире
    Погиб музыкант группы "Любэ" Анатолий Кулешов

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *