Давно хотел затронуть тему уникального контента, да и вообще немного поразмыслить о синонимайзерах, генераторах — в общем работы с текстом. (нижеприведенные мысли думаю можно использовать для любых языков, но чтоб не путаться буду говорить о русском)
Для чего все это нужно думаю понятно, но в качестве вступления маленько пофлудю 🙂
Деньги в интернете так или иначе рождаются из трафа — хочешь много денег — нужно много трафа — это аксиома.
В идеале конечно нужно иметь один или несколько проектиков, пользующихся хорошей популярностью — всё в белую — стабильно и доходно, но к сожалению не креативный я человек 🙁 да и вообще имхо изобретение «кубика-рубика» и прочих гениальностей удел единиц из миллионов.
Поэтому-то в целях источника трафа для себя определил поисковые системы и низкочастотные запросы (высокочастотники как правило заняты белыми сайтами с хорошими SE бюджетами), для получения трафа по таким запросам соотвественно нужно иметь МНОГО страниц, а для этого нужно МНОГО текста.
Где взять текст ? Конечно же первая мысль — скоммуниздить на бескрайних просторах инета (помимо генерации и перемешки — это сразу отметаем, т.к. нечитабельно и думаю быстро вычисляемо поисковиками). Но и подобный плагиат тоже нетрудно вычисляется и клеется. Вариант собственного написания или покупки уникального контента тоже отметаем из за высокой стоимости — подобные вещи хороши только для бюджетных проектов, не наш случай…
Вот несложной цепочкой рассуждений и приходим к идее генерации либо уникализации готового текста (думаю награбить готового текста проблем не вызовет).
Генерация текста по своей суперсложности тоже отпадает (хотя всегда готов обсудить любые мысли по этому вопросу) — это подтверждает отсутствие до сих пор каких либо генераторов.
Итак — остается идея «синонимайзера» — т.е. изменение исходного текста до состояния неузнаваемого поисковыми системами, на эту тему и хотел немного порассуждать …
Путнего материала в инете по этому вопросу я нашел очень не много и для начала очень рекоммендую ознакомиться с выкладками Андрея Белоусова aka Hkey на его блоге в статье «Шинглы или как поискивики находят плагиат.«.
Так же Hkey реализует соответстующий софт — базы для постинга статей и ручной синонимайзер (к сожалению в пробный период ознакомиться толком не успел — а щас уже не даёт — время для тестирования вышло). Ручной потому, что все замены нужно прописывать руками. Т.е. опять же имхо софт хорош для «белого» продвижения — обработал как следует статью, получил, думаю N-ое количество неплохих псевдо-уникальных дублей и юзай их как заблагорассудится.
Моя же идея — реализация автоматического синонимайзера, и вот какие мысли я имею вам изложить:
0. Запоминание «скелета» исходного текста
Для этого необходимо определить «состояние» всех слов текста (часть речи, время, род, падеж, число) — задача не из тривиальных, думаю тут попробовать заюзать парсер mystem (других просто не знаю).
1. Нормализация исходного текста
Все найденные слова приводятся к «нормальной» форме — единственное число, именительный падеж и т.д. То есть все морфологические формы данного слова приводятся к одному.
2. Замена слова на синоним из базы синонима (случайным образом с использованием вероятности появления — это уже априорные данные о которых чуть ниже).
3. Приведение синонима к исходному морфологическому состоянию.
По идее всё 🙂 Насколько это всё реализуемо нужно будет ещё проверить на тестах.
Теперь хочу затронуть более подробно пункт 3, а точнее сбор баз синонимов.
Можно конечно попробовать использовать существующие базы синонимов, например Rhymes, но я хочу предложить следующий вариант использующий цепи Маркова, но слегка модифицированный:
Используем цепи Маркова + добавляем в массив дополнительное поле — частота совпадений. То есть если «скормить» достаточное количество «нормализованных» текстов (нормализация для избежания сбора морфологических дублей одного и того же слова), получаем довольно интересный массив, где в качестве элемента будет не только слово встречающее за звеном, но и частота этого слова. Для выявления синонимов будет достаточно только выбрать слова и словосочетания с максимальными частотами — они и будут между собой синонимами.
Вот такая теория 🙂
до реализации алгоритма хотелось бы кончено узнать другие точки зрения, подходы, опыт …
4 комментария на «“Псевдо-уникальный контент”»
Интересная тема.
Если брошу заниматься капчами, займусь генератором осмысленных текстов.
В ваших рассуждениях мне видится несколько проблем:
1) Будет ли полученный текст хорошо воспринимаем человеком?
2) Как вы будете допустим одно предложение превращать в страницу текста?
3) Поймают ли вас поисковики на автогенерации текста, у них ведь тоже базы синонимов и т.д.?
Как обстоят дела с синонимизацией? Тема интересная, но дата публикации насторожила.
Самое обсуждаемое на блогах:
Светлана Бахмина освобождена по УДО
Динара Сафина -теннисистка номер 1 в мире
Погиб музыкант группы "Любэ" Анатолий Кулешов
По поводу синонимайзеров вот тут http://phpsin.ru/sinonim/ ноый появился