Анти-Синонимайзер


Пришла мысль — вот многие юзают синонимайзеры для уникализации контента (текстовой его составляющей) — а ведь у SE (search engine) явно должны быть базы синонимов, причем в нормализованной форме и сам нормализатор явно присуствует.

SE достаточно «пройтись» по тексту и позаменять все синонимы на что-то одно и вуаля — алгоритм накрылся медным тазом !

Имхо так и должно быть — по крайней мере еслиб я в Яндексе работал — так бы и сделал.

Плюс добавляем сюда шинглы — вообще верёвка 🙂  Причем упор в шинглах я бы делал по ключевикам, нормализованным по синонимам,  содержащимся в тайтле.

А вот как избежать подобного определения уникализированного текста — надо подумать 🙂

Напоследок — нарыл в инете прикольный синонимайзер макрос под MS Word — очень простой макрос — проходим по словам текста и случайным образом меняем слово на его синоним.

<Реклама>

Компания GrandPR — раскрутка сайта

Посуточная аренда квартир в Санкт-Петербурге.  Гостевые апартаменты в центре Северной столице.

</Реклама>


43 комментария на «“Анти-Синонимайзер”»

  1. эмм не совсем понял. типа каждому слову и его синонимам давать код типа fff324h а потом проверять совпадения? поэтому и надо менять структуру не только в предложении но и сами предложения.

  2. ага, правильно ты всё понял, только вот потом не совпадения проверять, а шинглы лепить, а потом уже и совпадения проверять 🙂

  3. вообще уникальность текста — не панацея, в инете вообще практически нет ничего уникального — вся информация многократно дублируется, особенно если эта информация получила широкую общественную огласку — и ничего ведь — не забанили всех кто продублировал

    подобные вопросы поднимаются при создании автоматов-рерайтеров ворованного контента или просто тупой репостинг — а вот уже такие сайты последнее время вычисляются и банятся очень быстро (я кстати тоже именно в этом ракурсе все эти вещи рассматриваю 🙂 — уж больно хочется человеко-независимые да приносящие доход ресурсы иметь)

    в идеале конечно нужно делать проекты наполняемые контентом самими посетителями — но это уже индивидуальный подход, наличие хороших идей — в общем высший пилотаж 🙁 …

  4. Возможно поисковики ведут подобную работу, но синонимы сложное дело… Словосочетания, контекст и прочее. Нормальную форму нельзя выделить в общем случае. Более того все новости рунета это ручной рерайт.

  5. для поисковика подобное будет вешалкой. Смотрите сами, есть например текст 100 слов, сделать в нём даже если 10 замен синонимами — сколько вариантов получится? много, потомучто на каждое одно слово можно применить не обязательно один синоним… и поисковик не будет никогда (мне так кажется) часами анализировать «Анти-Синонимайзером» одну страницу сайта… 🙂

  6. killoff ты неправильно понял, поисковик для себя наоборот уменьшает кол-во вариантов
    т.е. допустим есть 2 текста
    «хороший врач»
    «замечательный доктор»
    у поисковика есть внутренняя база типа
    «хороший, замечательный, не плохой, ….» = > «14f0e1»
    «врач, доктор, лекарь, …. » = > «у9с423»
    итого и тот и другой текст сохраняться как «14f0e1 у9с423»
    по этому делу делается один шинг, допустим «542ef1» и заносится в БД — вуаля

  7. уникальность с т.з. ПС — это отсутствие аналога. смысл анализу поддается с трудом(пока что) — так что не спалят тебя, если перемиксовать и синонимизировать.

  8. Фиг с ним с этим уникальным контентом. Сайты сделанные для людей, тематические-у меня не выпадали из индекса, всё копипаст..на главной только уник. Мало в рунете хороших проектов. Уник не панацея..Поставьте себя на место пользователя и делайте сайт глядя их глазами.

  9. Ну я так понимаю, ты упор делаешь на тулбарный эффект. Возможно, конечно, за ним будущее и уникализация как таковая нах не нужна, НО кто скажет где правда то ?

  10. Сейчас очень трудно создавать уникальные тексты в своей нише. Практически все темы в интернете уже затронуты.

  11. —>On 06.06.2009, Адский стоматолог said:

    —>Да всё равно, рерайт не рерайт, если сайт хороший и много уника помимо рерайта, то —>скорей всего не забанят. Если мало, то ждать осталось недолго.

    Смотря какой рерайт. Если грамотно созданный, я думаю все будет ОК. Ну а г…вно, рано или позно само всплывет.

  12. Вы правда думаете, что Яшка или даже тот же Гугля делает таким образом? Заменяет слова? Вы представляете какие механизмы им надо прикупить, что бы такое реализовать для всей этой базы новых УГ ежедневных? 🙂

    Мне кажется проще модеров нанять )))

  13. 2felix я думаю что у яши есть такие мощности. А чтобы вот модеров нанять, это нужно весь китай заставить рунет вычищать и то не будут успевать.

    Просто если все не уникальное побанить будет хуже чем есть. К тому же для бана могут быть разные причины.

  14. Сугубо мое мнение синонимайзеры — редкое гамно. Просто они так извращают текст, что он не только не четабелен для людей но и для ПС

  15. Конечно, есть у ПС качественные синонимайзеры, и подобные генерации клеятся успешно.
    Есть такой вариант: перевести текст на английский а потом обратно на русский, да еще прогнать по синонимайзеру.
    Замечал кто-нибудь, что такое клеется?

  16. Вот тоже нашол неплохой скрипт синонимайзера который написан на php, не использует базы данных, база синонимов находится в php файле и доступна для редактировании. При обработке теста скрипту не важно написано слово с большой буквы или с маленькой, стоит ли после или перед словом знак препинания. В скрипте предусмотрена функция добавления в базу слов и словосочетаний неограниченной длинны даже со знаками препинания. Вся база синонимов скрипта уникальна и собранна в ручную с учетом морфологии, в ней находится более 91 000 слов и словосочетаний, благодаря этому на выходе получатся на 80% — 90% читаемый текст без искажения смысла. Уникальной особенностью данного скрипта является то, что при размере базы почти в 100 000 слов и соответственно столько же синонимов к ним, скрипт обрабатывает текст за доли секунд, благодаря чему данный скрипт можно использовать как функцию и получать на выходе уже синонимизированный текст. Пример работы скрипта: http://www.phpsin.ru/sinonim/
    за этот скрипт просят денег но походу он стоит этого.

  17. Хм… интересно спасибо!
    Синонимайзер больше используют для сателитов, а не для людей, так думаю что и так сойдет как есть)

  18. Поисковики до сих пор не могут определить, кто реальный автор контента. И еще долго не смогут этого сделатьпо разным причинам. Именно поэтому сейчас развелось много тех, кто спокойно контент ворует и зарабатывает на сайтах, целиком сделанных на ворованном контенте. Так что все синонимайзеры и антисинонимайзеры не решают никаких проблем. Да и новых почти не создают, проблем и так много.

  19. Хорошая идея. Надеюсь, представители Яндекса не листают на досуге Ваш блог =)
    P.S., а если серьезно, пробовал и бесплатные, и платные синонимайзеры. Да, продукт легко входит в индекс, но как только появляются первые продажные ссылки, тут же из него вылетает.

  20. Имхо так и должно быть — по крайней мере еслиб я в Яндексе работал — так бы и сделал.

    Видимо не все так просто… Ведь можно много уникального принять за уникализированное…

  21. Что-то слишком мудрёный способ для проверки тому же Яндексу. Мощностей не хватит для прогона всего текста в Рунете. Если только новые сайты? Тогда может быть, да и то как-то слишком.

  22. Идея интересная, но реализовать ее могут только сами поисковики, да и если такое сделают половина сети накроется, в инете ведь везде все одинаковое, только по разному написано, например есть у кого-то пост про «Блогун», а другой тоже про него пост написал (сам написал — копирайт), так поисковик может подумать что это рерайт и все — пост забанен, а в таком случае будет выигрывать тот кто первый напишет.

  23. Спасибо за синонимайзер. Удобен, иногда полезен. Но верно выше сказано, лучше своей статьи Нет.

  24. Синонимайзер больше используют для сателитов, а не для людей, так думаю что и так сойдет как есть)

  25. Самое обсуждаемое на блогах:
    Концерт Майкла Джексона
    День Независимости США
    Резолюция ОБСЕ о сталинизме и нацизме

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *