Морфологический синонимайзер на базе PHPMorphy


Взялся я таки за написание собственного морфологического синонимайзера. Бета Версия 1.0 готова !

Морфологического потому, что замена синонимов идет не в тупую, а сначала слово приводится к нормальной форме,  к нему подбирается синоним и синоним переводится в туже морфологическую форму, что и было исходное слово.

типа такого

КРЕСЛОМ => (преобразуем в нормальную форму) => КРЕСЛО => подбираем синоним из базы => КАЧАЛКА => (преобразуем в туже морфологическую форму что и было) =>КАЧАЛКОЙ

По сути сам ничего и не делал 🙂

Бесплатные базы взял с сайта конкурента 🙂  Семантический Серверный Синонимайзер Рерайтер (по работе синонимайзера поймете почему они бесплатные 🙂 — уже есть идеи как их пофильтровать с использованием PHPMorphy). (Залил sql файлы в том виде как и было, только индексы добавил по нужным полям).

Класс PHPMorphy (вообще ВЕЩЬ!!!), работающий с морфологией взял на sourceforge.net очень сильно помог разработчик этого класса с ником Жиган — общение с ним происходило на ветке форума PHPClub, посвященной классу PHPMorphy. Возможности класса по истине впечатляют — советую! Разработчик постоянно улучшает и модифицирует класс. (посмотрев код по классу программирования ощутил себя ребенком по сравнению с автором, реально профессионал).

Есть режим работы синонимайзера в режиме формирования скелета для замен, включу на общий доступ чуть позже.

С заглавными буквами тоже позже разберусь — пока всё строчное.

В общем все желающие могут опробовать синонимазер в работе.

Буду рад выслушать ваши мнения и особенно идеи в улучшении сервиса.

P.S.
Изменения в версиях, свои соображения, а также Ваши предложения переносятся в одноименную тему на форуме «Морфологический синонимайзер на базе PHPMorphy»

ВЕЛКАМ !


21 комментарий на «“Морфологический синонимайзер на базе PHPMorphy”»

  1. […] Морфологический синонимайзер на базе PHPMorphy «батя сказал, что переждем безалаберщины дома. наново было ниче, а следом его привели восвояси под фальцножем каковые-то дяди из автоподъезда, мы с матушкой открыли, а они выебли и прирезали нас с рекой, а главу забили конечностями и ужотко обписили…» […]

  2. Когда-то я тоже хотел написать синонимайзер на phpMorphy, но до ума так и не довел.
    Твой синонимайзер затестил — неплохо, но база синонимов все портит 🙂

  3. Онлайн синонимайзер, очень хорошая штука. Вот только действительно база не очень. Нужно усовершенствовать. А так, довольно непросто..спасибо автору 🙂

  4. Сколь пробовал эти синонимайзеры, такая хрень получается… не, как набор ключевых слов покатит, но как осмысленный текст… Если множить статьи, то только в немодерируемые каталоги. Кто начнет читать, охренеет.

  5. Надо будет над прилагательными поработать, базу связей организовать. Для этого
    нужно будет очень много заведомо качественного текста где то нарыть …
    А сам синонимайзинг в полуавтоматический режим переведу с возможностью выбора корректных синонимов и добавления своих вариантов синонимов.

  6. Опробовал. В принципе задел очень хороший, особенно правильно, что испольуется морфология. Но надо пытаться учитывать часть речи синонимизируемого слова, иначе получается полная ерунда. Например, «мужской половой хуй» превращается в «дельный официантом хуй». 🙂 А лучше конечно частотность стразу приделывать, без неё всё равно никуда не уедешь.

  7. Очень оригинальный синонимайзер. Я ввела всего два слова «купить корову»
    РЕЗУЛЬТАТ — «купить дурочку»
    Совсем одно и то же. 🙂

  8. Идея хорошая, тоже собираюсь собственный синонимайзер. как планируешь его распространять?

  9. Да я про распространение не думал еще, нужно хоть каких то результатов добиться путних.

  10. вот думаю — для проверки «более правильной» замены можно гугл с яшей подключить
    запросик в скобочках — по количеству совпадений смотреть уже какая замена более подходящая

    ну и для сочетания по родам нужно либо все замены делать с одинаковым родом, что сокращает количество синонимов «стул» — «кресло» уже не прокатит. Либо как то сочетать рода — это уже сложнее 🙁

  11. Только что попробовал синонимизировать готовый текст.
    Первое впечатление: текст не читабельный и его все равно нужно дорабатывать (перечитывать и исправлять). А это доп время и силы.

    Но больше всего порадовал один подобраный синоним:
    БОЛЬШИНСТВО => СЕКСБОЛЬШИНСТВО и СЕГОДНЯ => ДНЕСЬ

    в контекста смотрелось прикольно 🙂

  12. ДОРОГИ => ТАРМАКАДАМА
    МЕСТАМИ => ИНДАМИ

    Вот что было на выдаче… когда-то в универе писал что-то подобное, правда на С++, по предмету Компьютерная лингвистика, надо порыться может найду что толковое 🙂

  13. Идея хорошая, но вот слишком уж конкурентная. На рынке и так много скриптов синонимизации, а вот написать скрипт который бы собирал базу синонимов сам, с учетом морфологии, вот этого увы нет. Ведь если база скудная то и процент замен соответствующий.

  14. да поржал, ты создал анегдото генератор :)))
    ИМХО у конкурента получилось на много лучше

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *