.
Место для Вашей рекламы
28 Март 2011

Парсер Ajax выдачи

posted in Программирование |

Давеча сваял парсер Ajax выдачи (с помощью которого выудил 36к доменов начинающихся со слова forum*), кто читает мои публикации — не сложно вычислит откуда именно дёрнул 😉

Раньше, кстати,  не приходилось распарсивать ajax-выдачу …

Итак, что же навело меня на написание скрипта ?

Поле для ввода (input) — где после ввода нескольких символов, выскакивала подсказка для выбора из 15-ти доменов, начинающихся с введённых символов (где нашел — не скажу). Конечно же первые символы были forum, далее перебор всех вариантов и складывание результата в файл (к счастью никаких защит от подобного перебора не обнаружилось).

Кто знаком с принципом Ajax запросов — понимает, что эта технология  — те же запросы и те же результаты, что и обычные, но передаваемые скриптом javascript. Соответственно, дабы не копаться в JS коде я открыл встроенный в браузер http сниффер LiveHTTPHeaders «Просмотр http заголовков» — где и глянул на какой адрес и какой именно запрос отправляется. Далее дело техники …

P.S.

Как наверное многие догадались — снова осуществляется попытка подзаработать с помощью чёрных SEO методов.

Для осуществления оной понадобился многопоточный чекер ссылок — оживил старые наработки асинхронного php чекера на базе AunoAsyncHttp, но в нём немного разочаровался — при установке в 100 потоков, в процессе работы он поднимал максимум одновременно 15 потоков (зато всё это из одного потока) — решил как появится время всё же заняться java — там эта задача имхо решилась бы более правильно, так же наверное ещё поэксперементирую с многопоточным курлом.

Дабы снова не изобретать велосипед — спрошу — кто чем пользуется для массовой проверки страниц ?

У нас 6 комментариев на запись “Парсер Ajax выдачи”

Почему бы Вам не высказать своем мнение! Позвольте нам узнать, что Вы думаете...

  1. 1 On 28.03.2011, Диман said:

    «Дабы снова не изобретать велосипед — спрошу — кто чем пользуется для массовой проверки страниц ?»

    Имеется ввиду проверка «200 OK» ?

  2. 2 On 28.03.2011, GTAlex said:

    Да, на данном этапе на «200 OK».
    Позже ещё проверку на индексированность буду делать — но это «разговор» с поисковиками — и совсем другая тема, хотя если по массовой проверки на индексированность, что-то имеется — было бы здорово.

  3. 3 On 28.03.2011, Диман said:

    Хрумером номан проверяется))) Только есть момент. Если «там» стоит страница-заглушка, а сайт не робит на самом деле, покажет что все «ок» сайт робит.

  4. 4 On 28.03.2011, GTAlex said:

    Хрумак не хочется нагружать на подобное — у него есть более интересные задачи, да и сам чекер желателен серверный — в смысле чтоб на nix-системе можно было пускать (дабы сервак работал не только для хостинга).

  5. 5 On 28.03.2011, GTAlex said:

    Я заодно ещё вхождение «forum» на странице проверяю

  6. 6 On 24.05.2012, 4ksner said:

    Дружище, огромное спасибо!!!
    Благодаря LiveHTTPHeaders, я просек от куда подгружается материал, и написал парсер под свои нужды!
    Спасибо мэн!

Оставить комментарий

Яндекс.Метрика