Давеча сваял парсер Ajax выдачи (с помощью которого выудил 36к доменов начинающихся со слова forum*), кто читает мои публикации – не сложно вычислит откуда именно дёрнул 😉
Раньше, кстати, не приходилось распарсивать ajax-выдачу …
Итак, что же навело меня на написание скрипта ?
Поле для ввода (input) – где после ввода нескольких символов, выскакивала подсказка для выбора из 15-ти доменов, начинающихся с введённых символов (где нашел – не скажу). Конечно же первые символы были forum, далее перебор всех вариантов и складывание результата в файл (к счастью никаких защит от подобного перебора не обнаружилось).
Кто знаком с принципом Ajax запросов – понимает, что эта технология – те же запросы и те же результаты, что и обычные, но передаваемые скриптом javascript. Соответственно, дабы не копаться в JS коде я открыл встроенный в браузер http сниффер LiveHTTPHeaders “Просмотр http заголовков” – где и глянул на какой адрес и какой именно запрос отправляется. Далее дело техники …
P.S.
Как наверное многие догадались – снова осуществляется попытка подзаработать с помощью чёрных SEO методов.
Для осуществления оной понадобился многопоточный чекер ссылок – оживил старые наработки асинхронного php чекера на базе AunoAsyncHttp, но в нём немного разочаровался – при установке в 100 потоков, в процессе работы он поднимал максимум одновременно 15 потоков (зато всё это из одного потока) – решил как появится время всё же заняться java – там эта задача имхо решилась бы более правильно, так же наверное ещё поэксперементирую с многопоточным курлом.
Дабы снова не изобретать велосипед – спрошу – кто чем пользуется для массовой проверки страниц ?
6 комментариев на «“Парсер Ajax выдачи”»
“Дабы снова не изобретать велосипед — спрошу — кто чем пользуется для массовой проверки страниц ?”
Имеется ввиду проверка “200 OK” ?
Да, на данном этапе на “200 OK”.
Позже ещё проверку на индексированность буду делать – но это “разговор” с поисковиками – и совсем другая тема, хотя если по массовой проверки на индексированность, что-то имеется – было бы здорово.
Хрумером номан проверяется))) Только есть момент. Если “там” стоит страница-заглушка, а сайт не робит на самом деле, покажет что все “ок” сайт робит.
Хрумак не хочется нагружать на подобное – у него есть более интересные задачи, да и сам чекер желателен серверный – в смысле чтоб на nix-системе можно было пускать (дабы сервак работал не только для хостинга).
Я заодно ещё вхождение “forum” на странице проверяю
Дружище, огромное спасибо!!!
Благодаря LiveHTTPHeaders, я просек от куда подгружается материал, и написал парсер под свои нужды!
Спасибо мэн!