<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Блог GTAlex - о работе в сети и не только &#187; парсинг</title>
	<atom:link href="http://gtalex.ru/tag/parsing/feed" rel="self" type="application/rss+xml" />
	<link>http://gtalex.ru</link>
	<description>SEO, Яндекс, Google, PHP, Apache, nginx, CMS, создание, взлом и защита сайтов...</description>
	<lastBuildDate>Wed, 01 Feb 2012 10:05:05 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=abc</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<xhtml:meta xmlns:xhtml="http://www.w3.org/1999/xhtml" name="robots" content="noindex" />
		<item>
		<title>PHP парсеры RSS лент articlesbase.com rusarticles.com lenta.ru</title>
		<link>http://gtalex.ru/php-parsery-rss-lent-articlesbase-com-rusarticles-com-lenta-ru</link>
		<comments>http://gtalex.ru/php-parsery-rss-lent-articlesbase-com-rusarticles-com-lenta-ru#comments</comments>
		<pubDate>Thu, 27 Aug 2009 15:21:44 +0000</pubDate>
		<dc:creator>GTAlex</dc:creator>
				<category><![CDATA[SEO]]></category>
		<category><![CDATA[Программирование]]></category>
		<category><![CDATA[парсинг]]></category>
		<category><![CDATA[статьи]]></category>

		<guid isPermaLink="false">http://blog.gtalex.ru/?p=681</guid>
		<description><![CDATA[ Для поддержки баз в актуальном состоянии&#160;&#8212; в дополнение к парсерам всех статей articlesbase.com rusarticles.com lenta.ru, которые сваял на днях&#160;&#8212; сегодня были дописаны парсеры RSS лент этих же порталов.
Для lenta.ru помимо парсера статей дописаны модули парсинга новостей, авто-новостей, медицинских-новостей (в работе недвижимость и пресс-релизы)&#160;&#8212; хоть это парсеры практически разных порталов&#160;&#8212; все  парсеры входят в стоимость [...]]]></description>
			<content:encoded><![CDATA[<p> Для поддержки баз в актуальном состоянии&nbsp;&mdash; в дополнение к парсерам всех статей articlesbase.com rusarticles.com lenta.ru, которые сваял на днях&nbsp;&mdash; сегодня были дописаны парсеры RSS лент этих же порталов.</p>
<p>Для lenta.ru помимо парсера статей дописаны модули парсинга новостей, авто-новостей, медицинских-новостей (в работе недвижимость и пресс-релизы)&nbsp;&mdash; <em>хоть это парсеры практически разных порталов&nbsp;&mdash; все  парсеры входят в стоимость одного комплекта !!!</em></p>
<p>Покупателям парсера какого либо из 3х вышеуказанных сайтов&nbsp;&mdash; полная база и RSS парсер в подарок.</p>
<p><strong>ВНИМАНИЕ !!! AHTUNG !!! АКЦИЯ !!! ДЕЙПИНГОВЫЕ ЦЕНЫ !!!</strong></p>
<p>Стоимость одного комплекта&nbsp;&mdash; 15$<br />
Желающим купить 2 парсера&nbsp;&mdash; 3й в подарок !<br />
То есть все 3 комплекта&nbsp;&mdash; всего 30$ !</p>
<p>Отдельно текущая актуальная база&nbsp;&mdash; 5$<br />
При покупке 2х баз&nbsp;&mdash; третья в подарок !<br />
То есть все 3 базы&nbsp;&mdash; всего 10$ !</p>
<p>P.S.</p>
<p>База Articlesbase.com по причине ОГРОМНОГО количества статей&nbsp;&mdash; еще в процессе</p>
<p><center>&copy; <a href="http://blog.gtalex.ru/"> Блог GTAlex </a> - деньги из паутины </center></p>
<p align="center"><a target="_blank" class="tt" href="http://twitter.com/home/?status=PHP+%D0%BF%D0%B0%D1%80%D1%81%D0%B5%D1%80%D1%8B+RSS+%D0%BB%D0%B5%D0%BD%D1%82+articlesbase.com+rusarticles.com+lenta.ru+http://tinyurl.com/6jfnf8b" title="Post to Twitter"><img class="nothumb" src="http://gtalex.ru/wp-content/plugins/tweet-this/icons/tt-twitter.png" alt="Post to Twitter" /></a> <a target="_blank" class="tt" href="http://twitter.com/home/?status=PHP+%D0%BF%D0%B0%D1%80%D1%81%D0%B5%D1%80%D1%8B+RSS+%D0%BB%D0%B5%D0%BD%D1%82+articlesbase.com+rusarticles.com+lenta.ru+http://tinyurl.com/6jfnf8b" title="Post to Twitter">ReTweet</a></p>
]]></content:encoded>
			<wfw:commentRss>http://gtalex.ru/php-parsery-rss-lent-articlesbase-com-rusarticles-com-lenta-ru/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>Все статьи с rusarticles.ru и lenta.ru</title>
		<link>http://gtalex.ru/vse-stati-s-rusarticles-ru-i-lenta-ru</link>
		<comments>http://gtalex.ru/vse-stati-s-rusarticles-ru-i-lenta-ru#comments</comments>
		<pubDate>Fri, 21 Aug 2009 06:38:20 +0000</pubDate>
		<dc:creator>GTAlex</dc:creator>
				<category><![CDATA[SEO]]></category>
		<category><![CDATA[Новости / Обзоры]]></category>
		<category><![CDATA[База статей]]></category>
		<category><![CDATA[контент]]></category>
		<category><![CDATA[парсинг]]></category>
		<category><![CDATA[статьи]]></category>
		<category><![CDATA[текст]]></category>

		<guid isPermaLink="false">http://blog.gtalex.ru/?p=676</guid>
		<description><![CDATA[ Для обучения своего будущего рерайтера-синонимайзера напарсил все статьи с rusarticles.ru и lenta.ru (около 33 тыс. и 10 тыс. соотвественно)&#160;&#8212; в архивах по 51 Мб и 44 Мб. Информация о тематике для всех статей сохранена.
Если кому нужно&#160;&#8212; уступлю за по 10 WMZ за каждый.
P.S.
Вышел свеженький номер seodigest&#160;&#8212; Новый дизайн и верстка мне особенно понравились ! [...]]]></description>
			<content:encoded><![CDATA[<p> Для обучения своего будущего рерайтера-синонимайзера напарсил все статьи с rusarticles.ru и lenta.ru (около 33 тыс. и 10 тыс. соотвественно)&nbsp;&mdash; в архивах по 51 Мб и 44 Мб. Информация о тематике для всех статей сохранена.</p>
<p>Если кому нужно&nbsp;&mdash; уступлю за по 10 WMZ за каждый.</p>
<p>P.S.<br />
Вышел свеженький номер <a href="http://www.seodigest.ru/">seodigest</a>&nbsp;&mdash; Новый дизайн и верстка мне особенно понравились ! Ну а материал там всегда интересен.</p>
<p><a href="http://forum.gtalex.ru/index.php?topic=19.0">Обсуждение баз статей на форуме</a></p>
<p><center>&copy; <a href="http://blog.gtalex.ru/"> Блог GTAlex </a> - деньги из паутины </center></p>
<p align="center"><a target="_blank" class="tt" href="http://twitter.com/home/?status=%D0%92%D1%81%D0%B5+%D1%81%D1%82%D0%B0%D1%82%D1%8C%D0%B8+%D1%81+rusarticles.ru+%D0%B8+lenta.ru+http://tinyurl.com/5s8dcwv" title="Post to Twitter"><img class="nothumb" src="http://gtalex.ru/wp-content/plugins/tweet-this/icons/tt-twitter.png" alt="Post to Twitter" /></a> <a target="_blank" class="tt" href="http://twitter.com/home/?status=%D0%92%D1%81%D0%B5+%D1%81%D1%82%D0%B0%D1%82%D1%8C%D0%B8+%D1%81+rusarticles.ru+%D0%B8+lenta.ru+http://tinyurl.com/5s8dcwv" title="Post to Twitter">ReTweet</a></p>
]]></content:encoded>
			<wfw:commentRss>http://gtalex.ru/vse-stati-s-rusarticles-ru-i-lenta-ru/feed</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
		<item>
		<title>Парсинг поисковиков&#160;&#8212; язык запросов, парсеры, тонкости запросов</title>
		<link>http://gtalex.ru/parsing-poiskovikov-yazyk-zaprosov-parsery-tonkosti-zaprosov</link>
		<comments>http://gtalex.ru/parsing-poiskovikov-yazyk-zaprosov-parsery-tonkosti-zaprosov#comments</comments>
		<pubDate>Mon, 15 Jun 2009 08:22:28 +0000</pubDate>
		<dc:creator>GTAlex</dc:creator>
				<category><![CDATA[SEO]]></category>
		<category><![CDATA[парсер]]></category>
		<category><![CDATA[парсинг]]></category>

		<guid isPermaLink="false">http://blog.gtalex.ru/?p=549</guid>
		<description><![CDATA[ Давно уже хотел запостить свои размышления о парсинге поисковых систем&#160;&#8212; всё руки не доходили ...
У кого самые большие базы данных по онлайн информации ?&#160;&#8212; Правильно&#160;&#8212; у поисковиков ! Желая зарабатывать в онлайне денежки имхо просто необходимо уметь необходимую информацию вытягивать и этих баз ...
Итак&#160;&#8212; что такое поисковик надеюсь все знают, соответственно начнем с того, [...]]]></description>
			<content:encoded><![CDATA[<p> Давно уже хотел запостить свои размышления о парсинге поисковых систем&nbsp;&mdash; всё руки не доходили ...</p>
<p>У кого самые большие базы данных по онлайн информации ?&nbsp;&mdash; Правильно&nbsp;&mdash; у поисковиков ! Желая зарабатывать в онлайне денежки имхо просто необходимо уметь необходимую информацию вытягивать и этих баз ...</p>
<p>Итак&nbsp;&mdash; что такое поисковик надеюсь все знают, соответственно начнем с того, что поднимем вопрос&nbsp;&mdash; <strong>такое парсинг и для чего он нужен ?</strong></p>
<p><em><strong>Парсингом </strong></em>в нашем контексте работы принято называть процесс выделения необходимой информации с определенных web страниц и сохранение полученной информации. Соответствующее программное обеспечение, осуществляющее парсинг называют <strong>парсерам</strong>. Парсеры значительно упрощают процесс т.к. делают это в автоматическом либо полу-автоматическом режиме.</p>
<p>Как правило парсеры применяются для поиска определенных ресурсов, либо определенного контента. Например поиск баз для спама&nbsp;&mdash; гостевых книг, форумов, блогов, адресов email,  поиск тематических статей для дальшейшего репостинга и реврайта.</p>
<p>Итак&nbsp;&mdash; что же тут такого, эдакого ?</p>
<p>А то, что для того, чтоб достичь поставленные результаты&nbsp;&mdash; т.е. напарсить максимально большое количество материала, просто необходимо владеть языком запросов той поисковой машины, которую парсим. Информации в сети довольно много и для начала я бы посоветовал проанализировать выдачу по соответствующим запросам &laquo;Язык запросов&raquo; Яндекса и Гугла.</p>
<p>По Яндексу, в принципе достаточно и <a href="http://help.yandex.ru/search/?id=481939" target="_blank">встроенного описания языка запросов </a></p>
<p>А вот <a href="http://www.google.ru/help/cheatsheet.html" target="_blank">гугловское описание</a> очень урезанное ... может в гугле и есть полное, но с лёту не нашел. Поэтому вот, что больше всего понравилось мне:</p>
<p><a href="http://www.onlineci.ru/googlecd.htm" target="_blank">Компактное описание Google</a></p>
<p><a href="http://www.googleguide.com/advanced_operators_reference.html" target="_blank">Аdvanced operators reference</a></p>
<p><a href="http://www.nlr.ru/res/inv/ic_old/google.htm" target="_blank">Заметки для простого поиска</a></p>
<p>Теперь чуток подробнее в режиме рассуждений на примере парсинга Гугла&nbsp;&mdash; допустим собиваем ссылочные базы гостевых книг и форумов:</p>
<p>Для начала конечно же необходимо подробно изучить как можно больше &laquo;кандидатов&raquo;&nbsp;&mdash; т.е. работающих примеров на разных движках.  (По умолчанию считаю, что Язык запросов , что уже изучен.)</p>
<p>* особенности URL-ов для регистрации, постинга и других специфических страничек (наличие в ссылке кеев guestbook, forum и пр.)</p>
<p>* особенности заполнения тайтла  (ключевые слова Форум, Гостевая книга и пр.)</p>
<p>* наличие на страничке определенного специфического текста, соответствующего данному движку (powered by phpbb, и пр.)</p>
<p>* наличие в анкорах на страничке определенного специфического текста (как правило тоже связано с используемым движком)</p>
<p>Далее столкнувшись с весьма неприятным ограничением по максимальному количеству отдаваемых страниц выдачи, напрягаем извилины в сторону &laquo;дробления&raquo; полученных результатов (неоходимо когда поисковик говорит, что результатов найдено дикие миллионы, а дает выдернуть только тыщу).</p>
<p>А в &laquo;дроблении&raquo; нам как раз очень поможет язык запросов !</p>
<p>* ну во первых неплохо бы исключить &laquo;дохлые&raquo; ресурсы добавляем в запрос <strong>-error -warning </strong>и т.п.</p>
<p>* дробим по доменным зонам и доменам <strong>site:ru site:com ...</strong></p>
<p>* при<strong> </strong>запросах а-ля inurl:forum без использвания intitle можно дробить как раз по intitle:"a b" intitle:"aba" (тупо перебирая разные варианты)</p>
<p>* вообще можно в любые текстовые запросы добавлять перебор вариантов, напр. sign the guestbook &laquo;g&raquo;, sign the guestbook &laquo;h&raquo; и т.д.</p>
<p>* в найденном по текстовым, либо тайтловым запросам можно включать либо исключать по типам урлов Напр. -inurl:"html" +inurl:"html" и т.д.</p>
<p>* для поиска в диапазоне используем цифровые операторы напр. <strong>page=#1:30#</strong>, так же можно и перебором <strong>page=1, page=2</strong> и т.д. (где потребуется)</p>
<p><strong>Маленькие хитрости</strong><strong></strong></p>
<p>* конкретно при парсинге Гугла можно использовать различные дата-центры (это распределит нагрузку и исключит возможность бана одним дата-центром)</p>
<p>* особое внимание уделяем многоязычности при поиске, например гостевая книга в url-ах на разных языках может выглядеть очень по-разному guestbook, guestebook, gaestebuch, gastenboek, gaestebogen, gjestebok и т.д.   сам текст &laquo;добавить сообщение&raquo; и другие ключевики тоже</p>
<p>* конечно же не забываем о различных сокращениях и использования спец символов guest_b, guest-b, g-book и т.д.</p>
<p>* при парсинге ну допустим сабмит-форм не обязательно ведь выходить сразу на эту форму, возможно есть очень специфические странички которые гораздо легче &laquo;вытянуть&raquo;, расположенные по соседству. Напр.  viewprofile viewtopcomments и прочее...</p>
<p>* отдельно внимание стоит уделить обратному поиску&nbsp;&mdash; т.е. зная какими запросами (фарма, казино, порно кейворды) в основном спамят&nbsp;&mdash; искать уже эти ресурсы.  Непосредственно найденные ресурсы использовать не рекомендую&nbsp;&mdash; т.к. уже заспамленые, а вот найти, что то &laquo;новенькое&raquo; по типу самого ресурса&nbsp;&mdash; и уже искать подобные&nbsp;&mdash; весьма полезно.</p>
<p>* желательно распределять запросы так, чтобы с одного IP было не более 1000 в сутки</p>
<p><em>В общем довольно творческий процесс получается <img src='http://gtalex.ru/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /><br />
</em></p>
<p><strong>Напоследок пару слов о парсерах</strong></p>
<p>Вообще лично мне нравился Aura SE Parser 1.1 &nbsp;&mdash; долгое время именно его и юзал, но к сожалению разработчик куда то запропал  и проект умер. Парсер написан на перле, исходный код никак не защищен&nbsp;&mdash; поэтому если есть желающие &laquo;оживить&raquo; софтину&nbsp;&mdash; стучите в личку. &laquo;Оживление&raquo; думаю не должно быть проблематичным&nbsp;&mdash; имхо нужно только подкорректировать регулярки да запросы.</p>
<p>Кому интересно ознакомиться поближе&nbsp;&mdash; велкам: <a href="http://gtalex.ru/aura/" target="_blank">интерфейс ауры </a>и <a href="http://gtalex.ru/aura/User%20Guide/index.html" target="_blank">мануал</a></p>
<p>(повторяю&nbsp;&mdash; парсер в данный момент не парсит)</p>
<p>Добавлено 08.07.09  непосредственно Аура -  <a href="http://blog.gtalex.ru/files/aura-cgi.tar.gz" target="_blank">CGI</a> и <a href="http://blog.gtalex.ru/files/aura-http.tar.gz" target="_blank">HTTP</a> (perl специалисты&nbsp;&mdash; велкам)</p>
<p>Вообще, в идеале, парсер должен уметь следующее:</p>
<p>* Осуществлять многопоточный парсинг</p>
<p>* Работать через прокси (разных типов)</p>
<p>* Исходя из вышеперечисленного, желательно чтоб парсер был серверный (не win32)</p>
<p>* Запросы и регулярки для парсинга должны быть доступны для правки</p>
<p>* Автоматическое дробление при большом количестве найденных результатов</p>
<p>* ВООБЩЕ идеально было бы подключение какого нить сервиса типа анти-капчи&nbsp;&mdash; если поисковик усомниться в чистоте ваших намерений и подсунет капчу&nbsp;&mdash; вуаля ! и работаем дальше&nbsp;&mdash; но подобных фич я еще не видел ... (хотя реализация не сложная)</p>
<p>* Ну и пожелания, как и ко всему Программному обеспечению&nbsp;&mdash; хороший мануал, отзывчивый и дружественный саппорт, своевременные обновления (если вдруг формат выдачи поменяется)<em> </em></p>
<p><em>кстати у Aura SE Parser мануал&nbsp;&mdash; супер, один из лучших которые я когда либо видел&nbsp;&mdash; всем бы так !</em></p>
<p>P.S.</p>
<p>В давние времена, собирал базы признаков для парсинга&nbsp;&mdash; где то покупал, где то так сливал, дополнял сам ...  В общем думаю будет интересно посмотреть, на конкретных примерах и материал лучше усваивается&nbsp;&mdash; <a href="http://blog.gtalex.ru/files/upload/requests.rar" target="_blank">Поисковые запросы для парсинга гостевых книг и форумов</a></p>
<p><center>&copy; <a href="http://blog.gtalex.ru/"> Блог GTAlex </a> - деньги из паутины </center></p>
<p align="center"><a target="_blank" class="tt" href="http://twitter.com/home/?status=%D0%9F%D0%B0%D1%80%D1%81%D0%B8%D0%BD%D0%B3+%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%BE%D0%B2%D0%B8%D0%BA%D0%BE%D0%B2%C2%A0%E2%80%94+%D1%8F%D0%B7%D1%8B%D0%BA+%D0%B7%D0%B0%D0%BF%D1%80%D0%BE%D1%81%D0%BE%D0%B2%2C+%D0%BF%D0%B0%D1%80%D1%81%D0%B5%D1%80%D1%8B%2C+%D1%82%D0%BE%D0%BD%D0%BA%D0%BE%D1%81%D1%82%D0%B8+%D0%B7%D0%B0%D0%BF%D1%80%D0%BE%D1%81%D0%BE%D0%B2+http://tinyurl.com/6hjgyjj" title="Post to Twitter"><img class="nothumb" src="http://gtalex.ru/wp-content/plugins/tweet-this/icons/tt-twitter.png" alt="Post to Twitter" /></a> <a target="_blank" class="tt" href="http://twitter.com/home/?status=%D0%9F%D0%B0%D1%80%D1%81%D0%B8%D0%BD%D0%B3+%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%BE%D0%B2%D0%B8%D0%BA%D0%BE%D0%B2%C2%A0%E2%80%94+%D1%8F%D0%B7%D1%8B%D0%BA+%D0%B7%D0%B0%D0%BF%D1%80%D0%BE%D1%81%D0%BE%D0%B2%2C+%D0%BF%D0%B0%D1%80%D1%81%D0%B5%D1%80%D1%8B%2C+%D1%82%D0%BE%D0%BD%D0%BA%D0%BE%D1%81%D1%82%D0%B8+%D0%B7%D0%B0%D0%BF%D1%80%D0%BE%D1%81%D0%BE%D0%B2+http://tinyurl.com/6hjgyjj" title="Post to Twitter">ReTweet</a></p>
]]></content:encoded>
			<wfw:commentRss>http://gtalex.ru/parsing-poiskovikov-yazyk-zaprosov-parsery-tonkosti-zaprosov/feed</wfw:commentRss>
		<slash:comments>16</slash:comments>
		</item>
	</channel>
</rss>

