Парсер Яндекс.Маркета
Стоит задача написать скрипт для интернет магазина, который будет время от времени ходить по яндекс.маркету и парсить оттуда цены по соответствующим позициям (всего примерно 7000 позиций).
Всё было хорошо, пока на стадии тестирования яндекс не начал отдавать curlу страничку, где подозревает, что я робот и требует ввести капчу.
Вопроса вобщем-то два:
1) Как теперь разблокировать сайт - т.е. капчу надо ввести от имени сайта - с его ай-пи и возможно, какие-то куки нужны.
2) Как обойти это ограничение на яндекс.маркете в парсере?
По 1-ому пункту написал скрипт:
/** * GeSHi (C) 2004 - 2007 Nigel McNie, 2007 - 2008 Benny Baumann * (http://qbnz.com/highlighter/ and http://geshi.org/) */ .php.geshi_code {font-family:monospace;} .php.geshi_code .imp {font-weight: bold; color: red;} .php.geshi_code .kw1 {color: #b1b100;} .php.geshi_code .kw2 {color: #000000; font-weight: bold;} .php.geshi_code .kw3 {color: #990000;} .php.geshi_code .co1 {color: #666666; font-style: italic;} .php.geshi_code .co2 {color: #666666; font-style: italic;} .php.geshi_code .co3 {color: #0000cc; font-style: italic;} .php.geshi_code .co4 {color: #009933; font-style: italic;} .php.geshi_code .coMULTI {color: #666666; font-style: italic;} .php.geshi_code .es0 {color: #000099; font-weight: bold;} .php.geshi_code .es1 {color: #000099; font-weight: bold;} .php.geshi_code .es2 {color: #660099; font-weight: bold;} .php.geshi_code .es3 {color: #660099; font-weight: bold;} .php.geshi_code .es4 {color: #006699; font-weight: bold;} .php.geshi_code .es5 {color: #006699; font-weight: bold; font-style: italic;} .php.geshi_code .es6 {color: #009933; font-weight: bold;} .php.geshi_code .es_h {color: #000099; font-weight: bold;} .php.geshi_code .br0 {color: #009900;} .php.geshi_code .sy0 {color: #339933;} .php.geshi_code .sy1 {color: #000000; font-weight: bold;} .php.geshi_code .st0 {color: #0000ff;} .php.geshi_code .st_h {color: #0000ff;} .php.geshi_code .nu0 {color: #cc66cc;} .php.geshi_code .nu8 {color: #208080;} .php.geshi_code .nu12 {color: #208080;} .php.geshi_code .nu19 {color:#800080;} .php.geshi_code .me1 {color: #004000;} .php.geshi_code .me2 {color: #004000;} .php.geshi_code .re0 {color: #000088;} .php.geshi_code span.xtra { display:block; }
<?
require_once('../classes/simple_html_dom.php');
$url = 'http://market.yandex.ru/captcha/check-captcha.xml?retpath=%2f%3f'; // какой адрес мучаем
$script_url = 'http://'.$_SERVER['HTTP_HOST'].$_SERVER['SCRIPT_NAME']; // полный адрес нашего скрипта
$url = $url.'&'.$_SERVER['QUERY_STRING'];
// откуда перешли
$ref = $last_url ? $last_url : 'http://market.yandex.ru/captcha/captcha.xml?retpath=%2f';
// подключаемся к странице
list($res,$last_url) = open_url($url,$ref,false);
// конвертируем в нужную кодировку и загоняем в парсер
$dom = str_get_html(iconv('utf-8','windows-1251',$res));
$action = $dom->find('form',0,true)->action;
// меняем action формы на полный
$dom->find('form',0,true)->action = $script_url;
// выводим страничку
echo $dom;
function open_url ($url,$ref, $post = false) {
$ch = curl_init();
$post_data = '';
if(is_array($post) && $post){
foreach($post as $k=>$v) {
$post_data .= "$k=".urlencode($v)."&";
}
}
curl_setopt($ch, CURLOPT_URL,$url);
curl_setopt($ch, CURLOPT_USERAGENT,$_SERVER['HTTP_USER_AGENT']);
curl_setopt($ch, CURLOPT_REFERER, $ref);
curl_setopt($ch, CURLOPT_FAILONERROR, 0);
curl_setopt($ch, CURLOPT_AUTOREFERER, 1);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION , 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_COOKIESESSION, 1);
// грузим куки
curl_setopt($ch, CURLOPT_COOKIE, 'cookie.txt');
curl_setopt($ch, CURLOPT_TIMEOUT, 20); // 20 секунд тайм аута должно хватить
// curl_setopt($ch, CURLOPT_PROXY, "177.107.74.156:3128");
if($post_data){
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $post_data);
}
$res = curl_exec($ch);
if(!$res){
echo curl_error($ch).'('.curl_errno($ch).')';
}
$last_url = curl_getinfo($ch,CURLINFO_EFFECTIVE_URL);
echo '<pre style="background:#eee; border:1px dashed #999; margin:10px; padding:10px">';
print_r(curl_getinfo($ch));
echo "nn$url";
echo '</pre>';
curl_close($ch);
return array($res,$last_url);
}
?>
Т.е. curl достаёт эту форму, далее заполняю её - всё уходит обратно скрипту, а он уже отправляет это дело яндексую Но не помогает - каждый раз просто новый код капчи вылазит.
Всё было хорошо, пока на стадии тестирования яндекс не начал отдавать curlу страничку, где подозревает, что я робот и требует ввести капчу.
Вопроса вобщем-то два:
1) Как теперь разблокировать сайт - т.е. капчу надо ввести от имени сайта - с его ай-пи и возможно, какие-то куки нужны.
2) Как обойти это ограничение на яндекс.маркете в парсере?
По 1-ому пункту написал скрипт:
/** * GeSHi (C) 2004 - 2007 Nigel McNie, 2007 - 2008 Benny Baumann * (http://qbnz.com/highlighter/ and http://geshi.org/) */ .php.geshi_code {font-family:monospace;} .php.geshi_code .imp {font-weight: bold; color: red;} .php.geshi_code .kw1 {color: #b1b100;} .php.geshi_code .kw2 {color: #000000; font-weight: bold;} .php.geshi_code .kw3 {color: #990000;} .php.geshi_code .co1 {color: #666666; font-style: italic;} .php.geshi_code .co2 {color: #666666; font-style: italic;} .php.geshi_code .co3 {color: #0000cc; font-style: italic;} .php.geshi_code .co4 {color: #009933; font-style: italic;} .php.geshi_code .coMULTI {color: #666666; font-style: italic;} .php.geshi_code .es0 {color: #000099; font-weight: bold;} .php.geshi_code .es1 {color: #000099; font-weight: bold;} .php.geshi_code .es2 {color: #660099; font-weight: bold;} .php.geshi_code .es3 {color: #660099; font-weight: bold;} .php.geshi_code .es4 {color: #006699; font-weight: bold;} .php.geshi_code .es5 {color: #006699; font-weight: bold; font-style: italic;} .php.geshi_code .es6 {color: #009933; font-weight: bold;} .php.geshi_code .es_h {color: #000099; font-weight: bold;} .php.geshi_code .br0 {color: #009900;} .php.geshi_code .sy0 {color: #339933;} .php.geshi_code .sy1 {color: #000000; font-weight: bold;} .php.geshi_code .st0 {color: #0000ff;} .php.geshi_code .st_h {color: #0000ff;} .php.geshi_code .nu0 {color: #cc66cc;} .php.geshi_code .nu8 {color: #208080;} .php.geshi_code .nu12 {color: #208080;} .php.geshi_code .nu19 {color:#800080;} .php.geshi_code .me1 {color: #004000;} .php.geshi_code .me2 {color: #004000;} .php.geshi_code .re0 {color: #000088;} .php.geshi_code span.xtra { display:block; }
<?
require_once('../classes/simple_html_dom.php');
$url = 'http://market.yandex.ru/captcha/check-captcha.xml?retpath=%2f%3f'; // какой адрес мучаем
$script_url = 'http://'.$_SERVER['HTTP_HOST'].$_SERVER['SCRIPT_NAME']; // полный адрес нашего скрипта
$url = $url.'&'.$_SERVER['QUERY_STRING'];
// откуда перешли
$ref = $last_url ? $last_url : 'http://market.yandex.ru/captcha/captcha.xml?retpath=%2f';
// подключаемся к странице
list($res,$last_url) = open_url($url,$ref,false);
// конвертируем в нужную кодировку и загоняем в парсер
$dom = str_get_html(iconv('utf-8','windows-1251',$res));
$action = $dom->find('form',0,true)->action;
// меняем action формы на полный
$dom->find('form',0,true)->action = $script_url;
// выводим страничку
echo $dom;
function open_url ($url,$ref, $post = false) {
$ch = curl_init();
$post_data = '';
if(is_array($post) && $post){
foreach($post as $k=>$v) {
$post_data .= "$k=".urlencode($v)."&";
}
}
curl_setopt($ch, CURLOPT_URL,$url);
curl_setopt($ch, CURLOPT_USERAGENT,$_SERVER['HTTP_USER_AGENT']);
curl_setopt($ch, CURLOPT_REFERER, $ref);
curl_setopt($ch, CURLOPT_FAILONERROR, 0);
curl_setopt($ch, CURLOPT_AUTOREFERER, 1);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION , 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_COOKIESESSION, 1);
// грузим куки
curl_setopt($ch, CURLOPT_COOKIE, 'cookie.txt');
curl_setopt($ch, CURLOPT_TIMEOUT, 20); // 20 секунд тайм аута должно хватить
// curl_setopt($ch, CURLOPT_PROXY, "177.107.74.156:3128");
if($post_data){
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $post_data);
}
$res = curl_exec($ch);
if(!$res){
echo curl_error($ch).'('.curl_errno($ch).')';
}
$last_url = curl_getinfo($ch,CURLINFO_EFFECTIVE_URL);
echo '<pre style="background:#eee; border:1px dashed #999; margin:10px; padding:10px">';
print_r(curl_getinfo($ch));
echo "nn$url";
echo '</pre>';
curl_close($ch);
return array($res,$last_url);
}
?>
Т.е. curl достаёт эту форму, далее заполняю её - всё уходит обратно скрипту, а он уже отправляет это дело яндексую Но не помогает - каждый раз просто новый код капчи вылазит.
1 ответов
Как то давно тоже писал парсер яндекс маркета и тоже сталкивался с такой проблемой. Делал задержки все равно не помогало. Запустили через прокси, и каждый запрос от парсера проходил с нового IP адреса, диапазон был около 50 адресов, плюс задержки, в общем скрипт работал минут 30, затем разворачивал joomla с каталогом товаров и цен.
Если нет возможности также использовать прокси, нужно писать распознавание капчи или искать в нете онлайн сервисы, пробовать скормить им капчу яндекса, и если сможет распознать, то написать парсер для этого сервиса с отправкой картинки и получением текста.
У яндекс.маркета же есть вменяемый апи
http://api.yandex.ru/market/
Вам точно нужен именно парсер?