我需要一个简单的采集程序去采集GOOGLE的SERP数据。
不需要大规模的,类似小偷程序。
半自动去采集GOOGLE SERP一页一页去分析即可。
1,用file_get_contents("$url");函数获得GOOGL SERP 的URL
2,preg_match_all($preg, $con, $arr);通过正则分析出需要的内容
3,ECHO 输出。
这3步,似乎是读不到GOOGLE的内容的。注:百度就可以。
后来,模拟蜘蛛方法也不行。
第一个 先得到google 页面获取cookie.
第二个你get参数的时候将cookie数据带上
<?php
header("Content-type: text/html; charset=utf-8");
require('simple_html_dom.php');
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.751com.cn/search?hl=zh-CN&biw=1366&bih=649&q=ajax&oq=ajax+comment&aq=f&aqi=g9g-m1&aql=&gs_sm=e&gs_upl=5916l9958l0l10319l16l14l1l0l0l0l267l1925l0.6.4l10l0');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 GTB5');
$htmls = curl_exec($ch);
$html = str_get_html($htmls);
foreach($html->find('div[id=search]') as $element){
$fata = $element->find('li');
foreach ($fata as $link)
echo $link->innertext.'<br />';
}
?>