多线程的cURL

全屏阅读
  • 基本信息
  • 作者:
  • 作者已发布:924篇文章
  • 发布时间:2021年05月05日 23:46:39
  • 所属分类:Mysql优化, PHP+MySql
  • 阅读次数:2048次阅读
  • 标签:

[PHP]代码 

<?php
 
class request_setting {
    public $url = false;
    public $method = 'GET';
    public $post_data = null;
    public $headers = null;
    public $options = null;
    function __construct($url, $method = "GET", $post_data = null, $headers = null, $options = null) {
        $this->url = $url;
        $this->method = $method;
        $this->post_data = $post_data;
        $this->headers = $headers;
        $this->options = $options;
    }
    public function __destruct() {
        unset($this->url, $this->method, $this->post_data, $this->headers, $this->options);
    }
}
/***********************************************************************************************
    批量操作的类
*******************************************************************************************/
class muti_curl {
    protected   $thread_size = 100;
    protected   $timeout = 30;
    private     $callback;
    protected   $options = array(
        CURLOPT_SSL_VERIFYPEER => false,//禁用后cURL将终止从服务端进行验证。使用CURLOPT_CAINFO选项设置证书使用CURLOPT_CAPATH选项设置证书目录 如果CURLOPT_SSL_VERIFYPEER(默认值为2)被启用,CURLOPT_SSL_VERIFYHOST需要被设置成TRUE否则设置为FALSE。    自cURL 7.10开始默认为TRUE。从cURL 7.10开始默认绑定安装。
        CURLOPT_RETURNTRANSFER => true,  //将 curl_exec()获取的信息以文件流的形式返回,而不是直接输
        CURLOPT_CONNECTTIMEOUT => 15,
        CURLOPT_TIMEOUT => 30,
//      CURLOPT_HTTP_VERSION=>CURL_HTTP_VERSION_1_0, //使用代理的时候用这个去抓取数据,更爽
//      CURLOPT_AUTOREFERER=>false,//     当根据Location:重定向时,自动设置header中的Referer:信息。   
//      CURLOPT_BINARYTRANSFER=>false,    //在启用CURLOPT_RETURNTRANSFER的时候,返回原生的(Raw)输出这个不用设置。 
//      CURLOPT_COOKIESESSION=>true,//    启用时curl会仅仅传递一个session cookie,忽略其他的cookie,默认状况下cURL会将所有的cookie返回
//      CURLOPT_CRLF=>false,//    启用时将Unix的换行符转换成回车换行符。  
//      CURLOPT_DNS_USE_GLOBAL_CACHE=>false, // 启用时会启用一个全局的DNS缓存,此项为线程安全的,并且默认启用。    
//      CURLOPT_FAILONERROR=>false,  // 显示HTTP状态码,默认行为是忽略编号小于等于400的HTTP信息。   
//      CURLOPT_FILETIME=>true,   //启用时会尝试修改远程文档中的信息。结果信息会通过 curl_getinfo()函数的CURLINFO_FILETIME选项返回。 curl_getinfo(). 
//      CURLOPT_FOLLOWLOCATION=>false, //     启用时会将服务器服务器返回的"Location: "放在header中递归的返回给服务器,使用CURLOPT_MAXREDIRS可以限定递归返回的数量。   
//      CURLOPT_FORBID_REUSE=>true,   //在完成交互以后强迫断开连接,不能重用。  
//      CURLOPT_FRESH_CONNECT=>true,//    强制获取一个新的连接,替代缓存中的连接。   
//      CURLOPT_FTP_USE_EPRT=>false,//    启用时当FTP下载时,使用EPRT (或 LPRT)命令。设置为FALSE时禁用EPRT和LPRT,使用PORT命令 only.   
//      CURLOPT_FTP_USE_EPSV=>false,//    启用时,在FTP传输过程中回复到PASV模式前首先尝试EPSV命令。设置为FALSE时禁用EPSV命令。   
//      CURLOPT_FTPAPPEND=>false,//   启用时追加写入文件而不是覆盖它。   
//      CURLOPT_FTPASCII=>false,//   CURLOPT_TRANSFERTEXT的别名。    
//      CURLOPT_FTPLISTONLY=>false,//     启用时只列出FTP目录的名字。    
//      CURLOPT_HEADER=>true,//   启用时会将头文件的信息作为数据流输出。    
//      CURLINFO_HEADER_OUT=>false,   //启用时追踪句柄的请求字符串。   
//      CURLOPT_HTTPGET=>true,//  启用时会设置HTTP的method为GET,因为GET是默认是,所以只在被修改的情况下使用。 
//      CURLOPT_HTTPPROXYTUNNEL =>true,// 启用时会通过HTTP代理来传输。   
//      CURLOPT_MUTE=>true,//     启用时将cURL函数中所有修改过的参数恢复默认值。  
//      CURLOPT_NETRC=>false,//   在连接建立以后,访问~/.netrc文件获取用户名和密码信息连接远程站点。  
//      CURLOPT_NOBODY=>true,     启用时将不对HTML中的BODY部分进行输出。    
//      CURLOPT_NOPROGRESS=>false,//启用时关闭curl传输的进度条,此项的默认设置为启用。
//      CURLOPT_NOSIGNAL=>false,//    启用时忽略所有的curl传递给php进行的信号。在SAPI多线程传输时此项被默认启用。     cURL 7.10时被加入。
//      CURLOPT_POST=>false,//    启用时会发送一个常规的POST请求,类型为:application/x-www-form-urlencoded,就像表单提交的一样。 
//      CURLOPT_PUT=>false,//     启用时允许HTTP发送文件,必须同时设置CURLOPT_INFILE和CURLOPT_INFILESIZE。 
//      CURLOPT_TRANSFERTEXT=>false,//    启用后对FTP传输使用ASCII模式。对于LDAP,它检索纯文本信息而非HTML。在Windows系统上,系统不会把STDOUT设置成binary模式。   
//      CURLOPT_UNRESTRICTED_AUTH=>true,//    在使用CURLOPT_FOLLOWLOCATION产生的header中的多个locations中持续追加用户名和密码信息,即使域名已发生改变。    
//      CURLOPT_UPLOAD=>false,//  启用后允许文件上传。 
//      CURLOPT_VERBOSE =>true,// 启用时会汇报所有的信息,存放在STDERR或指定的CURLOPT_STDERR中。
    );
    private     $headers = array();
    private     $requests = array();
    private     $requestMap = array();
    /*********************
        构造一个callback的函数
    ********************/
    function __construct($callback = null) {
        $this->callback = $callback;
    }
 
    /********************************************************************
     重载 __get的方法
     *******************************************************************/
     public function __get($name) {
        return (isset($this->{$name})) ? $this->{$name} : null;
    }
 
    /*********************************************************************
     重载 __set的方法
     *******************************************************/
    public function __set($name, $value) {
        // 增加一个设置到headers
        if ($name == "options" || $name == "headers") {
            $this->{$name} = $value + $this->{$name};
        } else {
            $this->{$name} = $value;
        }
        return true;
    }
    //增加一个请求
     public function add($request) {
        $this->requests[] = $request;
        return true;
    }
 
 
    public function request($url, $method = "GET", $post_data = null, $headers = null, $options = null) {
        $this->requests[] = new request_setting($url, $method, $post_data, $headers, $options);
        return true;
    }
 
    public function get($url, $headers = null, $options = null) {
        return $this->request($url, "GET", null, $headers, $options);
    }
 
    public function post($url, $post_data = null, $headers = null, $options = null) {
        return $this->request($url, "POST", $post_data, $headers, $options);
    }
 
    private function single_curl() {
        $ch = curl_init();  //初始化
        $request = array_shift($this->requests);//把第一个单元移出并作为结果
        $options = $this->get_options($request);//获得该单元的设置
        curl_setopt_array($ch, $options);//批设置
        $output = curl_exec($ch);
        $curl_info = curl_getinfo($ch);
 
        if ($this->callback) {
            $callback = $this->callback;
            if (is_callable($this->callback)) {
                call_user_func($callback, $output, $curl_info, $request);
            }
        }
        else
            return $output;
        return true;
    }
 
   
    private function rolling_curl($thread_size = null) {
        if ($thread_size){
            $this->thread_size = $thread_size;
        }
      
        if (count($this->requests) < $this->thread_size){
            $this->thread_size = count($this->requests);
        }
        if ($this->thread_size < 2) {
            $errorinfo = '线程大小必须大于 1!!!!';
            throw new Exception($errorinfo);
        }
        $queue = curl_multi_init();
 
        //在线程里开始增加任务队列
        for ($i = 0; $i < $this->thread_size; $i++) {
            $ch = curl_init();
            $options = $this->get_options($this->requests[$i]);
            curl_setopt_array($ch, $options);//获得设置
            curl_multi_add_handle($queue, $ch);//添加进去
            $key = (string) $ch;
            $this->requestMap[$key] = $i;
        }
        do {
            while (($statu_run_muti_exec = curl_multi_exec($queue, $active)) == CURLM_CALL_MULTI_PERFORM) ;
            if ($statu_run_muti_exec != CURLM_OK){  break;  }
            // 发现完成的一个请求,进行处理
            while ($done = curl_multi_info_read($queue)) {
                $curl_info = curl_getinfo($done['handle']);
                $output = curl_multi_getcontent($done['handle']);
                $callback = $this->callback;
                if (is_callable($callback)){
                    $key = (string) $done['handle'];
                    $request = $this->requests[$this->requestMap[$key]];
                    unset($this->requestMap[$key]);//这个销毁变量用得很帅
                    call_user_func($callback, $output, $curl_info, $request);
                }
                //增加一个未处理的请求加入到一个已经完成的队列中
                if ($i < count($this->requests) && isset($this->requests[$i]) && $i < count($this->requests)) {
                    $ch = curl_init();
                    $options = $this->get_options($this->requests[$i]);
                    curl_setopt_array($ch, $options);
                    curl_multi_add_handle($queue, $ch);
                    $key = (string) $ch;
                    $this->requestMap[$key] = $i;
                    $i++;
                }
                curl_multi_remove_handle($queue, $done['handle']);
                echo "done ";
                print_r($queue);
                print_r ($done);
            }
            // 这一步非常非常重要如果有一个完成后,要重新设置设置timeout的时间
            //这里很关键的一点,就是要保证第一次所有的线程里的请求最少有一个是有效的,否则就出现第一次所有的都没有效果,导致 $active=0,因此不执行下面的东西
            if ($active >0){
                curl_multi_select($queue, $this->timeout);
            }
 
        } while ($active);
        curl_multi_close($queue);
        return true;
    }
    public function execute($thread_size = null) {
        //判断thread_size的大小如果只有一个请求,就用单线程模式
        if (count($this->requests) == 1) {
            return $this->single_curl();
        } else {
            return $this->rolling_curl($thread_size);
        }
    }
    private function get_options($request) {
        $options = $this->__get('options');
        if (ini_get('safe_mode') == 'Off' || !ini_get('safe_mode')) {
//          $options[CURLOPT_FOLLOWLOCATION] = 1;
//          $options[CURLOPT_MAXREDIRS] = 5;
        }
        $headers = $this->__get('headers');
         
        if ($request->options) {
            $options = $request->options + $options;
        }
        $options[CURLOPT_URL] = $request->url;
        //下面分别对post选项与header选项进行设置
        if ($request->post_data){
            $options[CURLOPT_POST] = 1;
            $options[CURLOPT_POSTFIELDS] = $request->post_data;
        }
        if ($headers) {
            $options[CURLOPT_HEADER] = 0;
            $options[CURLOPT_HTTPHEADER] = $headers;
        }
        return $options;
    }
 
    public function __destruct() {
        unset($this->thread_size, $this->callback, $this->options, $this->headers, $this->requests);
    }
}
?>

此文件利用muti_curl的方法来多线程的检查代理ip是否可用   

<?php
header("content-type:text/html; charset=utf-8");
require("muti_curl_class.php");
set_time_limit(0);
$sucesesnum=0;
$good_proxy=array();
function request_callback($response, $info, $request) {
    global $sucesesnum,$good_proxy;
//  下面的正则可以对返回的结果进行选择性显示
/*  if (preg_match("~<title>(.*?)</title>~i", $response, $out)) {
            $title = $out[1];
    }*/
//  echo '<br>'.$response .'<br>';
    echo '<br>';
//对响应也就是    $response 进行检测判断里面是否有设定的字符,如果有判断运用该代理成功
    if( $response !== false && substr_count($response, 'User-agent: Baiduspider') >=1 ) {
            //  $result = true;
        echo "true<br>";
//      echo $request[options][10004];
//      print_r ($request->options);
        echo $request->options[CURLOPT_PROXY];
        $good_proxy[]=$request->options[CURLOPT_PROXY];
    }
    echo '<br>the-->'. $sucesesnum.'<---use:'. $info['total_time']; 
//  print_r ($request);
    //echo $request->url;
    $sucesesnum++;
    echo "<hr>";
}
$params = array_merge($_GET, $_POST); //此处获得传递过来的代理ip的地址
$result = $proxy_ip = trim($params['ip']);
$timeout=intval(trim($params['timeout']));
if($timeout<3 ){$timeout=3;}
if($timeout>300){$timeout=300;}
$thread_size=intval(trim($params['thread_size']));
if($thread_size<5){$thread_size =5;}
if($thread_size>300){$thread_size =300;}
 
if($proxy_ip == '') {
    echo '请输入IP!!';
    return;
}
$replace_arr1 = array('&nbsp;', 'qq代理:', 'dn28.com', 'qqip', 'qq代理', 'qq代理ip', '代理ip:', 'ip:', '代理ip','"',"'",'\\','/',' ');
$result = str_replace($replace_arr1, array(''), $result);
$result = str_replace(",", "\n", $result);
$resArr = explode("\n", $result);
foreach($resArr as $k => $v) {
    $posProxy = getPos($v, '@');
    if($posProxy===false){
        if (!empty($v)){$proxyip_and_port = $v; }
    }else{
        $proxyip_and_port = substr($v, 0, $posProxy);
    }
    $newRes[] =trim($proxyip_and_port);
}
print_r($newRes);
//die();
$option_setting = array(
        CURLOPT_SSL_VERIFYPEER => 0,
        CURLOPT_RETURNTRANSFER => true,
        CURLOPT_CONNECTTIMEOUT => 5,
        CURLOPT_TIMEOUT => 30,
        CURLOPT_HEADER=>false,
        CURLOPT_PROXY=>'',//这个地方设置代理的位置
    );
$url= 'http://www.baidu.com/robots.txt';
$btime=time();
$rc = new muti_curl("request_callback");
$rc->timeout = $timeout;
$rc->thread_size = $thread_size;
foreach ($newRes as $v) {
    $option_setting[CURLOPT_PROXY]=$v;
    $request = new request_setting($url, $method = "GET", $post_data = null,$header= null, $option_setting);
    $rc->add($request);
}
$rc->execute();
$etime=time();
$usedtime=$etime-$btime;
echo 'all'. $sucesesnum.'use'. $usedtime; 
echo '<hr>';
$good_proxy= array_unique($good_proxy);
$str='';
foreach  ($good_proxy as $v){
    $str.="'".trim($v)."',";
}
$str= str_replace ( ' ' , '' ,$str );
$str = preg_replace('/\s+/', ' ', $str);
echo $str.'<br>';
var_export ($good_proxy);
//var_dump ($good_proxy);
 
 
 
 
 
 
 
 
 
 
 
 
 
//**************************************************************************************************
//*******************************只用了一个函数
 
function parseProxyInfo ( $proxyStr ) {
    //$proxyStr = '202.115.207.25:80@HTTP;四川省成都市 四川师范大学';
    $posIp = getPos($proxyStr, ':');
    $ip = substr($proxyStr, 0, $posIp);
    $posPort = getPos($proxyStr, '@');
    $port = substr($proxyStr, $posIp+1, $posPort-$posIp-1);
    $posType = getPos($proxyStr, ';');
    $type = substr($proxyStr, $posPort+1, $posType-$posPort-1);
    $location = substr(strstr($proxyStr, ';'), 1);
    return array(
                'ip'    =>   $ip,
                'port'  =>   $port,
                'type'  =>   $type,
                'location'  =>   $location
            );
}
 
function getPos($haystack, $needle){
    return strpos($haystack, $needle);
}
 
function check_proxy_is_useful($model, $proxy_info_arr = array()) {
    global $params, $config;
    if($model == 'single') {
        $proxy_port = intval(trim($params['port']));
        $check_proxy_url = $config['verify_url'];
        $proxy_time_out = intval(trim($params['timeout']));
        $retry = intval(trim($params['retry']));
        $proxy_ip = trim($params['ip']);
        $proxy = new proxy( $proxy_ip, $proxy_port, $check_proxy_url, $proxy_time_out, $retry );
        //成功返回string success, 失败返回boolean false
        $result = $proxy -> check_proxy();
        //var_dump($result);
        $proxy_str_success = '<font color="green">'.$proxy_ip.':'.$proxy_port.'@'.'HTTP 代理验证成功!</font>';
        $proxy_str_failed = '<font color="red">'.$proxy_ip.':'.$proxy_port.'@'.'HTTP 代理验证失败!</font>';
        return $result !== false ? $proxy_str_success : $proxy_str_failed;  
    } elseif ($model == 'collect') {
        $proxy_port = intval(trim($proxy_info_arr['port']));
        $check_proxy_url = $config['verify_url'];
        $proxy_time_out = intval(trim($params['timeout']));
        $retry = intval(trim($params['retry']));
        $proxy_ip = trim($proxy_info_arr['ip']);
        /*echo $proxy_ip.'<br />';
        echo $proxy_port.'<br />';
        echo $check_proxy_url.'<br />';
        echo $proxy_time_out.'<br />';
        echo $retry.'<br />';*/
        if(!isset($proxy)) {
            $proxy = new proxy( $proxy_ip, $proxy_port, $check_proxy_url, $proxy_time_out, $retry );
        }       
        //成功返回string success, 失败返回boolean false
        $result = $proxy -> check_proxy();
        return $result;
    }
}
 
function get_single(){
    global $params, $config;
    $proxy_ip = trim($params['ip']);
    if($proxy_ip == '') {
        echo '请输入IP!!';
        return;
    }
    echo check_proxy_is_useful('single');
}
 
function get_proxy_by_collect(){
    global $params, $config;
    $params['url'] = trim($params['url']);
    if($params['url'] == '') {
        echo '请输入url!';
        return;
    }
    //$url = 'http://www.dn28.com/html/75/n-5175.html';
    $con = iconv('GBK', 'UTF-8', file_get_contents($params['url']));
    preg_match ('/<\/TBODY><\/TABLE>(.*)<BR><div class="adbox">/s', $con, $arr);
    $result = strip_tags ($arr[1], '<BR>');
    $replace_arr1 = array('&nbsp;', 'qq代理:', 'dn28.com', 'qqip', 'qq代理', 'qq代理ip', '代理ip:', 'ip:', '代理ip');
    $result = str_replace($replace_arr1, array(''), $result);
    //print_r($arr);
    $resArr = explode('<BR>', $result);
    //print_r($resArr);
    echo '<h3>代理开始批量验证中,整个过程将会花费您几分钟时间。</h3>';
    unset($_SESSION['success_arr']);
    foreach($resArr as $k => $v) {
        $newRes[$k] = parseProxyInfo($v);
        //print_r($newRes[$k]);
        /*return;*/
        $result = check_proxy_is_useful('collect', $newRes[$k]);
        $proxy_str_success = '<font color="green">'.$newRes[$k]['ip'].':'.$newRes[$k]['port'].'@'.$newRes[$k]['type'].' 代理验证成功!&nbsp;&nbsp;&nbsp;IP地址:'.$newRes[$k]['location'].'</font>';
        $proxy_str_failed = '<font color="red">'.$newRes[$k]['ip'].':'.$newRes[$k]['port'].'@'.$newRes[$k]['type'].' 代理验证失败!&nbsp;&nbsp;&nbsp;IP地址:'.$newRes[$k]['location'].'</font>';
        if($result !== false ){
            echo $proxy_str_success;
            $_SESSION['success_arr'][] = $success_arr[] = $newRes[$k];
        } else {
            echo $proxy_str_failed; 
        }
        echo '<br />';
    }
    if(isset($success_arr) && count($success_arr) > 0 ) {
        save_success_proxy($success_arr);
        echo '<p style="text-align:center; font-size: 14px; padding: 30px 0;"><a target="_blank" href="export.php">[保存验证成功的代理到本地电脑]</a>&nbsp;&nbsp;&nbsp;<a target="_blank" href="history_proxy.php">[我要看看历史数据]</a></p>';
    } else {
        echo '<p style="text-align:center; font-size: 14px; padding: 30px 0;"><a target="_blank" href="history_proxy.php">[我要看看历史数据]</a></p>';
    }
    //print_r($success_arr);
}
 
function get_proxy_by_rule(){
    global $params, $config;
    $result = $proxy_ip = trim($params['ip']);
    if($proxy_ip == '') {
        echo '请输入IP!!';
        return;
    }
    $replace_arr1 = array('&nbsp;', 'qq代理:', 'dn28.com', 'qqip', 'qq代理', 'qq代理ip', '代理ip:', 'ip:', '代理ip');
    $result = str_replace($replace_arr1, array(''), $result);
    $resArr = explode("\n", $result);
    //print_r($resArr);
    echo '<h3>代理开始批量验证中,整个过程将会花费您几分钟时间。</h3>';
    unset($_SESSION['success_arr']);
    foreach($resArr as $k => $v) {
        $newRes[$k] = parseProxyInfo($v);
        //print_r($newRes[$k]);
        /*return;*/
        $result = check_proxy_is_useful('collect', $newRes[$k]);
        //var_dump($result);
        $proxy_str_success = '<font color="green">'.$newRes[$k]['ip'].':'.$newRes[$k]['port'].'@'.$newRes[$k]['type'].' 代理验证成功!&nbsp;&nbsp;&nbsp;IP地址:'.$newRes[$k]['location'].'</font>';
        $proxy_str_failed = '<font color="red">'.$newRes[$k]['ip'].':'.$newRes[$k]['port'].'@'.$newRes[$k]['type'].' 代理验证失败!&nbsp;&nbsp;&nbsp;IP地址:'.$newRes[$k]['location'].'</font>';
        if($result !== false ){
            echo $proxy_str_success;
            $_SESSION['success_arr'][] = $success_arr[] = $newRes[$k];
        } else {
            echo $proxy_str_failed; 
        }
        echo '<br />';
    }
    if(isset($success_arr) && count($success_arr) > 0 ) {
        save_success_proxy($success_arr);
        echo '<p style="text-align:center; font-size: 14px; padding: 30px 0;"><a target="_blank" href="export_var.php">[保存到php格式文件]</a>&nbsp;&nbsp;&nbsp;<a target="_blank" href="export.php">[保存验证成功的代理到本地电脑]</a>&nbsp;&nbsp;&nbsp;<a target="_blank" href="history_proxy.php">[我要看看历史数据]</a></p>';
    } else {
        echo '<p style="text-align:center; font-size: 14px; padding: 30px 0;"><a target="_blank" href="history_proxy.php">[我要看看历史数据]</a></p>';
    }
}
 
function save_success_proxy($success_arr){
    global $config;
    date_default_timezone_set('PRC');
    $str = '';
    foreach($success_arr as $k => $v) {
        $str .= $v['ip'].':'.$v['port'].'@'.$v['type'].';'.$v['location']."\n";
    }
    $fp = fopen($config['root_path'].'/success_proxy/'.date('YmdHi').'.log', 'a+');
    fwrite($fp, $str);
    fclose($fp);
    unset($str);
}
 
?>

顶一下
(0)
100%
订阅 回复
踩一下
(0)
100%
» 固定链接:恒富网 » 《多线程的cURL》
» 郑重声明:本文由mpxq168发布,所有内容仅代表个人观点。版权归恒富网mpxq168共有,欢迎转载, 但未经作者同意必须保留此段声明,并给出文章连接,否则保留追究法律责任的权利! 如果本文侵犯了您的权益,请留言。

目前有 0 条留言 其中:访客:0 条, 博主:0 条

给我留言

您必须 [ 登录 ] 才能发表留言!