全球主机交流论坛

标题: 求助:php如何采集淘宝搜索内容 [打印本页]

作者: tyucom    时间: 2020-3-16 10:47
标题: 求助:php如何采集淘宝搜索内容
用的国外加洲5刀一年的VPS, 上面建一个采集站,无法采集淘宝,怎么解决呢?


采集地址:

https://s.taobao.com/search?q=连衣裙


<?php

$geturl = "https://s.taobao.com/search?q=连衣裙";

    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $geturl);
    curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);        
    curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");//3.请求方式
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);//https 不验证信息
    curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);//https 不验证信息
    curl_setopt($ch, CURLOPT_REFERER, 'www.taobao.com');        //设置 referer   来自哪个网站
    curl_setopt ($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0'); //用户访问代理 User-Agent  
    curl_setopt($ch, CURLOPT_TIMEOUT, 20);                        //超时时间
    $html1 = curl_exec($ch);
    curl_close($ch);

        echo  $html1;

?>

执行后采集不到内容,其它网站正常

各位大神有什么解决方法么?
作者: 米奥    时间: 2020-3-16 10:49
有那么简单吗,大公司防爬虫的手段多的是。
作者: tyucom    时间: 2020-3-16 10:49
论坛版规严,现重新发出!

有大牛懂的,给帮助一下,  在此先谢了!
作者: tyucom    时间: 2020-3-16 10:51
米奥 发表于 2020-3-16 10:49
有那么简单吗,大公司防爬虫的手段多的是。

大公司

爬虫好复杂

我是用PHP简单能实现就好,以前淘宝网页可以直接这么采的
作者: yrj    时间: 2020-3-16 10:51
劝楼主放弃吧。淘宝的反爬很严格,真的去爬,很少有人会用php。我不是打击楼主积极性,看楼主连php curl都调试不明白,后续遇到的问题会更无从下手
作者: tyucom    时间: 2020-3-16 10:54
yrj 发表于 2020-3-16 10:51
劝楼主放弃吧。淘宝的反爬很严格,真的去爬,很少有人会用php。我不是打击楼主积极性,看楼主连php curl都 ...

谢谢,  

这段代码只是  复制过来的。   

以前是可以curl 到内容的

现在难道真不能这样简单采了?
作者: 豆浆    时间: 2020-3-16 10:55
放弃吧, 淘宝搞千人千面,爬了有啥用
作者: :::    时间: 2020-3-16 11:01
既然爬,好歹用python爬吧 就算不成功 也显得咱是专业的
作者: 南瓜头    时间: 2020-3-16 11:02
以前淘宝火车头也可以随便采集 现在要登陆才能采集  时间一长就要出验证码
作者: tyucom    时间: 2020-3-16 11:04
::: 发表于 2020-3-16 11:01
既然爬,好歹用python爬吧 就算不成功 也显得咱是专业的

  python爬   专业,   

不会,看来得学习
作者: tyucom    时间: 2020-3-16 11:06
南瓜头 发表于 2020-3-16 11:02
以前淘宝火车头也可以随便采集 现在要登陆才能采集  时间一长就要出验证码 ...


谢谢!

看来这个难题不好解

ai.taobao.com  可以简单采,同样也是采多了就采不到了
作者: 南瓜头    时间: 2020-3-16 11:09
tyucom 发表于 2020-3-16 11:06
谢谢!

看来这个难题不好解

既然会php  有些数据不是api直接可以调用出来啊  
作者: tyucom    时间: 2020-3-16 11:15
南瓜头 发表于 2020-3-16 11:09
既然会php  有些数据不是api直接可以调用出来啊


淘宝有API查询接口,我去试试


作者: xljbear    时间: 2020-3-16 11:16
淘宝的搜索必须要先登陆
作者: Zeros    时间: 2020-3-16 11:20
5刀一年??
来个AFF




欢迎光临 全球主机交流论坛 (https://fd.vvwvv.eu.org/) Powered by Discuz! X3.4