现在的网站对爬虫会有严格的限制,一旦IP超出访问数量,就会被禁止再次访问,所以我们要用到代理IP来破除这些反爬虫限制。下面我们先来看看用代理IP要怎么操作。
用代理IP来破解网站反爬策略,以下是IP精灵带来的具体代码分享:
import urllib.request as ur
proxy_address = ur.urlopen('http://api.ip.data5u.com/dynamic/get.html?order=d314e5e5e19b0dfd19762f98308114ba&sep=4').read().decode('utf-8').strip()
print(proxy_address)
# 创建proxy_handler
proxy_handler = ur.ProxyHandler(
{
'http':proxy_address
}
)
# 新建opener对象
proxy_opener = ur.build_opener(proxy_handler)
request = ur.Request(url='https://edu.csdn.net/')
reponse = proxy_opener.open(request).read()
print(reponse)
不同的网站用的反爬策略可能是不一样的,所以我们要针对不同的方式来进行破除,使用代理IP只是常规操作。