python學(xué)習(xí)筆記 UA_代理IP
User Agent的方法
先看下urllib.request.Request()
????從上圖可以看出,在創(chuàng)建Request對(duì)象的時(shí)候,可以傳入headers參數(shù)。?
????因此,想要設(shè)置User Agent,有兩種方法:
????1.在創(chuàng)建Request對(duì)象的時(shí)候,填入headers參數(shù)(包含User Agent信息),這個(gè)Headers參數(shù)要求為字典;
????2.在創(chuàng)建Request對(duì)象的時(shí)候不添加headers參數(shù),在創(chuàng)建完成之后,使用add_header()的方法,添加headers。
方法一:
????創(chuàng)建文件urllib_test09.py,使用上面提到的Android的第一個(gè)User Agent,在創(chuàng)建Request對(duì)象的時(shí)候傳入headers參數(shù),編寫(xiě)代碼如下:
#?-*-?coding:?UTF-8?-*- from?urllib?import?request if?__name__?==?"__main__": ????#以CSDN為例,CSDN不更改User?Agent是無(wú)法訪問(wèn)的 ????url?=?'http://www.csdn.net/' ????head?=?{} ????#寫(xiě)入U(xiǎn)ser?Agent信息 ????head['User-Agent']?=?'Mozilla/5.0?(Linux;?Android?4.1.1;?Nexus?7?Build/JRO03D)?AppleWebKit/535.19?(KHTML,?like?Gecko)?Chrome/18.0.1025.166??Safari/535.19' ?#創(chuàng)建Request對(duì)象 ????req?=?request.Request(url,?headers=head) ????#傳入創(chuàng)建好的Request對(duì)象 ????response?=?request.urlopen(req) ????#讀取響應(yīng)信息并解碼 ????html?=?response.read().decode('utf-8') ????#打印信息 ????print(html)
????運(yùn)行結(jié)果如下:
方法二:
????創(chuàng)建文件urllib_test10.py,使用上面提到的Android的第一個(gè)User Agent,在創(chuàng)建Request對(duì)象時(shí)不傳入headers參數(shù),創(chuàng)建之后使用add_header()方法,添加headers,編寫(xiě)代碼如下:
#?-*-?coding:?UTF-8?-*- from?urllib?import?request if?__name__?==?"__main__": ????#以CSDN為例,CSDN不更改User?Agent是無(wú)法訪問(wèn)的 ????url?=?'http://www.csdn.net/' ????#創(chuàng)建Request對(duì)象 ????req?=?request.Request(url) ????#傳入headers ????req.add_header('User-Agent',?'Mozilla/5.0?(Linux;?Android?4.1.1;?Nexus?7?Build/JRO03D)?AppleWebKit/535.19?(KHTML,?like?Gecko)?Chrome/18.0.1025.166??Safari/535.19') ????#傳入創(chuàng)建好的Request對(duì)象 ????response?=?request.urlopen(req) ????#讀取響應(yīng)信息并解碼 ????html?=?response.read().decode('utf-8') ????#打印信息 ????print(html)
????運(yùn)行結(jié)果和上一個(gè)方法是一樣的。
IP代理的使用
1.為何使用IP代理
????User Agent已經(jīng)設(shè)置好了,但是還應(yīng)該考慮一個(gè)問(wèn)題,程序的運(yùn)行速度是很快的,如果我們利用一個(gè)爬蟲(chóng)程序在網(wǎng)站爬取東西,一個(gè)固定IP的訪問(wèn)頻率就會(huì)很高,這不符合人為操作的標(biāo)準(zhǔn),因?yàn)槿瞬僮鞑豢赡茉趲譵s內(nèi),進(jìn)行如此頻繁的訪問(wèn)。所以一些網(wǎng)站會(huì)設(shè)置一個(gè)IP訪問(wèn)頻率的閾值,如果一個(gè)IP訪問(wèn)頻率超過(guò)這個(gè)閾值,說(shuō)明這個(gè)不是人在訪問(wèn),而是一個(gè)爬蟲(chóng)程序。
2.一般步驟說(shuō)明
????一個(gè)很簡(jiǎn)單的解決辦法就是設(shè)置延時(shí),但是這顯然不符合爬蟲(chóng)快速爬取信息的目的,所以另一種更好的方法就是使用IP代理。使用代理的步驟:
????(1)調(diào)用urlib.request.ProxyHandler(),proxies參數(shù)為一個(gè)字典。
????(2)創(chuàng)建Opener(類(lèi)似于urlopen,這個(gè)代開(kāi)方式是我們自己定制的)
????(3)安裝Opener
????使用install_opener方法之后,會(huì)將程序默認(rèn)的urlopen方法替換掉。也就是說(shuō),如果使用install_opener之后,在該文件中,再次調(diào)用urlopen會(huì)使用自己創(chuàng)建好的opener。如果不想替換掉,只是想臨時(shí)使用一下,可以使用opener.open(url),這樣就不會(huì)對(duì)程序默認(rèn)的urlopen有影響。
3.代理IP選取
????在寫(xiě)代碼之前,先在代理IP網(wǎng)站選好一個(gè)IP地址,推薦西刺代理IP。
????URL:http://www.xicidaili.com/
????注意:當(dāng)然也可以寫(xiě)個(gè)正則表達(dá)式從網(wǎng)站直接爬取IP,但是要記住不要太頻繁爬取,加個(gè)延時(shí)什么的,太頻繁給服務(wù)器帶來(lái)壓力了,服務(wù)器會(huì)直接把你block,不讓你訪問(wèn)的,我就被封了兩天。
????從西刺網(wǎng)站選出信號(hào)好的IP,我的選擇如下:(106.46.136.112:808)
????編寫(xiě)代碼訪問(wèn)http://www.whatismyip.com.tw/,該網(wǎng)站是測(cè)試自己IP為多少的網(wǎng)址,服務(wù)器會(huì)返回訪問(wèn)者的IP。
4.代碼實(shí)例
????創(chuàng)建文件urllib_test11.py,編寫(xiě)代碼如下:
#?-*-?coding:?UTF-8?-*- from?urllib?import?request if?__name__?==?"__main__": ????#訪問(wèn)網(wǎng)址 ????url?=?'http://www.whatismyip.com.tw/' ????#這是代理IP ????proxy?=?{'http':'106.46.136.112:808'} ????#創(chuàng)建ProxyHandler ????proxy_support?=?request.ProxyHandler(proxy) ????#創(chuàng)建Opener ????opener?=?request.build_opener(proxy_support) ????#添加User?Angent ????opener.addheaders?=?[('User-Agent','Mozilla/5.0?(Windows?NT?6.1;?Win64;?x64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/56.0.2924.87?Safari/537.36')] ????#安裝OPener ????request.install_opener(opener) ????#使用自己安裝好的Opener ????response?=?request.urlopen(url) ????#讀取相應(yīng)信息并解碼 ????html?=?response.read().decode("utf-8") ????#打印信息 ????print(html)
????運(yùn)行結(jié)果如下:
????從上圖可以看出,訪問(wèn)的IP已經(jīng)偽裝成了106.46.136.112。