重慶分公司,新征程啟航
為企業(yè)提供網(wǎng)站建設、域名注冊、服務器等服務
為企業(yè)提供網(wǎng)站建設、域名注冊、服務器等服務
這篇文章主要介紹了Python數(shù)據(jù)抓取爬蟲代理防封IP的示例分析,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
爬蟲:一段自動抓取互聯(lián)網(wǎng)信息的程序,從互聯(lián)網(wǎng)上抓取對于我們有價值的信息,一般來說,Python爬蟲程序很多時候都要使用(飛豬IP)代理的IP地址來爬取程序,但是默認的urlopen是無法使用代理的IP的,我就來分享一下Python爬蟲怎樣使用代理IP的經(jīng)驗。
1、劃重點,小編我用的是Python3哦,所以要導入urllib的request,然后我們調用ProxyHandler,它可以接收代理IP的參數(shù)。代理可以根據(jù)自己需要選擇,當然免費的也是有的,但是可用率可想而知的。(飛豬IP)
2、接著把IP地址以字典的形式放入其中,這個IP地址是我亂寫的,只是用來舉例。設置鍵為http,當然有些是https的,然后后面就是IP地址以及端口號(9000),具體看你的IP地址是什么類型的,不同IP端口號可能不同根據(jù)你在飛豬提取的端口為準。
3、接著再用build_opener()來構建一個opener對象。
4、然后調用構建好的opener對象里面的open方法來發(fā)生請求。實際上urlopen也是類似這樣使用內部定義好的opener.open(),這里就相當于我們自己重寫。
5、當然了,如果我們使用install_opener(),就可以把之前自定義的opener設置成全局的。
6、設置成全局之后,如果我們再使用urlopen來發(fā)送請求,那么發(fā)送請求使用的IP地址就是代理IP,而不是本機的IP地址了。
7、最后再來說說使用代理遇到的錯誤,提示目標計算機積極拒絕,這就說明可能是代理IP無效,或者端口號錯誤,這就需要使用有效的IP才行哦。(這邊現(xiàn)在是亂填寫的IP地址)可選擇飛豬的代理IP。
感謝你能夠認真閱讀完這篇文章,希望小編分享的“Python數(shù)據(jù)抓取爬蟲代理防封IP的示例分析”這篇文章對大家有幫助,同時也希望大家多多支持創(chuàng)新互聯(lián),關注創(chuàng)新互聯(lián)行業(yè)資訊頻道,更多相關知識等著你來學習!