網(wǎng)頁(yè)爬蟲(chóng) - Python requests.get 爬蟲(chóng) 設(shè)置代理 IP地址未改變
問(wèn)題描述
工作需要爬取亞馬遜上面的信息,但是亞馬遜反爬蟲(chóng)太厲害,同一個(gè)IP地址會(huì)被封。Python版本:3.6, IDE:Pycharm 2017.1在網(wǎng)上查了很多資料,requests庫(kù)的手冊(cè)也讀過(guò),但是都是同一個(gè)方法,代碼如下:
import requests’’’代理IP地址(高匿)’’’proxy = {’HTTPS’: ’117.85.105.170:808’}’’’head 信息’’’head = {’User-Agent’: ’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36’, ’Connection’: ’keep-alive’}’’’http://icanhazip.com會(huì)返回當(dāng)前的IP地址’’’p = requests.get(’http://icanhazip.com’, headers=head, proxies=proxy)print(p.text)
根據(jù)我看過(guò)的許多教程的理論,如果代理設(shè)置成功,最后顯示的IP應(yīng)該是代理的IP地址,但是最終還是我真實(shí)的IP地址,這樣一來(lái)不就等于沒(méi)有設(shè)置代理么?
問(wèn)題解答
回答1:proxies在你訪問(wèn)http時(shí)用http的設(shè)置,訪問(wèn)https時(shí)用https的設(shè)置所以你的proxy需要同時(shí)包含http及https的配置,這樣才能生效
proxy = { ’http’: ’http://117.85.105.170:808’, ’https’: ’https://117.85.105.170:808’}
相關(guān)文章:
1. 點(diǎn)擊頁(yè)面就自動(dòng)輸入到mysql.求解2. java - IDEA從SVN檢出項(xiàng)目 并在tomcat上運(yùn)行 求詳細(xì)流程3. node.js - 帶有node_modules目錄的項(xiàng)目,用phpstorm打開(kāi)速度極慢,怎么解決?4. node.js - nodejs使用formidable上傳文件問(wèn)題5. java - 多叉樹(shù)求值,程序高手,算法高手看過(guò)來(lái)6. javascript - windos下第一次用Django無(wú)法正確創(chuàng)建工程目錄7. css - 請(qǐng)問(wèn)B站頂部的模糊半透明導(dǎo)航條是怎么實(shí)現(xiàn)的呢?8. html5 - 有人做過(guò)防微信app界面的H5 demo嗎?9. javascript - JS用ajax爬取百度外賣店家信息10. 靜態(tài)資源文件引入無(wú)效
