文章詳情頁(yè)

python中繞過(guò)反爬蟲的方法總結(jié)

瀏覽：105日期：2022-07-04 11:32:09

我們?cè)诘巧降耐局校胁煌穆肪€可以到達(dá)終點(diǎn)。因?yàn)檫x擇的路線不同，上山的難度也有區(qū)別。就像最近幾天教大家獲取數(shù)據(jù)的時(shí)候，斷斷續(xù)續(xù)的講過(guò)header、地址ip等一些的方法。具體的爬取方法相信大家已經(jīng)掌握住，本篇小編主要是給大家進(jìn)行應(yīng)對(duì)反爬蟲方法的一個(gè)梳理，在進(jìn)行方法回顧的同時(shí)查漏補(bǔ)缺，建立系統(tǒng)的爬蟲知識(shí)框架。

首先分析要爬的網(wǎng)站，本質(zhì)是一個(gè)信息查詢系統(tǒng)，提供了搜索頁(yè)面。例如我想獲取某個(gè)case，需要利用這個(gè)case的id或者name字段，才能搜索到這個(gè)case的頁(yè)面。

出于對(duì)安全的考慮，有些網(wǎng)站會(huì)做一些反爬的措施，例如之前講到的需要判斷user-angent和cookies，或者判斷請(qǐng)求的ip是否在短時(shí)間內(nèi)多次訪問(wèn)。該網(wǎng)站用的是知道創(chuàng)宇的安全服務(wù)，頻繁訪問(wèn)會(huì)提示ip行為不正常。

瀏覽器本質(zhì)也是一個(gè)應(yīng)用程序，只要ip不被封，既然可以通過(guò)瀏覽器訪問(wèn)，那么我們自己寫程序來(lái)請(qǐng)求也是應(yīng)該沒(méi)有問(wèn)題的。

一些常見(jiàn)的繞過(guò)反爬蟲的措施有：

構(gòu)造消息頭：如上所說(shuō)的user-angent和cookies都包含在消息頭當(dāng)中。延長(zhǎng)請(qǐng)求間隔：如果快速頻繁的發(fā)送請(qǐng)求，會(huì)大量搶占服務(wù)器資源，一般這種情況下很容易被網(wǎng)站的安全措施檢測(cè)出來(lái)并且封掉ip。所以適當(dāng)?shù)难娱L(zhǎng)請(qǐng)求間隔，例如隨機(jī)隔2-5秒不等再發(fā)送下一次請(qǐng)求。使用代理ip，解決ip檢測(cè)問(wèn)題。

當(dāng)然常見(jiàn)的反爬蟲方法也不止以上的這些，這里只羅列出這常用的三種方法，有概念模糊的可以去往期的文章翻閱，其他的繞過(guò)反爬蟲方法

到此這篇關(guān)于python中繞過(guò)反爬蟲的方法總結(jié)的文章就介紹到這了,更多相關(guān)python中繞過(guò)反爬蟲的方法有哪些內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：python 制作簡(jiǎn)單的音樂(lè)播放器下一條：cookies應(yīng)對(duì)python反爬蟲知識(shí)點(diǎn)詳解

相關(guān)文章：

1. python實(shí)現(xiàn)讀取類別頻數(shù)數(shù)據(jù)畫水平條形圖案例2. python中PyQuery庫(kù)用法分享3. python操作數(shù)據(jù)庫(kù)獲取結(jié)果之fetchone和fetchall的區(qū)別說(shuō)明4. Ajax實(shí)現(xiàn)頁(yè)面無(wú)刷新留言效果5. 阿里前端開(kāi)發(fā)中的規(guī)范要求6. JSP+Servlet實(shí)現(xiàn)文件上傳到服務(wù)器功能7. 關(guān)于HTML5的img標(biāo)簽8. php5.6不能擴(kuò)展redis.so的解決方法9. CSS3實(shí)現(xiàn)動(dòng)態(tài)翻牌效果仿百度貼吧3D翻牌一次動(dòng)畫特效10. PHP獲取時(shí)間戳等相關(guān)函數(shù)匯總

排行榜

					
					python實(shí)現(xiàn)讀取類別頻數(shù)數(shù)據(jù)畫水平條形圖案例
python中PyQuery庫(kù)用法分享
python操作數(shù)據(jù)庫(kù)獲取結(jié)果之fetchone和fetchall的區(qū)別說(shuō)明
Docker容器如何更新打包并上傳到阿里云
Android的線程和線程池
php5.6不能擴(kuò)展redis.so的解決方法
10個(gè)提供免費(fèi)PHP腳本下載的網(wǎng)站
JSP+Servlet實(shí)現(xiàn)文件上傳到服務(wù)器功能
Java向Runnable線程傳遞參數(shù)方法實(shí)例解析
AJAX實(shí)現(xiàn)數(shù)據(jù)的增刪改查操作詳解【java后臺(tái)】
PHP擴(kuò)展之APC——Alternative PHP Cache(可選PHP緩存)