文章詳情頁

python爬蟲如何批量爬取糗事百科段子

瀏覽：145日期：2022-09-18 13:30:16

問題描述

剛學(xué)Python不會scrapy框架，就是想做個簡單爬蟲實(shí)現(xiàn)抓取前10頁段子（前N頁）。請問不用scrapy能有什么簡單一些的代碼能實(shí)現(xiàn)？之前有試過在page那里加for循環(huán)，但是也只能抓到一個頁面，不知道怎么弄。

import urllibimport urllib2import repage = 1url = ’http://www.qiushibaike.com/8hr/page/’ + str(page)user_agent = ’Mozilla/5.0 ( Windows NT 6.1)’headers = { ’User-Agent’ : user_agent }try: request = urllib2.Request(url,headers = headers) response = urllib2.urlopen(request) content = response.read().decode(’utf-8’) pattern = re.compile(’<p.*?class='content'>.*?(.*?).*?.*?’,re.S) items = re.findall(pattern,content) for item in items:print itemexcept urllib2.URLError, e: if hasattr(e,'code'):print e.code if hasattr(e,'reason'):print e.reason

問題解答

回答1：

我跑了一下你的代碼，發(fā)現(xiàn)能跑出前2個頁面，后面都返回了一個錯誤碼，我覺得是因為你沒做防反爬處理，因為你這個結(jié)果在一秒內(nèi)就跑出來了，一秒內(nèi)連續(xù)10次訪問肯定不是人能做到的。

很多網(wǎng)站都能知道你這是用代碼在刷他們的網(wǎng)站，有些網(wǎng)站很討厭這個，會做反爬處理，可能直接把你的 IP 都給封了，讓你沒法訪問，因為如果不這樣做，短時間內(nèi)直接訪問太多次的話可能會把人家的網(wǎng)站都弄癱瘓了。

我的建議是每爬完一個頁面等待1秒，修改了下你的代碼：

import urllibimport urllib2import reimport timefor page in range(1, 11): print(’at page %s’ % page) url = ’http://www.qiushibaike.com/8hr/page/’ + str(page) user_agent = ’Mozilla/5.0 ( Windows NT 6.1)’ headers = { ’User-Agent’ : user_agent } try:request = urllib2.Request(url,headers = headers)response = urllib2.urlopen(request)content = response.read().decode(’utf-8’)pattern = re.compile(’<p.*?class='content'>.*?(.*?).*?.*?’,re.S)items = re.findall(pattern,content)for item in items: print item except urllib2.URLError, e:if hasattr(e,'code'): print e.codeif hasattr(e,'reason'): print e.reasontime.sleep(1)

我這邊是能出結(jié)果的，不過我想向你推薦另一個第三方的庫，叫 requests，既然你會 urllib，這也就不難，但是使用起來更人性化，配合 BeatuifulSoup 庫(用來解析和處理 HTML 文本的)很方便，你也可以去網(wǎng)上搜一下，了解一下。

還有就是以后做爬蟲一定要注意做防反爬處理！

Python 編程

上一條：網(wǎng)絡(luò)爬蟲 - python sys 模塊設(shè)置編碼老是報錯下一條：mysql - python開發(fā)web service 中數(shù)據(jù)庫鏈接和釋放應(yīng)該怎么處理？

相關(guān)文章：

1. nignx - docker內(nèi)nginx 80端口被占用2. java - SSH框架中寫分頁時service層中不能注入分頁類3. angular.js - angular內(nèi)容過長展開收起效果4. docker鏡像push報錯5. python3.x - python連oanda的模擬交易api獲取json問題第五問6. docker-machine添加一個已有的docker主機(jī)問題7. node.js - 我是一個做前端的，求教如何學(xué)習(xí)vue，node等js引擎？8. html5 - 百度echart官網(wǎng)下載的地圖json數(shù)據(jù)亂碼9. debian - docker依賴的aufs-tools源碼哪里可以找到啊？10. 關(guān)于docker下的nginx壓力測試

排行榜

					
					docker-machine添加一個已有的docker主機(jī)問題
nignx - docker內(nèi)nginx 80端口被占用
docker鏡像push報錯
angular.js - angular內(nèi)容過長展開收起效果
java - SSH框架中寫分頁時service層中不能注入分頁類
python3.x - python連oanda的模擬交易api獲取json問題第五問
關(guān)于docker下的nginx壓力測試
為什么我ping不通我的docker容器呢？？？
dockerfile - [docker build image失敗- npm install]
debian - docker依賴的aufs-tools源碼哪里可以找到啊？
node.js - 我是一個做前端的，求教如何學(xué)習(xí)vue，node等js引擎？
				

熱門標(biāo)簽

久久r热视频,国产午夜精品一区二区三区视频,亚洲精品自拍偷拍,欧美日韩精品二区

python爬蟲如何批量爬取糗事百科段子