文章詳情頁

python - scrapy 處理文章分頁的內容

瀏覽：116日期：2022-08-03 16:15:10

問題描述

如一篇文章有2-3頁，然后想把這些內容頁爬下來，拼接成一頁，然后再放入數據庫。文章url如：article_1.html,article_2.htmlitem有：item[’title’],item[’content’]而item[’content’]就是拼接成一頁的內容。大概怎么寫呢？

問題解答

回答1：

找到分頁接口url

回答2：

找到那個下一頁的鏈接，加入到爬取url列表中

回答3：

可以在rules里面寫正則自動掃描符合的url

Python 編程

上一條：python - 如何讓dataframe A 的一列與dataframe B的一列相減相加結果記到A的c列？下一條：亂碼 - VS2013+PTVS，python編碼問題

相關文章：

1. java - spring-data Jpa 不需要執行save 語句，Set字段就可以自動執行保存的方法？求解2. python - django models 為生成的html元素添加樣式。3. docker-compose 為何找不到配置文件？4. docker gitlab 如何git clone？5. javascript - JS設置Video視頻對象的currentTime時出現了問題,IE,Edge,火狐,都可以設置,反而chrom卻...6. android - 安卓做前端，PHP做后臺服務器有什么需要注意的？7. 前端 - css3 3d效果問題8. python的bs4如何篩選出h1標簽中的內容9. html5 - 為什么使使用vue cli 腳手架，post-css 沒有自動對css3屬性自動添加瀏覽器前綴呢？10. mysql - 記得以前在哪里看過一個估算時間的網站

排行榜

					
					docker gitlab 如何git clone？
docker-compose 為何找不到配置文件？
java - spring-data Jpa 不需要執行save 語句，Set字段就可以自動執行保存的方法？求解
android - 安卓做前端，PHP做后臺服務器 有什么需要注意的？
python的bs4如何篩選出h1標簽中的內容
javascript - JS設置Video視頻對象的currentTime時出現了問題,IE,Edge,火狐,都可以設置,反而chrom卻...
python - django models 為生成的html元素添加樣式。
前端 - css3 3d效果問題
python中如何計算t分布的值?
服務器端 - 采用nginx做web服務器，C++開發應用程序 出現拒絕連接請求？
請教各位大佬，瀏覽器點 提交實例為什么沒有反應
				

熱門標簽

久久r热视频,国产午夜精品一区二区三区视频,亚洲精品自拍偷拍,欧美日韩精品二区

python - scrapy 處理 文章 分頁的內容

python - scrapy 處理文章分頁的內容