文章詳情頁
python - scrapy 處理 文章 分頁的內容
瀏覽:116日期:2022-08-03 16:15:10
問題描述
如一篇文章有2-3頁,然后想把這些內容頁爬下來,拼接成一頁,然后再放入數據庫。文章url如:article_1.html,article_2.htmlitem有:item[’title’],item[’content’]而item[’content’]就是拼接成一頁的內容。大概怎么寫呢?
問題解答
回答1:找到分頁接口url
回答2:找到那個下一頁的鏈接,加入到爬取url列表中
回答3:可以在rules里面寫正則自動掃描符合的url
相關文章:
1. java - spring-data Jpa 不需要執行save 語句,Set字段就可以自動執行保存的方法?求解2. python - django models 為生成的html元素添加樣式。3. docker-compose 為何找不到配置文件?4. docker gitlab 如何git clone?5. javascript - JS設置Video視頻對象的currentTime時出現了問題,IE,Edge,火狐,都可以設置,反而chrom卻...6. android - 安卓做前端,PHP做后臺服務器 有什么需要注意的?7. 前端 - css3 3d效果問題8. python的bs4如何篩選出h1標簽中的內容9. html5 - 為什么使使用vue cli 腳手架,post-css 沒有自動對css3屬性自動添加瀏覽器前綴呢?10. mysql - 記得以前在哪里看過一個估算時間的網站
排行榜
