文章詳情頁

selenium - 請教一下 Python 爬蟲工具

瀏覽：148日期：2022-06-27 16:46:59

問題描述

1)我要抓的是 Instagram 某明星的粉絲2)Instagram pc 站使用了大量的 js 渲染3)沒寫過爬蟲,老板明天就要數據

我目前使用的是BeautifulSoup, selenium 和phantomjs

代碼 demo 大概是

driver = webdriver.PhantomJS(self.browser)driver.get(self.url)driver.implicitly_wait(3)element = driver.find_element_by_class_name('_s53mj')element.click()html = driver.page_sourcesoup = BeautifulSoup(html)

問題是:1) 我不知道click 有沒有執行成功, click 的元素對不對, driver 好像沒有返回值給我參考2) 即使 click 成功了, 但是他是不是只調了 js里的 click() 方法,并沒有觸發 target 怎么辦3)我不知道是先渲染page_source, 還是應該先 click, 假設執行成功了 click, 是不是也不會再 source 里返回了

啊, 謝各位爬蟲大佬了

問題解答

回答1：

說的是什么意思？百思不得其解啊。。。

selenium自動化，click能模仿用戶點擊，就跟你自己在頁面上點擊一樣，一切都在虛擬瀏覽器驅動中進行。

看你的業務邏輯啊。。。比如有些數據要點擊后才有，那就先click再獲取源代碼。

Python 編程

上一條：Python從URL中提取域名下一條：python - sklearn如何訓練大規模數據集

相關文章：

1. Docker for Mac 創建的dnsmasq容器連不上/不工作的問題2. docker - 如何修改運行中容器的配置3. docker安裝后出現Cannot connect to the Docker daemon.4. java - instance method中 static后的<K>是什么意思?5. python3.x - python連oanda的模擬交易api獲取json問題第五問6. 錯誤：java.lang.NoSuchMethodError：org.objectweb.asm.ClassWriter。<init>（I）V7. java - SSH框架中寫分頁時service層中不能注入分頁類8. php - 一個操作請求多個服務如何保證數據的安全？9. docker-machine添加一個已有的docker主機問題10. debian - docker依賴的aufs-tools源碼哪里可以找到啊？

排行榜

					
					Docker for Mac 創建的dnsmasq容器連不上/不工作的問題
docker安裝后出現Cannot connect to the Docker daemon.
docker - 如何修改運行中容器的配置
為什么我ping不通我的docker容器呢？？？
docker-machine添加一個已有的docker主機問題
nignx - docker內nginx 80端口被占用
angular.js - angular內容過長展開收起效果
debian - docker依賴的aufs-tools源碼哪里可以找到啊？
angular.js - angularjs的自定義過濾器如何給文字加顏色？
php - 一個操作請求多個服務如何保證數據的安全？
java - SSH框架中寫分頁時service層中不能注入分頁類
				

熱門標簽

久久r热视频,国产午夜精品一区二区三区视频,亚洲精品自拍偷拍,欧美日韩精品二区

selenium - 請教一下 Python 爬蟲工具