文章詳情頁

python和php哪個更適合寫爬蟲

瀏覽：2日期：2022-07-20 09:06:44

python和PHP相比較，python適合做爬蟲。原因如下

抓取網(wǎng)頁本身的接口

相比與其他靜態(tài)編程語言，如java，c#，C++，python抓取網(wǎng)頁文檔的接口更簡潔；相比其他動態(tài)腳本語言，如perl，shell，python的urllib2包提供了較為完整的訪問網(wǎng)頁文檔的API。（當(dāng)然ruby也是很好的選擇）

此外，抓取網(wǎng)頁有時候需要模擬瀏覽器的行為，很多網(wǎng)站對于生硬的爬蟲抓取都是封殺的。這是我們需要模擬user agent的行為構(gòu)造合適的請求，譬如模擬用戶登陸、模擬session/cookie的存儲和設(shè)置。在python里都有非常優(yōu)秀的第三方包幫你搞定，如Requests，mechanize

網(wǎng)頁抓取后的處理

抓取的網(wǎng)頁通常需要處理，比如過濾html標簽，提取文本等。python的beautifulsoap提供了簡潔的文檔處理功能，能用極短的代碼完成大部分文檔的處理。

其實以上功能很多語言和工具都能做，但是用python能夠干得最快，最干凈。Life is short， u need python.

py用在linux上很強大，語言挺簡單的。

NO.1 快速開發(fā)（唯一能和python比開發(fā)效率的語言只有rudy）語言簡潔，沒那么多技巧，所以讀起來很清楚容易。

NO.2跨平臺（由于python的開源，他比java更能體現(xiàn)”一次編寫到處運行”

NO.3解釋性（無須編譯，直接運行／調(diào)試代碼）

NO.4構(gòu)架選擇太多（GUI構(gòu)架方面主要的就有 wxPython, tkInter, PyGtk, PyQt 。

PHP 腳本主要用于以下三個領(lǐng)域：

服務(wù)端腳本。這是 PHP 最傳統(tǒng)，也是最主要的目標領(lǐng)域。開展這項工作需要具備以下三點：PHP 解析器（CGI 或者服務(wù)器模塊）、web

服務(wù)器和 web 瀏覽器。需要在運行 web 服務(wù)器時，安裝并配置 PHP，然后，可以用 web 瀏覽器來訪問 PHP 程序的輸出，即瀏覽服務(wù)

端的 PHP 頁面。如果只是實驗 PHP 編程，所有的這些都可以運行在自己家里的電腦中。請查閱安裝一章以獲取更多信息。命令行腳本。

可以編寫一段 PHP 腳本，并且不需要任何服務(wù)器或者瀏覽器來運行它。通過這種方式，僅僅只需要 PHP 解析器來執(zhí)行。這種用法對于依

賴 cron（Unix 或者 Linux 環(huán)境）或者 Task Scheduler（Windows 環(huán)境）的日常運行的腳本來說是理想的選擇。這些腳本也可以用來處

理簡單的文本。請參閱 PHP 的命令行模式以獲取更多信息。編寫桌面應(yīng)用程序。對于有著圖形界面的桌面應(yīng)用程序來說，PHP 或許不是

一種最好的語言，但是如果用戶非常精通 PHP，并且希望在客戶端應(yīng)用程序中使用 PHP 的一些高級特性，可以利用 PHP-GTK 來編寫這

些程序。用這種方法，還可以編寫跨平臺的應(yīng)用程序。PHP-GTK 是 PHP 的一個擴展，在通常發(fā)布的 PHP 包中并不包含它。

網(wǎng)友觀點擴展：

我用 PHP Node.js Python 寫過抓取腳本，簡單談一下吧。

首先PHP。先說優(yōu)勢：網(wǎng)上抓取和解析html的框架一抓一大把，各種工具直接拿來用就行了，比較省心。缺點：首先速度/效率很成問題，有一次下載電影海報的時候，由于是crontab定期執(zhí)行，也沒做優(yōu)化，開的php進程太多，直接把內(nèi)存撐爆了。然后語法方面也很拖沓，各種關(guān)鍵字符號太多，不夠簡潔，給人一種沒有認真設(shè)計過的感覺，寫起來很麻煩。

Node.js。優(yōu)點是效率、效率還是效率，由于網(wǎng)絡(luò)是異步的，所以基本如同幾百個進程并發(fā)一樣強大，內(nèi)存和CPU占用非常小，如果沒有對抓取來的數(shù)據(jù)進行復(fù)雜的運算加工，那么系統(tǒng)的瓶頸基本就在帶寬和寫入MySQL等數(shù)據(jù)庫的I/O速度。當(dāng)然，優(yōu)點的反面也是缺點，異步網(wǎng)絡(luò)代表你需要callback，這時候如果業(yè)務(wù)需求是線性了，比如必須等待上一個頁面抓取完成后，拿到數(shù)據(jù)，才能進行下一個頁面的抓取，甚至多層的依賴關(guān)系，那就會出現(xiàn)可怕的多層callback！基本這時候，代碼結(jié)構(gòu)和邏輯就會一團亂麻。當(dāng)然可以用Step等流程控制工具解決這些問題。

最后說Python。如果你對效率沒有極端的要求，那么推薦用Python！首先，Python的語法很簡潔，同樣的語句，可以少敲很多次鍵盤。然后，Python非常適合做數(shù)據(jù)的處理，比如函數(shù)參數(shù)的打包解包，列表解析，矩陣處理，非常方便。

到此這篇關(guān)于python和php哪個更適合寫爬蟲的文章就介紹到這了,更多相關(guān)php和python哪個適合做爬蟲內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：Python Excel vlookup函數(shù)實現(xiàn)過程解析下一條：如何理解python對象

相關(guān)文章：

1. ASP中解決“對象關(guān)閉時,不允許操作。”的詭異問題……2. ASP刪除img標簽的style屬性只保留src的正則函數(shù)3. xpath簡介_動力節(jié)點Java學(xué)院整理4. XML解析錯誤：未組織好的解決辦法5. PHP設(shè)計模式中工廠模式深入詳解6. 使用Spry輕松將XML數(shù)據(jù)顯示到HTML頁的方法7. 告別AJAX實現(xiàn)無刷新提交表單8. 詳解盒子端CSS動畫性能提升9. ASP基礎(chǔ)入門第三篇(ASP腳本基礎(chǔ))10. 在JSP中使用formatNumber控制要顯示的小數(shù)位數(shù)方法

排行榜

					
					Android自定義控件之圓形進度條動畫
基于springboot實現(xiàn)redis分布式鎖的方法
Python如何在循環(huán)內(nèi)使用list.remove()
基于javaweb+jsp實現(xiàn)企業(yè)財務(wù)記賬管理系統(tǒng)
php論壇服務(wù)器架構(gòu)
在JSP中使用formatNumber控制要顯示的小數(shù)位數(shù)方法
asp.net core項目授權(quán)流程詳解
ASP基礎(chǔ)入門第三篇(ASP腳本基礎(chǔ))
ASP刪除img標簽的style屬性只保留src的正則函數(shù)
Java異常ClassCastException的解決
告別AJAX實現(xiàn)無刷新提交表單