文章詳情頁

python - 正則表達式匹配html的問題。

瀏覽：96日期：2022-09-05 14:29:29

問題描述

<dd class='gray6'> 中文 中文 中文內容 #需要抓取的內容</dd>用BeautifulSoup html.parser解析的網頁，現在用re模塊想抓取**第7行**的中文內容，放在一個組里面（.*?）。正則老是匹配不上，用換行符也匹配不上，不知道怎么寫了。。。

問題解答

回答1：

既然你都用bs4解析了，為什么不用它提取哪？bs4內有一個stripped_string的函數正好滿足你的需要。

回答2：

import repattern = re.compile(r’.*?(.*?)</dd>’, re.S)str = ’’’<dd class='gray6'> 中文 中文 中文內容 #需要抓取的內容</dd>’’’print(pattern.search(str).group(1))===> 中文內容 #需要抓取的內容回答3：

const re = /^(.*)</dd>$/

這樣可以不?

Python 編程

上一條：python - 這段函數如何改寫比較優雅?下一條：python - 如何在scrapy中帶cookie訪問？

相關文章：

1. javascript - 怎么看網站用了什么技術框架？2. javascript - vue 怎么渲染自定義組件3. mysql - 記得以前在哪里看過一個估算時間的網站4. 請教各位大佬，瀏覽器點提交實例為什么沒有反應5. 學習這個是不是要先學下css？6. javascript - 單個頁面執行多個jsonp的ajax請求，如何判斷一個ajax請求執行完畢執行再另一個？7. php md5 16字符二進制格式用JAVA寫8. javascript - [MUI 子webview定位]9. javascript - angular最基礎的表單驗證10. javascript - node服務端渲染的困惑

排行榜

					
					服務器端 - 采用nginx做web服務器，C++開發應用程序 出現拒絕連接請求？
請教各位大佬，瀏覽器點 提交實例為什么沒有反應
java maven打包jar 方法參數名變var1,var2之類的無意義參數名怎么辦
javascript - [MUI 子webview定位]
java - 如圖，jsp頁面的form中的action是怎么映射到這個位置的？為什么不寫dynUser就可以映射到save？
php md5 16字符二進制格式 用JAVA寫
學習這個是不是要先學下css？
javascript - 怎么看網站用了什么技術框架？
javascript - vue 怎么渲染自定義組件
javascript - 單個頁面執行多個jsonp的ajax請求，如何判斷一個ajax請求執行完畢執行再另一個？
javascript - node服務端渲染的困惑
				

熱門標簽

久久r热视频,国产午夜精品一区二区三区视频,亚洲精品自拍偷拍,欧美日韩精品二区

python - 正則表達式匹配html的問題。