文章詳情頁

網(wǎng)頁爬蟲 - Java爬蟲已獲取圖片鏈接但是無法下載圖片

瀏覽：136日期：2023-12-10 14:58:56

問題描述

利用爬蟲在html中獲取的相應(yīng)圖片資源src的代碼是這樣的

但是再通過代碼將資源轉(zhuǎn)成鏈接的形式下載圖片的時(shí)候，就報(bào)了400的錯(cuò)誤

網(wǎng)頁爬蟲 - Java爬蟲已獲取圖片鏈接但是無法下載圖片

然而，我使用chrome去測試鏈接是否存在是，發(fā)現(xiàn)，真正對(duì)方網(wǎng)站服務(wù)器能夠識(shí)別的是

網(wǎng)頁爬蟲 - Java爬蟲已獲取圖片鏈接但是無法下載圖片

也就是說我通過網(wǎng)頁獲得圖片資源的鏈接是http://www.neofactory.co.jp/i... 2.jpg然而，正常能夠獲取圖片的鏈接是http://www.neofactory.co.jp/i...

請(qǐng)各位大神指導(dǎo)之后應(yīng)該怎么辦，我在網(wǎng)上查了好多資料，還是沒有解決辦法。ps:奇怪的是我用Firefox的話，上面的那個(gè)鏈接也能得到圖片，我就百思不得其解了。

代碼:

public class Image {

private String urlNeo='';public String getUrlNeo() { return urlNeo;}public void setUrlNeo(String urlNeo) { this.urlNeo = urlNeo;}public String getHtml() throws Exception{ ArrayList<String> list=new ArrayList<String>();String line=''; String Html=''; URL url=new URL(urlNeo); URLConnection connection=url.openConnection(); InputStream in=connection.getInputStream(); InputStreamReader isr=new InputStreamReader(in); BufferedReader br=new BufferedReader(isr); while((line=br.readLine())!=null){Html+=line;list.add(line); } br.close(); isr.close(); in.close(); return Html;}public String getImgSrc() throws Exception{ String html=getHtml(); String IMGURL_REG_xpath='//p[1]/p[2]/p[2]/p/node()'; String imginfomation=''; JXDocument jxDocument = new JXDocument(html); imginfomation=(jxDocument.sel(IMGURL_REG_xpath).toString()).substring(1,jxDocument.sel(IMGURL_REG_xpath).toString().length() - 1); return imginfomation;}public List<String> getImgXpath() throws Exception{ String str=''; String IMGSRC_REG = 'img.product.w.*.jpg'; List<String> list1=new ArrayList<String>(); List<String> list2=new ArrayList<String>(); String listimg = getImgSrc(); Matcher matcher = Pattern.compile(IMGSRC_REG).matcher(listimg); while (matcher.find()) {list1.add(matcher.group()); } for(int i=1;i<=(list1.size()/2);i++){int j=i*2;list2.add(list1.get(j-1)); } return list2;}public void download(String admin_no) throws Exception{ List<String> list=new ArrayList<String>(); list=getImgXpath(); for(String img:list){System.out.println(img);String url='http://www.neofactory.co.jp/'+img;URL uri=new URL(url);URLConnection con=uri.openConnection();con.setConnectTimeout(5000);InputStream in=con.getInputStream();byte[] buf=new byte[1024];int length=0; File sf=new File('D:item_neo_photo'+admin_no);if(!sf.exists()){ sf.mkdirs();}String[] a=img.split('/');OutputStream os=new FileOutputStream(sf.getPath()+''+a[a.length-1]);while((length=in.read(buf))!=-1){ os.write(buf, 0, length);}os.close();in.close(); }}

}

問題解答

回答1：

直接把域名+獲取的img src屬性拼起來不行么

回答2：

url編碼下

java

上一條：java - 關(guān)于While,break的問題下一條：java - 關(guān)于多線程notify的問題

相關(guān)文章：

1. Docker for Mac 創(chuàng)建的dnsmasq容器連不上/不工作的問題2. javascript - QWebEngineView 如何爬 angular 的動(dòng)態(tài)數(shù)據(jù)？3. javascript - 使用angular 的ui-sref 中出現(xiàn)了中文參數(shù)，點(diǎn)擊跳轉(zhuǎn)后瀏覽器的地址欄里出現(xiàn)轉(zhuǎn)義后的%AE....%a%44. 工作近5年，3年Java Web ，近2年前端，未來何去何從？5. java - 郵箱如何發(fā)送html內(nèi)容6. html5 - 這個(gè)代碼顯示功能如何實(shí)現(xiàn)？7. javascript - 用JS 七牛上傳圖片出現(xiàn)文件已存在的錯(cuò)誤（file exists）8. java - 字節(jié)流轉(zhuǎn)成字符串之后，在通過字符串轉(zhuǎn)成字節(jié)流后的文件為什么會(huì)不一樣？9. css3 - 圖片等比例縮放10. java - 如何理解“不要通過共享內(nèi)存來通信，而應(yīng)該通過通信來共享內(nèi)存”？

排行榜

					
					Docker for Mac 創(chuàng)建的dnsmasq容器連不上/不工作的問題
docker安裝后出現(xiàn)Cannot connect to the Docker daemon.
為什么我ping不通我的docker容器呢？？？
docker - 如何修改運(yùn)行中容器的配置
angular.js - angular內(nèi)容過長展開收起效果
html5 - 這個(gè)代碼顯示功能如何實(shí)現(xiàn)？
javascript - 用JS 七牛上傳圖片出現(xiàn)文件已存在的錯(cuò)誤（file exists）
Android Canvas 如何在已有的圖形下面進(jìn)行繪制？
我想問下在華為android 6.0的手機(jī)上修改EditText光標(biāo)顏色不成功，但是小米6.0上卻能成功，這該如何解決？？？？
angular.js - ui-router 有沒有手動(dòng)重新加載路由配置的方法？
javascript - 使用angular 的ui-sref 中出現(xiàn)了中文參數(shù)，點(diǎn)擊跳轉(zhuǎn)后瀏覽器的地址欄里出現(xiàn)轉(zhuǎn)義后的%AE....%a%4
				

熱門標(biāo)簽

久久r热视频,国产午夜精品一区二区三区视频,亚洲精品自拍偷拍,欧美日韩精品二区

網(wǎng)頁爬蟲 - Java爬蟲已獲取圖片鏈接但是無法下載圖片