久久r热视频,国产午夜精品一区二区三区视频,亚洲精品自拍偷拍,欧美日韩精品二区

您的位置:首頁技術(shù)文章
文章詳情頁

python - scrapy url去重

瀏覽:142日期:2022-08-24 16:35:16

問題描述

請問scrapy是url自動去重的嗎?比如下面這段代碼,為什么運行時start_urls里面的重復(fù)url會重復(fù)爬取了?

class TestSpider(scrapy.Spider): name = 'test' allowed_domains = ['baidu.com'] start_urls = [’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, ’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, ’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’,] def parse(self, response):for sel in response.xpath(’//p[@class='grid-list grid-list-spot']/ul/li’): item = TestspiderItem() item[’title’] = sel.xpath(’p[@class='list']/a/text()’)[0].extract() item[’link’] = sel.xpath(’p[@class='list']/a/@href’)[0].extract() yield item

問題解答

回答1:

建一個Url管理器,就不會重復(fù)抓取了

回答2:

知道了,改成這樣就可以了。

def start_requests(self):

yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 襄垣县| 永善县| 黔江区| 乐昌市| 广西| 定兴县| 乃东县| 布拖县| 大埔区| 左贡县| 保靖县| 巴彦淖尔市| 泰安市| 明水县| 怀安县| 普安县| 白山市| 堆龙德庆县| 临夏县| 福州市| 揭西县| 南华县| 万年县| 姚安县| 广安市| 南木林县| 崇文区| 青浦区| 汝州市| 罗山县| 余江县| 锡林浩特市| 信阳市| 平潭县| 连山| 光山县| 石河子市| 崇信县| 阳新县| 阿克苏市| 沾化县|