import scrapyclass MainSpider(scrapy.Spider):name = "main"# allowed_domains = ["www.xxx.com"]# 定义第一页的页面链接,会自动爬取start_urls = ["https://pic.yesky.com/c/6_25152.shtml"]# 定义一个页面连接模板page_url = 'https://pic.yesky.com/c/6_25152_%d.shtml'# 定义一个页码变量, 从2开始, 因为第一页已经自动发送请求了page_num = 2def parse(self, response):# 获得所有的li元素并将这些li存入列表中,封装为Selector对象返回li_list = response.xpath('//ul[@class="classification_listContent"]/li')# 循环获得所有li标签下的第二个a标签的文本for li in li_list:# 获得每个图片的描述img_name = li.xpath('./a[2]/text()').extract_first()print(img_name)# 可以将爬取到的数据存入item对象中# 判断要爬取的页面数量大于等于5时# 则不再进行爬取新的页面if self.page_num <= 5:# 拼接页面的链接new_page_url = format(self.page_url % self.page_num)# 拼接完成后页码加一,用于下一次爬取,下一个页面的数据self.page_num += 1# 使用 yield scrapy.Request(请求的url, 对返回数据进行处理的回调函数)# 手动向一个URL地址发送请求# 传入两个参数,一个请求的URL地址,一个回调函数# 当请求成功时,会将响应的数据传给自身的parse函数继续执行里面的逻辑代码yield scrapy.Request(url=new_page_url, callback=self.parse)
市场营销策划方案格式模板菏泽建筑模板厂家江西省历史建筑信息平台教育网站制作运营windows软件开发流程广东网站设计网站自助建站cn桂林漓江游船票价格网页游戏排行2013网络服务调查问卷自适应网站建设选哪家长沙望城区发布最新通告济南网站建设公司推荐软件网站技术开发公司广告传媒公司注册费用广东省建筑安全员证查询官网惠州广告公司有哪些太原网络推广代理公司新产品代理项目推荐最大招聘网站广西疫情防控指挥部最新公告网站平台建设费用php手机编程软件腾讯云服务器学生机泰安星际网络公司微信小程序开发300元江苏建筑工程招标信息网有料网b2b官方网站2022年中国企业500强名单如何开网站详细步骤图qq空间是哪个公司开发的
- 首页
- 网页版传奇游戏怎么制作
- 正文