Python爬虫教程:简单使用scrapy爬虫框架批量采集网站数据|python|豆瓣|爬取_网易订阅

Python爬虫教程:简单使用scrapy爬虫框架批量采集网站数据|python|豆瓣|爬取_网易订阅

时间:2021-06-07 17:34 作者:匿名 点击:
  前言
  本文的文字及图片过滤网络,可以学习,交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
  本篇文章就使用python爬虫框架scrapy采集网站的一些数据。
  基本开发环境
  Python3.6
  pycharm
  如何安装scrapy
  在cmd命令行当中pipinstallscrapy就可以安装了。但是一般情况都会出现网络超时的情况。
  建议切换国内常规源安装pipinstall-i国内常规地址包名
  例如:
  国内常用源别名地址:
  
  你可能会出现的报错:
  在安装Scrapy的过程中可能会遇到VC++等错误,可以安装删除模块的离线包
  
  Scrapy如何爬取网站数据
  本篇文章以豆瓣电影Top250的数据为例,讲解一下scrapy框架爬取数据的基本流程。
  
  豆瓣Top250这个数据就不过多分析,静态网站,网页结构十分适合写爬取,所以很多基础入门的爬虫案例都是以豆瓣电影数据以及猫眼电影数据为例的。
  Scrapy的爬虫项目的创建流程
  1.创建一个爬虫项目
  在Pycharm中选择Terminal在Local里面输入
  scrapystartproject+(项目名字)
  
  2.cd切换到爬虫项目目录
  
  3.创建爬虫文件
  scrapygenspider(+爬虫文件的名字)(+域名限制)
  
  
  这就对于scrapy的项目创建以及爬虫文件创建完成了。
  Scrapy的爬虫代码编写
  1,在settings.py文件中关闭robots协议默认是True
  
  2,在爬虫文件下修改起始网址
  把start_urls改成豆瓣导航网址的链接,也就是你爬取数据的第一页的url地址
  3,写解析数据的业务逻辑
  爬取内容如下:
  
  douban_info.py
  
  itmes.py
  middlewares.py
  
  pipelines.py
  
  setting.py
  
  4,运行爬虫程序
  输入命令scrapycrawl+爬虫文件名