INA

scrapy框架爬虫入门，与培养方案抓取实践

最近色老师的项目想要其他学校的课程信息，于是让我去爬取别人的数据。
自己学习了一下scarpy，上手进行了简单的爬虫。

scrapy框架爬虫入门与培养方案抓取实践

现场爬一下蛤交的课程信息

https://github.com/YdreamW/sjtuSpider.git

scrapy文件结构

sjtuSpider
- spiders
  - stju.py
  - getMajorUrl.py
- items.py
- pipelines.py

创建项目的过程

安装框架
创建项目
- 新建项目。
  项目名可以用 …Spider
1
scrapy startproject <项目名>
- 新建一个爬虫。
  爬虫名不能和项目名称一致
1
scrapy genspider <爬虫名> <域名限制>

写一个爬虫

在此之前需要了解一下 xpath的简单语法
推荐一个插件 xpath helper
getMajorUrl.py 的例子
分析网站
- 在chrome里找网页的逻辑
- network 看请求
- 可以先用 postman 模拟请求
愉快的写代码，然后输出结果
运行的爬虫的指令

1	scrapy crawl sjtu -o course1.json -s FEED_EXPORT_ENCODING=UTF-8

反思

了解了xpath，这个东西很简单就能入门，但是感觉要想熟练的分析页面还是需要一定的经验积累

最近学业压力比较重，爬虫只局限于了实践层面。
对于python的generator并没有理解的很透彻，以及python的面向对象都是一知半解，以后有机会好好搞清楚generator

我印象中 es6 也有generator