当前位置：网站首页 > 技术文章 > 正文

Scrapy笔记(一)入门

zhezhongyun 2025-03-10 22:30 24 浏览

一、Scrapy简介

Scrapy是一个基于Python的开源网络爬虫框架，用于快速高效地抓取网页数据。它提供了完整的爬虫开发工具链，包含请求处理、数据解析、存储管道等功能。

二、核心概念解释

1. 主要组件

Engine：控制数据流的核心引擎，负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler：管理请求的调度队列，它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader：处理HTTP请求并返回响应，负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理。
Spiders：用户编写的爬虫逻辑，它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)。
Item Pipeline：处理抓取的数据（清洗、存储等），它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。
Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

2. 核心概念

Item：数据容器，定义抓取的数据结构
Selector：基于XPath/CSS选择器的数据提取工具
Request：封装HTTP请求对象
Response：封装HTTP响应对象
Feed exports：数据导出格式（JSON/CSV/XML等）

三、环境准备

1. 安装Scrapy

# python2
pip install scrapy
# python3
pip3 install scrapy

2. 验证安装

scrapy version
# 应该显示版本号（如：Scrapy 2.12.0）

四、创建第一个项目

1. 创建项目

scrapy startproject tutorial

项目结构说明

# 项目结构
tutorial/
    scrapy.cfg           # 部署配置文件
    tutorial/            # 项目模块
        __init__.py
        items.py         # 数据模型定义
        middlewares.py   # 中间件配置
        pipelines.py     # 数据处理管道
        settings.py      # 项目设置
        spiders/         # 爬虫目录
            __init__.py

2. 创建第一个Spider

在spiders目录下新建quotes_spider.py：

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/'
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('small.author::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }

        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, callback=self.parse)

五、运行爬虫

scrapy crawl quotes -o quotes.json

结果将保存到quotes.json文件

六、完整示例演示

1. 定义Item（items.py）

import scrapy

class TutorialItem(scrapy.Item):
    text = scrapy.Field()
    author = scrapy.Field()
    tags = scrapy.Field()
    author_info = scrapy.Field()

2. 完善Spider

import scrapy
from tutorial.items import TutorialItem

class AuthorSpider(scrapy.Spider):
    name = 'author'
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        for quote in response.css('div.quote'):
            item = TutorialItem()
            item['text'] = quote.css('span.text::text').get()
            item['author'] = quote.css('small.author::text').get()
            item['tags'] = quote.css('div.tags a.tag::text').getall()
            
            author_page = quote.css('small.author + a::attr(href)').get()
            yield response.follow(
                author_page, 
                callback=self.parse_author,
                meta={'item': item}
            )

        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, callback=self.parse)

    def parse_author(self, response):
        item = response.meta['item']
        item['author_info'] = {
            'birth_date': response.css('.author-born-date::text').get(),
            'birth_place': response.css('.author-born-location::text').get(),
            'description': response.css('.author-description::text').get().strip()
        }
        yield item

3. 配置Pipeline（pipelines.py）

import json

class JsonWriterPipeline:
    def open_spider(self, spider):
        self.file = open('authors.jl', 'w', encoding='utf-8')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(line)
        return item

4. 启用Pipeline（settings.py）

ITEM_PIPELINES = {
    'tutorial.pipelines.JsonWriterPipeline': 300,
}

七、常用命令

创建爬虫：

scrapy genspider myspider example.com

运行爬虫：

scrapy crawl

交互式调试：

scrapy shell "http://quotes.toscrape.com"

导出不同格式：

scrapy crawl quotes -o quotes.csv
scrapy crawl quotes -o quotes.xml

八、进阶功能（后续陆续更新）

CrawlSpider使用（
使用 CrawlerProcess 编程式运行爬虫
分布式爬虫
处理动态内容
数据处理与存储优化

九、注意事项

遵守网站的robots.txt协议
设置合理的下载延迟（DOWNLOAD_DELAY）
使用User-Agent轮换
处理反爬机制（验证码、IP封禁等）
注意数据存储格式和编码问题

十、调试技巧

使用scrapy shell进行快速测试
查看日志：

# settings.py
LOG_LEVEL = 'DEBUG'
LOG_FILE = 'scrapy.log'

使用中间件捕获异常
通过response.status检查HTTP状态码

这个教程涵盖了Scrapy的主要功能和典型使用场景。建议通过实际项目练习来加深理解，可以从简单的静态网站开始，逐步挑战更复杂的动态网站和数据抓取需求。

学习资料

Scrapy 2.12 文档 — Scrapy 2.12.0 文档 - Scrapy 框架

源代码合集

汽车之家车型数据抓取解析（后续更新）

HTML ASCII 参考手册

上一篇：拒绝白嫖，开源项目作者删库跑路，数千个应用程序无限输出乱码
下一篇：什么是Unicode编码，怎么进行Unicode编码

Scrapy笔记(一)入门

一、Scrapy简介

二、核心概念解释

1. 主要组件

2. 核心概念

三、环境准备

1. 安装Scrapy

2. 验证安装

四、创建第一个项目

1. 创建项目

2. 创建第一个Spider

五、运行爬虫

六、完整示例演示

1. 定义Item（items.py）

2. 完善Spider

3. 配置Pipeline（pipelines.py）

4. 启用Pipeline（settings.py）

七、常用命令

八、进阶功能（后续陆续更新）

九、注意事项

十、调试技巧

学习资料

源代码合集

相关推荐

b端详情页:各种信息聚集地，设计师要如何规划这一亩三分地呢

漏洞系列一一看我一招征服漏洞 SSRF

接口测试遇到500报错?别慌，你的头部可能有点问题

Web前端需要学什么?Web前端开发需要学习哪些?

「资讯」为强迫用户使用Edge浏览器，微软又出新招数

前端Flex布局可视化布局工具介绍，vue和html5快速设计利器

HTML 简介（html简介及优缺点）

HBuilderX，uni-app创建HTML5项目，同时支持浏览器和移动端

关于HTML5被简称做H5，你怎么看?（html5缩写）

现在页面实时聊天都使用Websocket技术实现吗?

Scrapy笔记(一)入门

一、Scrapy简介

二、核心概念解释

1. 主要组件

2. 核心概念

三、环境准备

1. 安装Scrapy

2. 验证安装

四、创建第一个项目

1. 创建项目

2. 创建第一个Spider

五、运行爬虫

六、完整示例演示

1. 定义Item（items.py）

2. 完善Spider

3. 配置Pipeline（pipelines.py）

4. 启用Pipeline（settings.py）

七、常用命令

八、进阶功能 （后续陆续更新）

九、注意事项

十、调试技巧

学习资料

源代码合集

相关推荐

b端详情页:各种信息聚集地，设计师要如何规划这一亩三分地呢

漏洞系列一一看我一招征服漏洞 SSRF

接口测试遇到500报错?别慌，你的头部可能有点问题

Web前端需要学什么?Web前端开发需要学习哪些?

「资讯」为强迫用户使用Edge浏览器，微软又出新招数

前端Flex布局可视化布局工具介绍，vue和html5快速设计利器

HTML 简介（html简介及优缺点）

HBuilderX，uni-app创建HTML5项目，同时支持浏览器和移动端

关于HTML5被简称做H5，你怎么看?（html5缩写）

现在页面实时聊天都使用Websocket技术实现吗?

八、进阶功能（后续陆续更新）