百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Scrapy笔记(一)入门

zhezhongyun 2025-03-10 22:30 24 浏览

一、Scrapy简介

Scrapy是一个基于Python的开源网络爬虫框架,用于快速高效地抓取网页数据。它提供了完整的爬虫开发工具链,包含请求处理、数据解析、存储管道等功能。

二、核心概念解释

1. 主要组件

  • Engine:控制数据流的核心引擎,负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。
  • Scheduler:管理请求的调度队列,它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。
  • Downloader:处理HTTP请求并返回响应,负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理。
  • Spiders:用户编写的爬虫逻辑,它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器)。
  • Item Pipeline:处理抓取的数据(清洗、存储等),它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方。
  • Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。
  • Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)

2. 核心概念

  • Item:数据容器,定义抓取的数据结构
  • Selector:基于XPath/CSS选择器的数据提取工具
  • Request:封装HTTP请求对象
  • Response:封装HTTP响应对象
  • Feed exports:数据导出格式(JSON/CSV/XML等)

三、环境准备

1. 安装Scrapy

# python2
pip install scrapy
# python3
pip3 install scrapy

2. 验证安装

scrapy version
# 应该显示版本号(如:Scrapy 2.12.0)

四、创建第一个项目

1. 创建项目

scrapy startproject tutorial

项目结构说明

# 项目结构
tutorial/
    scrapy.cfg           # 部署配置文件
    tutorial/            # 项目模块
        __init__.py
        items.py         # 数据模型定义
        middlewares.py   # 中间件配置
        pipelines.py     # 数据处理管道
        settings.py      # 项目设置
        spiders/         # 爬虫目录
            __init__.py

2. 创建第一个Spider

在spiders目录下新建quotes_spider.py:

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/'
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('small.author::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }

        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, callback=self.parse)

五、运行爬虫

scrapy crawl quotes -o quotes.json

结果将保存到quotes.json文件

六、完整示例演示

1. 定义Item(items.py)

import scrapy

class TutorialItem(scrapy.Item):
    text = scrapy.Field()
    author = scrapy.Field()
    tags = scrapy.Field()
    author_info = scrapy.Field()

2. 完善Spider

import scrapy
from tutorial.items import TutorialItem

class AuthorSpider(scrapy.Spider):
    name = 'author'
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        for quote in response.css('div.quote'):
            item = TutorialItem()
            item['text'] = quote.css('span.text::text').get()
            item['author'] = quote.css('small.author::text').get()
            item['tags'] = quote.css('div.tags a.tag::text').getall()
            
            author_page = quote.css('small.author + a::attr(href)').get()
            yield response.follow(
                author_page, 
                callback=self.parse_author,
                meta={'item': item}
            )

        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, callback=self.parse)

    def parse_author(self, response):
        item = response.meta['item']
        item['author_info'] = {
            'birth_date': response.css('.author-born-date::text').get(),
            'birth_place': response.css('.author-born-location::text').get(),
            'description': response.css('.author-description::text').get().strip()
        }
        yield item

3. 配置Pipeline(pipelines.py)

import json

class JsonWriterPipeline:
    def open_spider(self, spider):
        self.file = open('authors.jl', 'w', encoding='utf-8')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(line)
        return item

4. 启用Pipeline(settings.py)

ITEM_PIPELINES = {
    'tutorial.pipelines.JsonWriterPipeline': 300,
}

七、常用命令

  1. 创建爬虫:
scrapy genspider myspider example.com
  1. 运行爬虫:
scrapy crawl 
  1. 交互式调试:
scrapy shell "http://quotes.toscrape.com"
  1. 导出不同格式:
scrapy crawl quotes -o quotes.csv
scrapy crawl quotes -o quotes.xml

八、进阶功能 (后续陆续更新)

  1. CrawlSpider使用(
  2. 使用 CrawlerProcess 编程式运行爬虫
  3. 分布式爬虫
  4. 处理动态内容
  5. 数据处理与存储优化

九、注意事项

  1. 遵守网站的robots.txt协议
  2. 设置合理的下载延迟(DOWNLOAD_DELAY)
  3. 使用User-Agent轮换
  4. 处理反爬机制(验证码、IP封禁等)
  5. 注意数据存储格式和编码问题

十、调试技巧

  1. 使用scrapy shell进行快速测试
  2. 查看日志:
# settings.py
LOG_LEVEL = 'DEBUG'
LOG_FILE = 'scrapy.log'
  1. 使用中间件捕获异常
  2. 通过response.status检查HTTP状态码

这个教程涵盖了Scrapy的主要功能和典型使用场景。建议通过实际项目练习来加深理解,可以从简单的静态网站开始,逐步挑战更复杂的动态网站和数据抓取需求。

学习资料

Scrapy 2.12 文档 — Scrapy 2.12.0 文档 - Scrapy 框架

源代码合集

  • 汽车之家车型数据抓取解析 (后续更新)

相关推荐

用豆包生成的BMI计算器(豆包的热量是多少?)

<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8&#...

Android 开发中文引导-应用小部件

应用小部件是可以嵌入其它应用(例如主屏幕)并收到定期更新的微型应用视图。这些视图在用户界面中被叫做小部件,并可以用应用小部件提供者发布。可以容纳其他应用部件的应用组件叫做应用部件的宿主(1)。下面的截...

Qt推流(视频文件/视频流/摄像头/桌面转流媒体rtmp+hls+webrtc)

一、前言说明推流直播就是把采集阶段封包好的内容传输到服务器的过程。其实就是将现场的视频信号从手机端,电脑端,摄影机端打包传到服务器的过程。“推流”对网络要求比较高,如果网络不稳定,直播效果就会很差,观...

一看就会!谷歌广告转化跟踪详细设置指南来了

在出海推广业务中,投放广告最常见的目的是获取订单,但我们怎么知道有没有达成投放目的呢?谷歌转化跟踪技术就可以做到!熟悉谷歌的卖家朋友都知道,转化跟踪在最近几年变得越来越复杂了,虽然有很多选项可以自定义...

Android原生编解码接口MediaCodec详解

作者:躬行之MediaCodec是Android中的编解码器组件,用来访问底层提供的编解码器,通常与MediaExtractor、MediaSync、MediaMuxer、MediaCrypt...

手把手搭建RTSP流媒体服务器(rtsp 流媒体)

0.引言本文主要讲解如何搭建RTSP流媒体服务器的过程,使用开源项目ZLMediaKit。通过这个开源项目,推RTSP流到服务器,然后拉流端可以拉取RTSP、RTMP等流。ZLMediaKit码云链接...

MediaInfo 24.04.0 是一个关于多媒体文件的信息提供工具

MediaInfo24.04.0是一个关于多媒体文件的信息提供工具(仅当文件中包含信息时才提供):包括常规信息(标题、作者、导演、专辑、曲目编号、日期、时长等);视频信息(编解码器、画面比例、帧率...

rmvb格式视频怎么打开,rmvb转MP4认准这个方法

 一、rmvb是什么格式?  RMVB是一种视频文件格式,其中的VB指的是可变比特率。比起上一代的RM格式,RMVB  格式的画面比较清晰,因为它是降低了静态画面下的比特率。  二、制作rmvb  ①...

教你用Plex Media Server,把铁威马变成你的“私人好莱坞”!

TNAS(铁威马NAS)中可以安装多媒体服务器、影视、PlexMediaServer、EmbyServer作为个人媒体服务器使用。PlexMediaServer可以组织整理TNAS上的媒体...

你肯定用过!经典Windows软件被抛弃

Windows系统这些年持续更新的过程中,不断融入新的软件和功能的同时,一些经典的应用也渐渐成为了历史……Windows媒体播放器被抛弃Windows系统不断地推陈出新,一些老旧的组件也难免被抛弃,在...

博思得Q8标签打印全能手(博思得标签打印机安装教程)

2014-12-0905:35:00作者:宋达希【中关村在线办公打印频道原创】服装吊牌、洗涤标签、产品说明标签等都要用到标签打印机,这些标签涵盖多种尺寸的长度和宽度以及材质。另外作为一件商品或者产...

flv文件用什么播放器打开,这样做不踩雷!

FLV是FLASHVIDEO的简称,是随着FlashMX的推出发展而来的视频格式。它的出现有效地解决了视频文件导入Flash后,使导出的SWF文件体积庞大,不能在网络上很好的使用等问题。一、...

media player怎么转换格式?音频转换神器推荐!

Windowsmediaplayer怎么转换格式?WindowsMediaPlayer是微软公司出品的一款多媒体播放器,通常简称“WMP”。提供了编辑音频和视频文件的功能。用户可以使用该软件导...

视频参数检查工具更新:MediaInfo 23.10

MediaInfo提供有关视频或音频文件的技术和标签信息。信息示例包括编解码器、比特率、每秒帧数、宽度、高度、频道数、持续时间、标题、作者、字幕语言和章节名称。多种方式可以查看信息(文本、工作表、树和...

多媒体管理软件:JRiver Media Center 31.0.68 (64位)

JRiverMediaCenter64位是适用于大量库的完整媒体解决方案。它组织、播放和标记所有类型的媒体文件,并对Xbox、PS3、UPnP、DLNA和TiVo进行翻录、刻录。JRiverM...