python爬虫 抓取网页并解析HTML页面相当简单!入门开始
zhezhongyun 2025-01-21 23:08 37 浏览
有任何问题可联系我,我们一起学习!:)
第一步:下载HTML页面
基本下载网页的能力包括针对 URL 进行 HTTP GET 请求。这是任何 web 浏览器的基本操作。让我们快速回顾一下此操作的不同部分,因为它有三个不同的元素:
使用 HTTP 协议。这涉及请求的结构方式。
使用 GET 方法,这是最常见的 HTTP 方法。我们将在访问 web API 的示例中进一步了解它。
完整的 URL 描述了页面的地址,包括服务器(例如:mypage.com)和路径(例如:/page)。
该请求将通过互联网路由到服务器,并由服务器进行处理,然后将返回响应。该响应将包含状态代码,通常是 200,如果一切正常,以及结果的正文,这通常是带有 HTML 页面的文本。
大部分请求自动处理了 HTTP 客户端。在这个示例中,我们将看到如何简单请求以获取 web 页面。
HTTP 请求和响应也可以包含头部信息。头部信息包含了关于请求本身的重要信息,例如请求的总大小,内容的格式,请求的日期以及使用的浏览器或服务器等。
准备工作
使用出色的 requests 模块,获取网页非常简单。安装模块:
$ echo "requests==2.23.0" >> requirements.txt
$ source .venv/bin/activate
(.venv) $ pip install -r requirements.txt
我们将下载位于 http://www.columbia.edu/~fdc/sample.html 的页面,因为它是一个简单的 HTML 页面,易于在文本模式下阅读。
操作步骤:
导入requests模块:
import requests
使用以下URL向服务器发出请求,需要一两秒钟的时间:
url = 'http://www.columbia.edu/~fdc/sample.html'
response = requests.get(url)
检查返回对象的状态码:
response.status_code
200
检查结果的内容:
response.text
'<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
n<html>\n<head>\n
...
完整的HTML代码
...
<!-- close the <html> begun above -->\n'
检查正在进行和返回的标头:
response.request.headers
{'User-Agent': 'python-requests/2.22.0', 'Accept-Encoding': 'gzip,
deflate', 'Accept': '/', 'Connection': 'keep-alive'}
response.headers
{'Date': 'Fri, 24 Jan 2020 19:04:12 GMT', 'Server': 'Apache',
'Last-Modified': 'Wed, 11 Dec 2019 12:46:44 GMT', 'Accept-Ranges':
'bytes', 'Vary': 'Accept-Encoding,User-Agent', 'Content-Encoding':
'gzip', 'Content-Length': '10127', 'Keep-Alive': 'timeout=15,
max=100', 'Connection': 'Keep-Alive', 'Content-Type': 'text/
html', 'Set-Cookie': 'BIGipServerCUITwww.columbia.edu-80-
pool=1311259520.20480.0000; expires=Sat, 25-Jan-2020 01:04:12 GMT;
path=/; Httponly'}
它是如何工作的...
requests 的操作非常简单;在此情况下,使用 GET 方法在 URL 上执行请求。这将返回一个结果对象,可以进行分析。主要元素是状态代码和正文内容,可以表示为文本。
完整的请求可以在请求属性中检查:
response.request
<PreparedRequest [GET]>
response.request.url
http://www.columbia.edu/~fdc/sample.html'
完整的 requests 模块文档可以在这里找到:https://requests.readthedocs.io/en/master/。
在本章的过程中,我们将展示更多 requests 库的特点。
还有更多...
所有 HTTP 状态代码可以在此网页中查看:https://httpstatuses.com/。它们也在 http.HTTPStatus 枚举中描述,具有方便的常量名称,如 OK、NOT_FOUND 或 FORBIDDEN。
状态代码的一般结构是:
1XX - 关于协议的具体信息。
2XX - 成功。
3XX - 重定向。例如:URL 不再有效,并且可在其他地方找到。新的 URL 应该被包含在内。
4XX - 客户端错误。在向服务器发送信息时存在一些错误(例如,格式错误),或者客户端存在错误(例如,需要身份验证才能访问 URL)。
最著名的错误状态代码可能是 404,当描述 URL 的资源未找到时返回该代码。尝试通过执行 requests.get(http://www.columbia.edu/invalid) 进行测试。
5XX - 服务器错误。服务器端存在错误;例如,服务器可能不可用,或者处理请求时可能存在错误。
请求可以使用 HTTPS(安全 HTTP)协议。它与 HTTP 相同,但确保请求和响应的内容是私有的。requests 会自动处理它。
任何处理任何私人信息的网站都应该使用HTTPS来确保信息没有泄漏。HTTP容易被窃听。请在有可能的情况下使用HTTPS。
第二步:解析HTML
下载原始文本或二进制文件是一个好的起点,但是网络的主要语言是HTML。
HTML是一种结构化语言,定义了文档的不同部分,例如标题和段落。HTML也是分层的,定义了子元素。将原始文本解析为结构化文档的能力基本上是从网页自动提取信息的能力。例如,如果将某些文本放入特定的HTML元素中,例如class div或heading h3标记之后,则可能是相关的文本。
准备就绪
我们将使用优秀的Beautiful Soup模块将HTML文本解析为可以分析的内存对象。我们需要使用最新版本的beautifulsoup4包与Python 3兼容。将该包添加到您的requirements.txt文件中,并在虚拟环境中安装依赖项:
$ echo "beautifulsoup4==4.8.2" >> requirements.txt
$ pip install -r requirements.txt
如何完成它...
导入 BeautifulSoup 和 requests 模块:
import requests
from bs4 import BeautifulSoup
设置要下载和获取的页面的 URL:
URL = 'http://www.columbia.edu/~fdc/sample.html'
response = requests.get(URL)
response
<Response [200]>
解析已下载的页面:
page = BeautifulSoup(response.text, 'html.parser')
获取页面标题。查看它是否与浏览器中显示的相同:
page.title
<title>Sample Web Page</title>
>>> page.title.string
'Sample Web Page'
5. 找到页面中的所有 h3 元素,以确定现有部分:
>>> page.find_all('h3')
[<h3><a name="contents">CONTENTS</a></h3>, <h3><a name="basics">1.
Creating a Web Page</a></h3>, <h3><a name="syntax">2. HTML
Syntax</a></h3>, <h3><a name="chars">3. Special Characters</a></
h3>, <h3><a name="convert">4. Converting Plain Text to HTML</
a></h3>, <h3><a name="effects">5. Effects</a></h3>, <h3><a
name="lists">6. Lists</a></h3>, <h3><a name="links">7. Links</
a></h3>, <h3><a name="tables">8. Tables</a></h3>, <h3><a
name="install">9. Installing Your Web Page on the Internet</a></
h3>, <h3><a name="more">10. Where to go from here</a></h3>]
6. 提取特殊字符部分的文本。当遇到下一个 <h3> 标签时停止:
>>> link_section = page.find('h3', attrs={'id': 'chars'})
>>> section = []
for element in link_section.next_elements:
... if element.name == 'h3':
... break
... section.append(element.string or '')
...
result = ''.join(section)
result
'3. Special Characters\n\nHTML特殊“字符实体”以和号(&&)开头并以分号(;;)结束,例如"EUREUR" = "EUR"。永远流行的“不换行空格”是 。有用于重音拉丁字母和其他西欧特殊字符的特殊实体名称,例如:\n\n\n\n\n\n"a"a\na-umlaut\n\xa0"a\xa0\n\n\n"A"A\nA-umlaut\n\xa0"A\xa0\n\n\náá\na-acute\n\xa0á\xa0\n\nàà\na-grave\n\xa0à\xa0\n\n~n~n\nn-tilde\n\xa0~n\xa0\n\nssss\nGerman double-s\n\xa0ss\xa0\n\nthth\nIcelandic thorn\n\xa0th\xa0\n\xa0th\xa0\n\n\n\n\n示例:\n\n\n对于西班牙语,您需要:\n'A'A ('A),\náá (á),\n'E'E ('E),\néé (é),\n'I'I ('I),\níí (í),\n'O'O ('O),\nóó (ó),\n'U'U (ú),\núú (ú),\n~N~N (~N),\n~n~n (~n);\n?? (?);\n!! (!)。\n例如:A~norarán = A~noraránA~norarán。\n\n\n对于德语,您需要:\n"A"A ("A),\n"a"a ("a),\n"O"O ("O),\n"o"o ("o),\n"U"U (ü),\nüü (ü),\nssss (ss)。\n例如:Grüsse aus K"oln = Grüsse aus K"olnGrüsse aus K"oln。\n\n\n\n点击此处\n点击此处\n以获取完整列表。建议页面编码为UTF-8,这样您也可以直接从键盘输入任何字符,无论是罗马字母、西里尔字母、阿拉伯字母、
它是如何工作的...
第一步是下载页面。然后,可以像第3步那样解析原始文本。
生成的页面对象包含了解析后的信息。
BeautifulSoup允许我们搜索HTML元素。它可以使用.find()搜索第一个HTML元素,或使用.find_all()返回一个列表。
在第5步中,它搜索了一个特定的标签<a>,该标签具有特定的属性id=chars。
然后,它继续迭代.next_elements,直到找到下一个h3标签,该标签标志着该节的结束。
提取每个元素的文本,最后组合成一个单一的文本。请注意,使用or可以避免存储None,当元素没有文本时返回None。
还有更多...
正则表达式可以用作.find()和.find_all()方法的输入。例如,此搜索使用h2和h3标记:
page.find_all(re.compile('^h(2|3)'))
[<h2>Sample Web Page</h2>, <h3 id="contents">CONTENTS</h3>, <h3
id="basics">1. Creating a Web Page</h3>, <h3 id="syntax">2. HTML Syntax</
h3>, <h3 id="chars">3. Special Characters</h3>, <h3 id="convert">4.
Converting Plain Text to HTML</h3>, <h3 id="effects">5. Effects</
h3>, <h3 id="lists">6. Lists</h3>, <h3 id="links">7. Links</h3>, <h3
id="tables">8. Tables</h3>, <h3 id="viewing">9. Viewing Your Web Page</
h3>, <h3 id="install">10. Installing Your Web Page on the Internet</h3>,
<h3 id="more">11. Where to go from here</h3>]
html.parser解析器是默认的解析器,但对于某些操作,它可能会有问题。例如,对于大页面,它可能会很慢,并且它可能会在渲染高度动态的网页时出现问题。您可以使用其他解析器,例如lxml,它更快,或html5lib,它将更接近浏览器的操作方式。它们是需要添加到requirements.txt文件中的外部模块。
HTML非常灵活,可以有多种结构。本篇案例是典型的,但其他选项可将相关部分组合在大的<div>标记或其他元素内,甚至可以使用原始文本。需要进行一些实验,才能找到提取网页中的精华部分的具体过程。不要害怕尝试!
另一个有用的查找参数是使用class_参数包含CSS类。这将在本书的后面展示。
完整的Beautiful Soup文档可以在此处找到:https://www.crummy.com/software/BeautifulSoup/bs4/doc/。
相关推荐
- JavaScript做个贪吃蛇小游戏(过关-加速),无需网络直接玩。
-
JavaScript做个贪吃蛇小游戏(过关-则加速)在浏览器打开文件,无需网络直接玩。<!DOCTYPEhtml><htmllang="en"><...
- 大模型部署加速方法简单总结(大模型 ai)
-
以下对大模型部署、压缩、加速的方法做一个简单总结,为后续需要备查。llama.cppGithub:https://github.com/ggerganov/llama.cppLLaMA.cpp项...
- 安徽医大第一医院应用VitaFlow Liberty(R)Flex为患者焕然一“心”
-
近日,在安徽医科大学第一附属医院心血管内科负责人暨北京安贞医院安徽医院业务副院长喻荣辉教授的鼎力支持和卓越带领下,凭借着先进的VitaFlowLiberty(R)Flex经导管主动脉瓣可回收可...
- 300 多行代码搞定微信 8.0 的「炸」「裂」特效!
-
微信8.0更新的一大特色就是支持动画表情,如果发送的消息只有一个内置的表情图标,这个表情会有一段简单的动画,一些特殊的表情还有全屏特效,例如烟花表情有全屏放烟花的特效,炸弹表情有爆炸动画并且消息和...
- 让div填充屏幕剩余高度的方法(div填充20px)
-
技术背景在前端开发中,经常会遇到需要让某个div元素填充屏幕剩余高度的需求,比如创建具有固定头部和底部,中间内容区域自适应填充剩余空间的布局。随着CSS技术的发展,有多种方法可以实现这一需求。实现步骤...
- css之div内容居中(css中div怎么居中)
-
div中的内容居中显示,包括水平和垂直2个方向。<html><head><styletype="text/css">...
- 使用uniapp开发小程序遇到的一些问题及解决方法
-
1、swiper组件自定义知识点swiper组件的指示点默认是圆圈,想要自己设置指示点,需要获得当前索引,然后赋给当前索引不同的样式,然后在做个动画就可以了。*关键点用change方法,然后通过e.d...
- 微信小程序主页面排版(怎样设置小程序的排版)
-
开发小程序的话首先要了解里面的每个文件的作用小程序没有DOM对象,一切基于组件化小程序的四个重要的文件*.js*.wxml--->view结构---->html*.wxss--...
- Vue动态组件的实践与原理探究(vue动态组件component原理)
-
我司有一个工作台搭建产品,允许通过拖拽小部件的方式来搭建一个工作台页面,平台内置了一些常用小部件,另外也允许自行开发小部件上传使用,本文会从实践的角度来介绍其实现原理。ps.本文项目使用VueCLI...
- 【HarmonyOS Next之旅】兼容JS的类Web开发(四) -> tabs
-
目录1->创建Tabs2->设置Tabs方向3->设置样式4->显示页签索引5->场景示例编辑1->创建Tabs在pages/index目录...
- CSS:前端必会的flex布局,我把布局代码全部展示出来了
-
进入我的主页,查看更多CSS的分享!首先呢,先去看文档,了解flex是什么,这里不做赘述。当然,可以看下面的代码示例,辅助你理解。一、row将子元素在水平方向进行布局:1.垂直方向靠顶部,水平方向靠...
- 【HarmonyOS Next之旅】兼容JS的类Web开发(四) -> swiper
-
目录1->创建Swiper组件2->添加属性3->设置样式4->绑定事件5->场景示例编辑1->创建Swiper组件在pages/index...
- CSS:Flex布局,网页排版神器!(css3 flex布局)
-
还在为网页排版抓狂?别担心,CSS的flex布局来了,让你轻松玩转各种页面布局,实现网页设计自由!什么是Flex布局?Flex布局,也称为弹性布局,是CSS中的一种强大布局方式,它能够让你...
- 移动WEB开发之flex布局,附携程网首页案例制作
-
一、flex布局体验传统布局兼容性好布局繁琐局限性,不能再移动端很好的布局1.1flex弹性布局:操作方便,布局极为简单,移动端应用很广泛PC端浏览器支持情况较差IE11或更低版本,不支持或仅部...
- 2024最新升级–前端内功修炼 5大主流布局系统进阶(mk分享)
-
2024最新升级–前端内功修炼5大主流布局系统进阶(mk分享)获课》789it.top/14658/前端布局是网页设计中至关重要的一环,它决定了网页的结构和元素的排列方式。随着前端技术的不断发展,现...
- 一周热门
- 最近发表
-
- JavaScript做个贪吃蛇小游戏(过关-加速),无需网络直接玩。
- 大模型部署加速方法简单总结(大模型 ai)
- 安徽医大第一医院应用VitaFlow Liberty(R)Flex为患者焕然一“心”
- 300 多行代码搞定微信 8.0 的「炸」「裂」特效!
- 让div填充屏幕剩余高度的方法(div填充20px)
- css之div内容居中(css中div怎么居中)
- 使用uniapp开发小程序遇到的一些问题及解决方法
- 微信小程序主页面排版(怎样设置小程序的排版)
- Vue动态组件的实践与原理探究(vue动态组件component原理)
- 【HarmonyOS Next之旅】兼容JS的类Web开发(四) -> tabs
- 标签列表
-
- HTML 教程 (33)
- HTML 简介 (35)
- HTML 实例/测验 (32)
- HTML 测验 (32)
- JavaScript 和 HTML DOM 参考手册 (32)
- HTML 拓展阅读 (30)
- HTML常用标签 (29)
- HTML文本框样式 (31)
- HTML滚动条样式 (34)
- HTML5 浏览器支持 (33)
- HTML5 新元素 (33)
- HTML5 WebSocket (30)
- HTML5 代码规范 (32)
- HTML5 标签 (717)
- HTML5 标签 (已废弃) (75)
- HTML5电子书 (32)
- HTML5开发工具 (34)
- HTML5小游戏源码 (34)
- HTML5模板下载 (30)
- HTTP 状态消息 (33)
- HTTP 方法:GET 对比 POST (33)
- 键盘快捷键 (35)
- 标签 (226)
- HTML button formtarget 属性 (30)
- CSS 水平对齐 (Horizontal Align) (30)