百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Python每日一库之Beautiful Soup(python mtime)

zhezhongyun 2025-01-29 19:11 65 浏览



Beautiful Soup4是一个 Python 库,用于从 HTML 和 XML 文件中提取数据。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。

BeautifulSoup安装

使用pip来安装BeautifulSoup

pip install bs4 

另外要安装解析器,下列表格列出一些常用的解析器。



解析器

使用方法

优点

缺点

Python内置解析器html

BeautifulSoup(doc,"html.parser")

Python内置的标准库,执行速度中等,文档容错能力强

中文文档容错能力差

lxml HTML解析器

BeautifulSoup(doc,"lxml")

执行速度快,文档容错能力强

需要依赖C语言的库


lxml XML解析器

BeautifulSoup(doc,"xml")

执行速度快,唯一支持XML的解析器

需要依赖C语言的库

html5lib

BeautifulSoup(doc,"html5lib")

以浏览器的方式解析文档可以生成HTML5格式的文档

速度慢

使用BeautifulSoup及四大对象

创建BeautifulSoup对象

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"

content = requests.get(url).content
soup = BeautifulSoup(content)

print(soup.prettify())  // 格式化输出

print(soup.get_text()) // 获取网页所有的文字内容

BeautifulSoup四大对象

Beautiful Soup 将复杂 HTML 文档转换成一个复杂的树形结构,每个节点都是 Python 对象,所有对象可以归纳为 4 种。

  • Tag:HTML中的标签,简单来说就是html标签。
  • NavigableString:简单来说就是标签里面的内容,它的类型是一个NavigableString,翻译过来叫可以遍历的字符串。
  • BeautifulSoup:BeautifulSoup对象表示的是一个文档的全部内容,大部分时候,可以把它当作Tag对象,是一个特殊的Tag,我们可以分别获取它的类型、名称、以及属性
  • Comment:一个特殊类型的NavigableString对象,其实输出的内容不包括注释符号

Tag对象示例

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"

content = requests.get(url).content
soup = BeautifulSoup(content)

print(soup.title)
print(soup.a)
print(soup.p)

运行输出如下图所示,但是发现好像这个网页不止一个a标签跟p标签,是因为它查找的是在所有内容中的第一个符合要求的标签,要是想得到所有符合要求的标签,后面会介绍find_all函数。

在Tag对象中有两个重要的属性,name和attrs。

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
print(soup.a.attrs)

运行输出如下图所示,name输出的是标签的本身,attrs输出的是一个字典的类型,如果我们需要得到某个标签的某个属性可以使用字典一些方法去获取比如get方法,print(soup.p.get("class"))或者直接使用print(soup.p["class"])

NavigableString代码示例

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
print(soup.a.string)

运行输出如下图,可以NavigableString类型的string方法轻松获取到了标签里面的内容。

BeautifulSoup代码示例

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"

content = requests.get(url).content
soup = BeautifulSoup(content)
print(soup.name)
print(soup.attrs)

运行输出如下图所示

Comment代码示例

from bs4 import BeautifulSoup
htmlText = '#'
soup = BeautifulSoup(htmlText)
print(soup.a.string)

运行输出如下,a 标签里的内容实际上是注释,但是如果利用 .string方法来输出它的内容,发现它已经把注释符号去掉了,所以这可能会给带来不必要的麻烦。

文档树遍历

  • 直接子节点

tag里面的content属性可以将tag的子节点以列表的形式返回。通过遍历content.返回的列表来获取每一个子节点或者直接使用tag的children方法来获取。

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
print(soup.head.contents)
for child in soup.head.contents:
    print(child)

for child in soup.head.children:
    print(child)

运行输出结果如下图所示

  • 所有子孙节点

tag里面的.descendants 属性可以对所有tag的子孙节点进行递归循环,和 children类似,我们也需要遍历获取其中的内容。

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
for child in soup.descendants:
     print(child)

运行结果输出如下图所示

  • 节点内容

使用.string方法来获取内容,如果一个标签里面没有标签了,那么 .string 就会返回标签里面的内容。如果标签里面只有唯一的一个标签了,那么 .string 也会返回最里面的内容,如果标签里面没有内容则返回None

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
print(soup.a.string)
print(soup.title.string)

运行结果输出如下图所示

  • 多个内容

使用strippend_strings 属性来获取多个内容还可以出除多余的空白字符,需要使用遍历来获取,

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
for child in soup.stripped_strings:
    print(child)

运行结果输出如下图所示

  • 父节点

通过元素的 .parents 属性可以递归得到元素的所有父辈节点

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"html.parser")
parentObject = soup.head.title

for parent in parentObject.parent:
    print(parent.name)

运行结果输出如下图所示

还有一些节点就不举例,跟其它获取节点一样也是需要遍历,而且使用的场景不同,兄弟节点使用.next_siblings或者.previous_sibling方法,前后节点使用.next_element或者.previous_element方法。

搜索文档树

find_all(name,attrs,recursive,text,**kwargs),find_all()方法用于搜索当前tag的所有tag子节点,并判断是否符合过滤条件。

name 参数

name参数可以查找所有名字为name的tag,字符串对象会被自动忽略掉

  • 传字符串

最简单的过滤器是字符串,在搜索方法中传入一个字符串参数,beautifulsoup会查找与字符串完整匹配的内容,下面的例子用于查找文档中的所有a标签

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")

print(soup.find_all("a"))
  • 传正则表达式

如果传入正则表达式作为参数,beautiful soup会通过正则表达式的match()来匹配内容,下面例子中找出所有以b开头的标签,这表示b开头标签都应该被找到,如果都正则表达式不熟悉的可以看我之前写关于正则表示式的文章:
https://www.toutiao.com/article/7140941215431819783/?log_from=
4bb8705803d45_1663051238064

from bs4 import BeautifulSoup
import requests
import re
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")

for tag in soup.find_all(re.compile('^b')):
    print(tag.name)

运行结果如下图所示

  • 传列表

如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回.下面代码找到文档中所有标签和标签

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")

print(soup.find_all(["a", "p"]))

运行结果如下图所示

  • 传True

true 可以匹配任何值,下面代码查找到所有的tag,但是不会返回字符串节点

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")

for tag in soup.find_all(True):
    print(tag.name)

运行结果如下图所示

  • 传函数

如果没有合适过滤器,那么还可以定义一个函数,函数只接受一个元素参数 [4] ,如果这个方法返回 True 表示当前元素匹配并且被找到,如果不是则返回 False

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")


def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')

print(soup.find_all(has_class_but_no_id))

输出结果如下图所示

  • keyword 参数

注意:如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索,如果包含一个名字为id的参数,Beautifulsoup会搜索每个tag的'id'值

import re

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.find_all(id='lg'))
print(soup.find_all(href=re.compile("hao123")))

运行结果如下图所示

  1. find(name , attrs , recursive , text , **kwargs ), 它与 find_all() 方法唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果。

CSS选择器

在使用BeautifulSoup中常用的有5中css选择器方法,用到的方法是 soup.select(),返回类型是列表

  • 通过标签名查找
from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select("title"))

运行结果如下图所示

  • 通过CSS类名查找
from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select(".mnav"))

运行结果如下图所示

  • 通过ID来查找
from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select("#lg"))

运行结果如下图所示

  • 组合查找

组合查找有点类似前端CSS选择器中的组合选择器,组合查找还可以使用子代选择器。

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select('div #lg'))

print(soup.select('div > a'))

运行结果如下图所示

  • 通过CSS属性查找

使用属性需要用中括号括起来,注意属性和标签属于同一节点,所以中间不能加空格,否则会无法匹配到。

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select('a[class="mnav"]'))

不同节点使用属性查找

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select('span input[class="bg s_btn"]'))

运行结果如下图所示


修改文档树

Beautiful Soup的强项是文档树的搜索,但同时也可以方便的修改文档树

  • 修改tag的名称和属性
from bs4 import BeautifulSoup
import requests

soup = BeautifulSoup('Extremely bold',"lxml")

tag = soup.b

tag.name = "newtag"
tag['class'] = 'newclass'
tag['id'] = 1
print(tag)

del tag['class']
print(tag)

运行结果如下图所示

  • 修改标签内容

给tag的 .string 属性赋值,就相当于用当前的内容替代了原来的内容,如果当前的tag包含了其它tag,那么给它的 .string 属性赋值会覆盖掉原有的所有内容包括子tag

from bs4 import BeautifulSoup
import requests

markup = 'I linked to example.com'
soup = BeautifulSoup(markup,"lxml")

tag = soup.a
tag.string = "New link text."
print(tag)

运行结果如下图所示

  • 在tag中添加内容

Tag.append() 方法可以在tag中添加内容

from bs4 import BeautifulSoup
import requests

soup = BeautifulSoup("Foo","lxml")
soup.a.append("Bar")
print(soup)
print(soup.a.contents)

运行结果如下图所示

总结

本篇内容比较多,把 Beautiful Soup 的方法进行了大部分整理和总结,但是还不够完整只是列出一些常用的,如果需要完整的可以查看Beautiful Soup 官网的文档,希望对大家有帮助,掌握了 Beautiful Soup,一定会给你在数据爬取带来方便,下一期我将分享Python pands库,果对我的文章感兴趣可以关注我,如果有想了解的Python库也可以在评论留言,我将采纳你们的意见写一篇文章来分享给大家。

相关推荐

JavaScript中常用数据类型,你知道几个?

本文首发自「慕课网」,想了解更多IT干货内容,程序员圈内热闻,欢迎关注!作者|慕课网精英讲师Lison这篇文章我们了解一下JavaScript中现有的八个数据类型,当然这并不是JavaScr...

踩坑:前端的z-index 之bug一二(zh1es前端)

IE6下浮动元素bug给IE6下的一个div设置元素样式,无论z-index设置多高都不起作用。这种情况发生的条件有三个:1.父标签position属性为relative;2.问题标签无posi...

两栏布局、左边定宽200px、右边自适应如何实现?

一、两栏布局(左定宽,右自动)1.float+margin即固定宽度元素设置float属性为left,自适应元素设置margin属性,margin-left应>=定宽元素宽度。举例:HTM...

前端代码需要这样优化才是一个标准的网站

  网站由前端和后端组成,前端呈现给用户。本文将告诉您前端页面代码的优化,当然仍然是基于seo优化的。  就前端而言,如果做伪静态处理,基本上是普通的html代码,正常情况下,这些页面内容是通过页面模...

网页设计如何自学(初学网页设计)

1在Dreamweaver中搭建不同的页面,需要掌握HTML的语句了,通过调整各项数值就可以制作出排版漂亮的页面,跟着就可以学习一些可视化设计软件。下面介绍网页设计如何自学,希望可以帮助到各位。Dre...

1、数值类型(数值类型有)

1.1数据类型概览MySQL的数据类型可划分为三大类别:数值类型:旨在存储数字(涵盖整型、浮点型、DECIMAL等)。字符串类型:主要用于存储文本(诸如CHAR、VARCHAR之类)。日期/...

网页设计的布局属性(网页设计的布局属性是什么)

布局属性是网站设计中必不可少的一个重要的环节,主要用来设置网页的元素的布局,主要有以下属性。1、float:该属性设置元素的浮动方式,可以取none,left和right等3个值,分别表示不浮动,浮在...

Grid网格布局一种更灵活、更强大的二维布局模型!

当涉及到网页布局时,display:flex;和display:grid;是两个常用的CSS属性,它们都允许创建不同类型的布局,但有着不同的用法和适用场景。使用flex布局的痛点当我们使...

React 项目实践——创建一个聊天机器人

作者:FredrikStrandOseberg转发链接:https://www.freecodecamp.org/news/how-to-build-a-chatbot-with-react/前言...

有趣的 CSS 数学函数(css公式)

前言之前一直在玩three.js,接触了很多数学函数,用它们创造过很多特效。于是我思考:能否在CSS中也用上这些数学函数,但发现CSS目前还没有,据说以后的新规范会纳入,估计也要等很久。然...

web开发之-前端css(5)(css前端设计)

显示控制一个元素的显示方式,我们可以使用display:block;display:inline-block;display:none;其中布局相关的还有两个很重要的属性:display:flex;和...

2024最新升级–前端内功修炼 5大主流布局系统进阶(分享)

获课:keyouit.xyz/14642/1.前端布局的重要性及发展历程前端布局是网页设计和开发的核心技能之一,它决定了页面元素如何组织和呈现。从早期的静态布局到现代的响应式布局,前端布局技术经历了...

教你轻松制作自动换行的CSS布局,轻松应对不同设备!

在网页设计中,自动换行的CSS布局是非常常见的需求,特别是在响应式设计中。它可以让网页内容自动适应不同屏幕尺寸,保证用户在不同设备上都能够获得良好的浏览体验。本文将介绍几种制作自动换行的CSS布局的方...

晨光微语!一道 CSS 面试题,伴你静享知识治愈时光

当第一缕阳光温柔地爬上窗台,窗外的鸟鸣声清脆悦耳,空气中弥漫着清新的气息。在这宁静美好的清晨与上午时光,泡一杯热气腾腾的咖啡,找一个舒适的角落坐下。前端的小伙伴们,先把工作的疲惫和面试的焦虑放在一边,...

2023 年的响应式设计指南(什么是响应式设计优缺点)

大家好,我是Echa。如今,当大家考虑构建流畅的布局时,没有再写固定宽度和高度数值了。相反,小编今天构建的布局需要适用于几乎任何尺寸的设备。是不是不可思议,小编仍然看到网站遵循自适应设计模式,其中它有...