百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Python每日一库之Beautiful Soup(python mtime)

zhezhongyun 2025-01-29 19:11 186 浏览



Beautiful Soup4是一个 Python 库,用于从 HTML 和 XML 文件中提取数据。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。

BeautifulSoup安装

使用pip来安装BeautifulSoup

pip install bs4 

另外要安装解析器,下列表格列出一些常用的解析器。



解析器

使用方法

优点

缺点

Python内置解析器html

BeautifulSoup(doc,"html.parser")

Python内置的标准库,执行速度中等,文档容错能力强

中文文档容错能力差

lxml HTML解析器

BeautifulSoup(doc,"lxml")

执行速度快,文档容错能力强

需要依赖C语言的库


lxml XML解析器

BeautifulSoup(doc,"xml")

执行速度快,唯一支持XML的解析器

需要依赖C语言的库

html5lib

BeautifulSoup(doc,"html5lib")

以浏览器的方式解析文档可以生成HTML5格式的文档

速度慢

使用BeautifulSoup及四大对象

创建BeautifulSoup对象

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"

content = requests.get(url).content
soup = BeautifulSoup(content)

print(soup.prettify())  // 格式化输出

print(soup.get_text()) // 获取网页所有的文字内容

BeautifulSoup四大对象

Beautiful Soup 将复杂 HTML 文档转换成一个复杂的树形结构,每个节点都是 Python 对象,所有对象可以归纳为 4 种。

  • Tag:HTML中的标签,简单来说就是html标签。
  • NavigableString:简单来说就是标签里面的内容,它的类型是一个NavigableString,翻译过来叫可以遍历的字符串。
  • BeautifulSoup:BeautifulSoup对象表示的是一个文档的全部内容,大部分时候,可以把它当作Tag对象,是一个特殊的Tag,我们可以分别获取它的类型、名称、以及属性
  • Comment:一个特殊类型的NavigableString对象,其实输出的内容不包括注释符号

Tag对象示例

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"

content = requests.get(url).content
soup = BeautifulSoup(content)

print(soup.title)
print(soup.a)
print(soup.p)

运行输出如下图所示,但是发现好像这个网页不止一个a标签跟p标签,是因为它查找的是在所有内容中的第一个符合要求的标签,要是想得到所有符合要求的标签,后面会介绍find_all函数。

在Tag对象中有两个重要的属性,name和attrs。

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
print(soup.a.attrs)

运行输出如下图所示,name输出的是标签的本身,attrs输出的是一个字典的类型,如果我们需要得到某个标签的某个属性可以使用字典一些方法去获取比如get方法,print(soup.p.get("class"))或者直接使用print(soup.p["class"])

NavigableString代码示例

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
print(soup.a.string)

运行输出如下图,可以NavigableString类型的string方法轻松获取到了标签里面的内容。

BeautifulSoup代码示例

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"

content = requests.get(url).content
soup = BeautifulSoup(content)
print(soup.name)
print(soup.attrs)

运行输出如下图所示

Comment代码示例

from bs4 import BeautifulSoup
htmlText = '#'
soup = BeautifulSoup(htmlText)
print(soup.a.string)

运行输出如下,a 标签里的内容实际上是注释,但是如果利用 .string方法来输出它的内容,发现它已经把注释符号去掉了,所以这可能会给带来不必要的麻烦。

文档树遍历

  • 直接子节点

tag里面的content属性可以将tag的子节点以列表的形式返回。通过遍历content.返回的列表来获取每一个子节点或者直接使用tag的children方法来获取。

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
print(soup.head.contents)
for child in soup.head.contents:
    print(child)

for child in soup.head.children:
    print(child)

运行输出结果如下图所示

  • 所有子孙节点

tag里面的.descendants 属性可以对所有tag的子孙节点进行递归循环,和 children类似,我们也需要遍历获取其中的内容。

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
for child in soup.descendants:
     print(child)

运行结果输出如下图所示

  • 节点内容

使用.string方法来获取内容,如果一个标签里面没有标签了,那么 .string 就会返回标签里面的内容。如果标签里面只有唯一的一个标签了,那么 .string 也会返回最里面的内容,如果标签里面没有内容则返回None

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
print(soup.a.string)
print(soup.title.string)

运行结果输出如下图所示

  • 多个内容

使用strippend_strings 属性来获取多个内容还可以出除多余的空白字符,需要使用遍历来获取,

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
for child in soup.stripped_strings:
    print(child)

运行结果输出如下图所示

  • 父节点

通过元素的 .parents 属性可以递归得到元素的所有父辈节点

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"html.parser")
parentObject = soup.head.title

for parent in parentObject.parent:
    print(parent.name)

运行结果输出如下图所示

还有一些节点就不举例,跟其它获取节点一样也是需要遍历,而且使用的场景不同,兄弟节点使用.next_siblings或者.previous_sibling方法,前后节点使用.next_element或者.previous_element方法。

搜索文档树

find_all(name,attrs,recursive,text,**kwargs),find_all()方法用于搜索当前tag的所有tag子节点,并判断是否符合过滤条件。

name 参数

name参数可以查找所有名字为name的tag,字符串对象会被自动忽略掉

  • 传字符串

最简单的过滤器是字符串,在搜索方法中传入一个字符串参数,beautifulsoup会查找与字符串完整匹配的内容,下面的例子用于查找文档中的所有a标签

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")

print(soup.find_all("a"))
  • 传正则表达式

如果传入正则表达式作为参数,beautiful soup会通过正则表达式的match()来匹配内容,下面例子中找出所有以b开头的标签,这表示b开头标签都应该被找到,如果都正则表达式不熟悉的可以看我之前写关于正则表示式的文章:
https://www.toutiao.com/article/7140941215431819783/?log_from=
4bb8705803d45_1663051238064

from bs4 import BeautifulSoup
import requests
import re
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")

for tag in soup.find_all(re.compile('^b')):
    print(tag.name)

运行结果如下图所示

  • 传列表

如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回.下面代码找到文档中所有标签和标签

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")

print(soup.find_all(["a", "p"]))

运行结果如下图所示

  • 传True

true 可以匹配任何值,下面代码查找到所有的tag,但是不会返回字符串节点

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")

for tag in soup.find_all(True):
    print(tag.name)

运行结果如下图所示

  • 传函数

如果没有合适过滤器,那么还可以定义一个函数,函数只接受一个元素参数 [4] ,如果这个方法返回 True 表示当前元素匹配并且被找到,如果不是则返回 False

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")


def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')

print(soup.find_all(has_class_but_no_id))

输出结果如下图所示

  • keyword 参数

注意:如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索,如果包含一个名字为id的参数,Beautifulsoup会搜索每个tag的'id'值

import re

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.find_all(id='lg'))
print(soup.find_all(href=re.compile("hao123")))

运行结果如下图所示

  1. find(name , attrs , recursive , text , **kwargs ), 它与 find_all() 方法唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果。

CSS选择器

在使用BeautifulSoup中常用的有5中css选择器方法,用到的方法是 soup.select(),返回类型是列表

  • 通过标签名查找
from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select("title"))

运行结果如下图所示

  • 通过CSS类名查找
from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select(".mnav"))

运行结果如下图所示

  • 通过ID来查找
from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select("#lg"))

运行结果如下图所示

  • 组合查找

组合查找有点类似前端CSS选择器中的组合选择器,组合查找还可以使用子代选择器。

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select('div #lg'))

print(soup.select('div > a'))

运行结果如下图所示

  • 通过CSS属性查找

使用属性需要用中括号括起来,注意属性和标签属于同一节点,所以中间不能加空格,否则会无法匹配到。

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select('a[class="mnav"]'))

不同节点使用属性查找

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select('span input[class="bg s_btn"]'))

运行结果如下图所示


修改文档树

Beautiful Soup的强项是文档树的搜索,但同时也可以方便的修改文档树

  • 修改tag的名称和属性
from bs4 import BeautifulSoup
import requests

soup = BeautifulSoup('Extremely bold',"lxml")

tag = soup.b

tag.name = "newtag"
tag['class'] = 'newclass'
tag['id'] = 1
print(tag)

del tag['class']
print(tag)

运行结果如下图所示

  • 修改标签内容

给tag的 .string 属性赋值,就相当于用当前的内容替代了原来的内容,如果当前的tag包含了其它tag,那么给它的 .string 属性赋值会覆盖掉原有的所有内容包括子tag

from bs4 import BeautifulSoup
import requests

markup = 'I linked to example.com'
soup = BeautifulSoup(markup,"lxml")

tag = soup.a
tag.string = "New link text."
print(tag)

运行结果如下图所示

  • 在tag中添加内容

Tag.append() 方法可以在tag中添加内容

from bs4 import BeautifulSoup
import requests

soup = BeautifulSoup("Foo","lxml")
soup.a.append("Bar")
print(soup)
print(soup.a.contents)

运行结果如下图所示

总结

本篇内容比较多,把 Beautiful Soup 的方法进行了大部分整理和总结,但是还不够完整只是列出一些常用的,如果需要完整的可以查看Beautiful Soup 官网的文档,希望对大家有帮助,掌握了 Beautiful Soup,一定会给你在数据爬取带来方便,下一期我将分享Python pands库,果对我的文章感兴趣可以关注我,如果有想了解的Python库也可以在评论留言,我将采纳你们的意见写一篇文章来分享给大家。

相关推荐

Python入门学习记录之一:变量_python怎么用变量

写这个,主要是对自己学习python知识的一个总结,也是加深自己的印象。变量(英文:variable),也叫标识符。在python中,变量的命名规则有以下三点:>变量名只能包含字母、数字和下划线...

python变量命名规则——来自小白的总结

python是一个动态编译类编程语言,所以程序在运行前不需要如C语言的先行编译动作,因此也只有在程序运行过程中才能发现程序的问题。基于此,python的变量就有一定的命名规范。python作为当前热门...

Python入门学习教程:第 2 章 变量与数据类型

2.1什么是变量?在编程中,变量就像一个存放数据的容器,它可以存储各种信息,并且这些信息可以被读取和修改。想象一下,变量就如同我们生活中的盒子,你可以把东西放进去,也可以随时拿出来看看,甚至可以换成...

绘制学术论文中的“三线表”具体指导

在科研过程中,大家用到最多的可能就是“三线表”。“三线表”,一般主要由三条横线构成,当然在变量名栏里也可以拆分单元格,出现更多的线。更重要的是,“三线表”也是一种数据记录规范,以“三线表”形式记录的数...

Python基础语法知识--变量和数据类型

学习Python中的变量和数据类型至关重要,因为它们构成了Python编程的基石。以下是帮助您了解Python中的变量和数据类型的分步指南:1.变量:变量在Python中用于存储数据值。它们充...

一文搞懂 Python 中的所有标点符号

反引号`无任何作用。传说Python3中它被移除是因为和单引号字符'太相似。波浪号~(按位取反符号)~被称为取反或补码运算符。它放在我们想要取反的对象前面。如果放在一个整数n...

Python变量类型和运算符_python中变量的含义

别再被小名词坑哭了:Python新手常犯的那些隐蔽错误,我用同事的真实bug拆给你看我记得有一次和同事张姐一起追查一个看似随机崩溃的脚本,最后发现罪魁祸首竟然是她把变量命名成了list。说实话...

从零开始:深入剖析 Spring Boot3 中配置文件的加载顺序

在当今的互联网软件开发领域,SpringBoot无疑是最为热门和广泛应用的框架之一。它以其强大的功能、便捷的开发体验,极大地提升了开发效率,成为众多开发者构建Web应用程序的首选。而在Spr...

Python中下划线 ‘_’ 的用法,你知道几种

Python中下划线()是一个有特殊含义和用途的符号,它可以用来表示以下几种情况:1在解释器中,下划线(_)表示上一个表达式的值,可以用来进行快速计算或测试。例如:>>>2+...

解锁Shell编程:变量_shell $变量

引言:开启Shell编程大门Shell作为用户与Linux内核之间的桥梁,为我们提供了强大的命令行交互方式。它不仅能执行简单的文件操作、进程管理,还能通过编写脚本实现复杂的自动化任务。无论是...

一文学会Python的变量命名规则!_python的变量命名有哪些要求

目录1.变量的命名原则3.内置函数尽量不要做变量4.删除变量和垃圾回收机制5.结语1.变量的命名原则①由英文字母、_(下划线)、或中文开头②变量名称只能由英文字母、数字、下画线或中文字所组成。③英文字...

更可靠的Rust-语法篇-区分语句/表达式,略览if/loop/while/for

src/main.rs://函数定义fnadd(a:i32,b:i32)->i32{a+b//末尾表达式}fnmain(){leta:i3...

C++第五课:变量的命名规则_c++中变量的命名规则

变量的命名不是想怎么起就怎么起的,而是有一套固定的规则的。具体规则:1.名字要合法:变量名必须是由字母、数字或下划线组成。例如:a,a1,a_1。2.开头不能是数字。例如:可以a1,但不能起1a。3....

Rust编程-核心篇-不安全编程_rust安全性

Unsafe的必要性Rust的所有权系统和类型系统为我们提供了强大的安全保障,但在某些情况下,我们需要突破这些限制来:与C代码交互实现底层系统编程优化性能关键代码实现某些编译器无法验证的安全操作Rus...

探秘 Python 内存管理:背后的神奇机制

在编程的世界里,内存管理就如同幕后的精密操控者,确保程序的高效运行。Python作为一种广泛使用的编程语言,其内存管理机制既巧妙又复杂,为开发者们提供了便利的同时,也展现了强大的底层控制能力。一、P...