百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

如何使用Pandas read_html从HTML表格中获取数据

zhezhongyun 2024-12-04 17:01 32 浏览

在本Pandas教程中,我们将详细介绍如何使用Pandas read_html方法从HTML中获取数据。首先,在最简单的示例中,我们将使用Pandas从一个字符串读取HTML。其次,我们将通过几个示例来使用Pandas read_html从Wikipedia表格中获取数据。在之前的一篇文章(关于Python中的探索性数据分析)中,我们也使用了Pandas从HTML表格中读取数据。

在Python中导入数据

在开始学习Python和Pandas时,为了进行数据分析和可视化,我们通常从实践导入数据开始。在之前的文章中,我们已经了解到我们可以直接在Python中输入值(例如,从Python字典创建Pandas dataframe)。然而,通过从可用的源导入数据来获取数据当然更为常见。这通常是通过从CSV文件或Excel文件中读取数据来完成的。例如,要从一个.csv文件导入数据,我们可以使用Pandas read_csv方法。这里有一个如何使用该方法的快速的例子,但一定要查看有关该主题的博客文章以获得更多信息。

现在,上面的方法只有在我们已经有了合适格式的数据(如csv或JSON)时才有用(请参阅关于如何使用Python和Pandas解析JSON文件的文章)。

我们大多数人会使用Wikipedia来了解我们感兴趣的主题信息。此外,这些Wikipedia文章通常包含HTML表格。

要使用pandas在Python中获得这些表格,我们可以将其剪切并粘贴到一个电子表单中,然后,例如使用read_excel将它们读入Python。现在,这个任务当然可以用更少的步骤来完成:我们可以通过web抓取来对它进行自动化。一定要查看一下什么是web抓取。

先决条件

当然,这个Pandas读取HTML教程将要求我们安装Pandas及其依赖项。例如,我们可以使用pip来安装Python包,比如Pandas,或者安装一个Python发行版(例如,Anaconda、ActivePython)。下面是如何使用pip安装Pandas: pip install pandas。

注意,如果出现消息说有一个更新版本的pip可用,请查看这篇有关如何升级pip的文章。注意,我们还需要安装lxml或BeautifulSoup4,当然,这些包也可以使用pip来安装: pip install lxml。

Pandas read_html 语法

下面是如何使用Pandas read_html从HTML表格中抓取数据的最简单的语法:

现在我们已经知道了使用Pandas读取HTML表格的简单语法,接下来我们可以查看一些read_html示例。

Pandas read_html 示例1:

第一个示例是关于如何使用Pandas read_html方法的,我们将从一个字符串读取HTML表格。

现在,我们得到的结果不是一个Pandas DataFrame,而是一个Python列表。也就是说,如果我们使用type函数,我们可以看到:

如果我们想得到该表格,我们可以使用列表的第一个索引(0)

Pandas read_html 示例 2:

在第二个Pandas read_html示例中,我们将从Wikipedia抓取数据。实际上,我们将得到蟒科蛇(也称为蟒蛇)的HTML表格。

现在,我们得到了一个包含7个表(len(df))的列表。如果我们去Wikipedia页面,我们可以看到第一个表是右边的那个。然而,在本例中,我们可能对第二个表更感兴趣。

Pandas read_html 示例 3:

在第三个示例中,我们将从瑞典的covid-19病例中读取HTML表。这里,我们将使用read_html方法的一些附加参数。具体来说,我们将使用match参数。在此之后,我们还需要清洗数据,最后,我们将进行一些简单的数据可视化操作。

使用Pandas read_html和匹配参数抓取数据:

如上图所示,该表格的标题为:“瑞典各郡新增COVID-19病例”。现在,我们可以使用match参数并将其作为一个字符串输入:

通过这种方式,我们只得到这个表,但它仍然是一个dataframes列表。现在,如上图所示,在底部,我们有三个需要删除的行。因此,我们要删除最后三行。

使用Pandas iloc删除最后的行

现在,我们将使用Pandas iloc删除最后3行。注意,我们使用-3作为第二个参数(请确保你查看了这个Panda iloc教程,以获得更多信息)。最后,我们还创建了这个dataframe的一个副本。

在下一节中,我们将学习如何将多索引列名更改为单个索引。

将多索引更改为单个索引并删除不需要的字符

现在,我们要去掉多索引列。也就是说,我们将把2列索引(名称)变成唯一的列名。这里,我们将使用DataFrame.columns 和 DataFrame.columns,get_level_values:

最后,正如你在“date”列中所看到的,我们使用Pandas read_html从WikiPedia表格抓取了一些注释。接下来,我们将使用str.replace方法和一个正则表达式来删除它们:

使用Pandas set_index更改索引

现在,我们继续使用Pandas set_index将日期列变成索引。这样一来,我们稍后就可以很容易地创建一个时间序列图。

现在,为了能够绘制这个时间序列图,我们需要用0填充缺失的值,并将这些列的数据类型更改为numeric。这里我们也使用了apply方法。最后,我们使用cumsum方法来获得列中每个新值累加后的值:

来自HTML表格的时间序列图

在最后一个示例中,我们使用Pandas read_html获取我们抓取的数据,并创建了一个时间序列图。现在,我们还导入了matplotlib,这样我们就可以改变Pandas图例的标题的位置:

结论: 如何将HTML读取到一个 Pandas DataFrame

在这个Pandas教程中,我们学习了如何使用Pandas read_html方法从HTML中抓取数据。此外,我们使用来自一篇Wikipedia文章的数据来创建了一个时间序列图。最后,我们也可以通过参数index_col来使用Pandas read_html将' Date '列设置为索引列。

英文原文:https://www.marsja.se/how-to-use-pandas-read_html-to-scrape-data-from-html-tables
译者:一瞬

相关推荐

写作排版简单三步就行-工具篇(作文排版编辑软件)

和我们工作中日常word排版内部交流不同,这篇教程介绍的写作排版主要是用于“微信公众号、头条号”网络展示。写作展现的是我的思考,排版是让写作在网格上更好地展现。在写作上花费时间是有累积复利优势的,在排...

CSS继承的元素属性小总结(css 继承性)

所有元素可继承:visibility和cursor内联元素和块级元素可继承:letter-spacingword-spacingwhite-spaceline-heightcolorfontfont-...

Cube 技术解读 | Cube 小程序技术详解

作者:曾维宏(恒实)“本文为《Cube技术解读》系列第三篇文章,之前上线的《支付宝新一代动态化技术架构与选型综述》《Cube卡片技术栈解读》欢迎大家回顾。”小程序作为动态化或者跨端开发的一种技术栈...

“战斗民族”这样为新生儿检查?(战斗民族)

<fontface="近日,一条被称为“俄罗斯新生儿检查”的视频在微博疯传,视频中检查者粗鲁的动作让网友们纷纷感染“怪不得是战斗民族”。视频真实性有待考证,但宝宝出生后确实需要马不停蹄地做一系...

实测,大模型谁更懂数据可视化?(实测,大模型谁更懂数据可视化技术)

大家好,我是Ai学习的老章看论文时,经常看到漂亮的图表,很多不知道是用什么工具绘制的,或者很想复刻类似图表。实测,大模型LaTeX公式识别,出乎预料前文,我用Kimi、Qwen-3-235B...

「Python爬虫」:破解网站字体加密和反反爬虫

前言:字体反爬,也是一种常见的反爬技术,例如58同城,猫眼电影票房,汽车之家,天眼查,实习僧等网站。这些网站采用了自定义的字体文件,在浏览器上正常显示,但是爬虫抓取下来的数据要么就是乱码,要么就是变成...

转录组及可视化分析——样本间相关性绘图

背景介绍在进行正式的转录组分析之前,一般可以先对样本的相关性进行绘图,用于观察各个组之间或组内样本的相关性。数据介绍数据的话我们采用的是送样测序公司反馈给我们的gene_count文件,格式如下:...

阿里巴巴矢量图标库 iconfont 的使用方法

xx-blog主题使用的图标库是阿里巴巴的iconfont,因此这里介绍一下此主题库的用法。首先去iconfont主题库,注册一个账号,然后就可以找自己喜欢的图标了,找到后点击添加购物车,就回到了右侧...

五行取名(五行取名的正确方法)

1、五行的分类原则以方位来论:东方属木;南方属火;西方属金;北方属水;中央属土。以季节来论:春季属木;夏季属火;秋季属金;冬季属水;季末属土。以气候来论:风属木;暑属火;燥属金;寒属水;湿属土。以颜色...

4K显示器软件界面字体过小解决方法

用4K显示器(win10或者win11下)的朋友会发现一些软件并不能随着系统的字体放大而放大字体,用起来很不方便。譬如常用的ps或者行业专用软件。笔者经过摸索,发现这样设置一下可以解决。下面以Psc...

VBA之Word应用:利用Range方法进行字体及对齐方式设置

《VBA之Word应用》(版权10178982),是我推出第八套教程,教程是专门讲解VBA在Word中的应用,围绕“面向对象编程”讲解,首先让大家认识Word中VBA的对象,以及对象的属性、方法,然后...

办公小技巧:告别侵权 PPT字体自己造

很多朋友还不知道,我们每天面对的字体都是有版权保护的,如果对这方面的内容不了解,一不小心就可能造成侵权。那么我们在日常设计PPT文稿的时候,如何避免字体侵权呢?首先我们得懂得如何查看版权信息,另外还需...

显示器颜色显示有偏差?你校准过吗?

编辑:晴晨购物、拍照、做视频、玩游戏……看似不一样的操作都怕一件事:颜色有偏差。购物时商品颜色有出入,毫不知情的情况下把责任推给了商家,那么拍照、做视频、玩游戏呢?我们先来看看某网友的诉苦:“我的是台...

设计字体那些事(设计字体种类大全图)

做设计几年,平均每年都能遇见好多因为字体侵权的事情,今天就结合我自己的经验和了解简单介绍下字体那些事#毒角SHOW角角用了这款字体,竟被送律师函赔偿10万https://www.douyin.com...

LCD智能显示模块-绘图板(lcd显示模块流程图)

TOPWAY智能模块(SmartLCD)是专门为工业显示应用而设计的TFT液晶显示模块。我司自主研发的界面编辑软件RGTools/SGTools提供了18个控件,通过些控件能实现丰富的显...