百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

[seaborn] seaborn学习笔记1-箱形图Boxplot

zhezhongyun 2025-05-24 18:17 2 浏览

1 箱形图Boxplot

(代码下载) Boxplot可能是最常见的图形类型之一。它能够很好表示数据中的分布规律。箱型图方框的末尾显示了上下四分位数。极线显示最高和最低值,不包括异常值。seaborn中用boxplot函数制作箱形图。该章节主要内容有:

  1. 基础箱形图绘制 Basic boxplot and input format
  2. 自定义外观 Custom boxplot appearance
  3. 箱型图的颜色设置 Control colors of boxplot
  4. 分组箱图 Grouped Boxplot
  5. 箱图的顺序设置 Control order of boxplot
  6. 添加散点分布 Add jitter over boxplot
  7. 显示各类的样本数 Show number of observation on boxplot
  8. 箱形图隐藏的数据处理 Hidden data under boxplot
#调用seaborn
import seaborn as sns
#调用seaborn自带数据集
df = sns.load_dataset('iris')
#显示数据集
df.head()


sepal_length

sepal_width

petal_length

petal_width

species

0

5.1

3.5

1.4

0.2

setosa

1

4.9

3.0

1.4

0.2

setosa

2

4.7

3.2

1.3

0.2

setosa

3

4.6

3.1

1.5

0.2

setosa

4

5.0

3.6

1.4

0.2

setosa

1. 基础箱形图绘制 Basic boxplot and input format

  • 一个数值变量 One numerical variable only
  • 一个数值变量和多个分组 One numerical variable, and several groups
  • 多个数值变量 Several numerical variable
  • 水平箱型图 Horizontal boxplot with seaborn
# 一个数值变量 One numerical variable only
# 如果您只有一个数字变量,则可以使用此代码获得仅包含一个组的箱线图。
# Make boxplot for one group only
# 显示花萼长度sepal_length
sns.boxplot( y=df["sepal_length"] );
# 一个数值变量和多个分组 One numerical variable, and several groups
# 假设我们想要研究数值变量的分布,但是对于每个组分别进行研究。在这里,我们研究了3种花的萼片长度。
# x花的品种,y花萼长度
sns.boxplot( x=df["species"], y=df["sepal_length"] );
# 多个数值变量 Several numerical variable
# 可以研究几个数值变量的分布,比如说萼片的长度和宽度:
sns.boxplot(data=df.iloc[:,0:2]);
# 水平箱型图 Horizontal boxplot with seaborn
# 用seaborn将你的箱图水平转动是非常简单的。您可以切换x和y属性,或使用选项orient ="h"
sns.boxplot( y=df["species"], x=df["sepal_length"] );

2. 自定义外观 Custom boxplot appearance

  • 自定义线宽 Custom line width
  • 添加缺口 Add notch
  • 控制箱的尺寸 Control box sizes
# 自定义线宽 Custom line width
# Change line width
# 根据linewidth改变线条宽度
sns.boxplot( x=df["species"], y=df["sepal_length"], linewidth=5);
# 添加缺口 Add notch
# notch设置为true即可
sns.boxplot( x=df["species"], y=df["sepal_length"], notch=True);
# 控制箱的尺寸 Control box sizes
# Change width
sns.boxplot( x=df["species"], y=df["sepal_length"], width=0.3);

3. 箱型图的颜色设置 Control colors of boxplot

  • 调色板的使用 Use a color palette
  • 单种颜色的使用 Uniform color
  • 每组的特定颜色 Specific color for each group
  • 单组高亮 Highlight a group
  • 添加透明色 Add transparency to color
# 调色板的使用 Use a color palette 
# Python提出了几种调色板。您可以像Set1,Set2,Set3,Paired,BuPu一样调用RColorBrewer调色板,还有Blues或BuGn_r等调色板。
# 调色板各种颜色见 http://www.r-graph-gallery.com/38-rcolorbrewers-palettes/
# t通过plaette调用调色板,Use a color palette
sns.boxplot( x=df["species"], y=df["sepal_length"], palette="Blues");
# 单种颜色的使用 Uniform color
# 当然您可以轻松地为每个盒子应用同样的颜色。最常见的是b: blue
# 颜色列表 https://matplotlib.org/examples/color/named_colors.html
sns.boxplot( x=df["species"], y=df["sepal_length"], color="skyblue");
# 每组的特定颜色 Specific color for each group
# 用不用颜色描绘不同种类的花
my_pal = {"versicolor": "g", "setosa": "b", "virginica":"m"}
sns.boxplot( x=df["species"], y=df["sepal_length"], palette=my_pal);
# 单组高亮 Highlight a group
# 设定某一组为红色,其他组为蓝色
my_pal = {species: "r" if species == "versicolor" else "b" for species in df.species.unique()}
sns.boxplot( x=df["species"], y=df["sepal_length"], palette=my_pal);
# 添加透明色 Add transparency to color
# usual boxplot 正常绘图
ax = sns.boxplot(x='species', y='sepal_length', data=df);
# Add transparency to colors 设置透明色
for patch in ax.artists:
    r, g, b, a = patch.get_facecolor()
    patch.set_facecolor((r, g, b, .3))

4. 分组箱图 Grouped Boxplot

# 当您有一个数值变量,几个组和子组时,将使用分组箱图。使用seaborn很容易实现。Y是您的数字变量,x是组列,而hue是子组列。
# 调用tips数据集
df_tips = sns.load_dataset('tips')
df_tips.head()


total_bill

tip

sex

smoker

day

time

size

0

16.99

1.01

Female

No

Sun

Dinner

2

1

10.34

1.66

Male

No

Sun

Dinner

3

2

21.01

3.50

Male

No

Sun

Dinner

3

3

23.68

3.31

Male

No

Sun

Dinner

2

4

24.59

3.61

Female

No

Sun

Dinner

4

# Grouped boxplot 分组箱图
# x日期,y餐费,hue自组列,palette调色盘
sns.boxplot(x="day", y="total_bill", hue="smoker", data=df_tips, palette="Set1");

5. 箱图的顺序设置 Control order of boxplot

#如果您按特定顺序设定组,则箱图通常会提供更多信息。这对seaborn来说是可行的。 
# specific order 通过order自定义组
p1=sns.boxplot(x='species', y='sepal_length', data=df, order=["virginica", "versicolor", "setosa"]);
# 中位数由大到小排列
# Find the order 设定中位数
my_order = df.groupby(by=["species"])["sepal_length"].median().iloc[::-1].index
# Give it to the boxplot
sns.boxplot(x='species', y='sepal_length', data=df, order=my_order);

6. 添加散点分布 Add jitter over boxplot

# 可以在箱线图上添加每种类别的散点分布情况
# Usual boxplot 正常绘图
ax = sns.boxplot(x='species', y='sepal_length', data=df)
# Add jitter with the swarmplot function 添加散点分布
ax = sns.swarmplot(x='species', y='sepal_length', data=df, color="grey")

7. 显示各类的样本数 Show number of observation on boxplot

# 显示每个组的观察次数可能很有用

# 基础的箱形图
ax = sns.boxplot(x="species", y="sepal_length", data=df)
 
# Calculate number of obs per group & median to position labels 
# 计算各个种类的中位数
medians = df.groupby(['species'])['sepal_length'].median().values
# 统计各个种类的样本数
nobs = df['species'].value_counts().values
nobs = [str(x) for x in nobs.tolist()]
nobs = ["n: " + i for i in nobs]
 
# Add it to the plot 
pos = range(len(nobs))
for tick,label in zip(pos,ax.get_xticklabels()):
    ax.text(pos[tick], medians[tick] + 0.03, nobs[tick], horiznotallow='center', size='x-small', color='w', weight='semibold')

8. 箱形图隐藏的数据处理 Hidden data under boxplot

  • 添加分布散点图 boxplot with jitter
  • 使用小提琴图 use violinplot

箱形图总结了几个组的数值变量的分布。但是箱形图的问题不仅是丢失信息,这可能会结果有偏差。如果我们考虑下面的箱形图,很容易得出结论,'C’组的价值高于其他组。但是,我们无法看到每个组中点的基本分布是什么,也没有观察每个组的观察次数。所以我们需要对隐藏的数据进行处理

# libraries and data
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# Dataset:
a = pd.DataFrame({ 'group' : np.repeat('A',500), 'value': np.random.normal(10, 5, 500) })
b = pd.DataFrame({ 'group' : np.repeat('B',500), 'value': np.random.normal(13, 1.2, 500) })
c = pd.DataFrame({ 'group' : np.repeat('B',500), 'value': np.random.normal(18, 1.2, 500) })
d = pd.DataFrame({ 'group' : np.repeat('C',20), 'value': np.random.normal(25, 4, 20) })
e = pd.DataFrame({ 'group' : np.repeat('D',100), 'value': np.random.uniform(12, size=100) })
df=a.append(b).append(c).append(d).append(e)
 
# Usual boxplot
sns.boxplot(x='group', y='value', data=df);
# 添加分布散点图 boxplot with jitter
ax = sns.boxplot(x='group', y='value', data=df)
# 通过stripplot添加分布散点图,jitter设置数据间距
ax = sns.stripplot(x='group', y='value', data=df, color="orange", jitter=0.2, size=2.5)
plt.title("Boxplot with jitter", loc="left")
Text(0.0, 1.0, 'Boxplot with jitter')
# 使用小提琴图 use violinplot
sns.violinplot( x='group', y='value', data=df)
plt.title("Violin plot", loc="left")
Text(0.0, 1.0, 'Violin plot')

相关推荐

历时10个多月,学习了这132 个CSS 特效,还不来学习

这132个特效,是我历时10个多月在油管一个一个跟着敲出来的,为了加强记忆,每个练习,我都录制了视频,在这里分享出来给大家。大家可能又会调侃了,你是工作不饱和吧,有时间做这些。其实,我目前工作还是挺饱...

让CSS flex布局最后一行左对齐的N种方法

作者:张鑫旭https://www.zhangxinxu.com/wordpress/2019/08/css-flex-last-align/前言小伙伴们是否还记得,之前小编也发布了几篇关于CSS相关...

CSS 奇思妙想 background-clip

作者:SbCoco来源:iCSS前端趣闻说起background-clip,可能很多人都很陌生。Clip的意思为修剪,那么从字面意思上理解,background-clip的意思即是背景裁剪。我...

CSS简单圆角框实现方法

先看下效果图对基于CSS的设计最初的批评意见之一是CSS太死板了,只能建立方框,因此本次我们需要用图形软件创建下面两个图形,一个用于顶部,一个用于底部。接下来我们详细介绍它的实现方法:1.创建一个简单...

文档声明:HTML文档的基石

在前端开发的世界里,文档声明虽是一个看似不起眼的细节,却在网页的解析和渲染过程中扮演着至关重要的角色。今天,就让我们深入探讨文档声明的奥秘,揭开它背后的原理和重要性。一、文档声明的定义与作用文档声明,...

CSS 单位指南

在前端开发中,CSS单位的选择直接影响着页面的布局效果和响应式表现。本文将系统介绍CSS中各种单位的特性、使用场景和最佳实践,帮助你做出更明智的选择。一、CSS单位分类全景图CSS单位可分为...

CSS3 遮罩

在网页设计中,我们经常需要实现一些特殊的视觉效果来增强用户体验。CSS3遮罩(mask)允许我们通过控制元素的可见区域来创建各种精美的视觉效果。本文将带你全面了解CSS3遮罩的功能和应用。什么是...

用css如何实现三角形

在实际编程中我们经常会遇到下拉菜单的下三角和一些特殊的图形,那么这些如何用css来实现呢?例1例2例3原理:仔细想想,原理非常简单,利用CSS的border以及它的属性值transparent来实现三...

css 实现各种多边形图案

使用css的border边框属性和宽度高度可以实现各种形状的图形,如下:梯形html:<divclass="trapezoid"></div>css:/*梯形...

用css制作头像渐变边框

之前有一个头像渐变边框的需求,当时是全部用的切图,但是不同的地方可能头像大小不一样,切图适配性太差,正好这几日学了下css渐变的各种妙用,想到之前的头像边框其实可以用渐变来实现。当时用到的头像切图:目...

如何帮图片加边框?方法有三种

如何帮图片加边框?随着社会经济的发展,更多人开始注意外在物品的美观度,例如图片有无边框等装饰。而在设计和排版中,给图片加边框是一种常见的技巧,可以使图片更突出、更有吸引力。有许多方法可以完成这个任务,...

边框图片怎么做?提供三种方法

边框图片怎么做?边框图片可以为图片增加一定的装饰和美感,使其更加突出和引人注目。同时,边框图片也可以用于设计海报、宣传品等,让设计更加精美和专业。边框图片是一种常见的设计元素,可以为图片增加一定的装饰...

css设置div只显示某一边的边框

在网页设计中经常用到css来设计各种边框样式以及颜色等,有时候需要一个div只显示一个边框,那么你可能会用到下面的一些方法。一、CSSborder-width属性border-width是实现显示...

适合在任何地方使用的 Linux:15 个小型 Linux 发行版

如果你有一台老旧的PC或超小型设备,这些Linux发行版中的一个应该适合你。来源:https://linux.cn/article-12281-1.html作者:DavidGewirtz译者...

css box-shadow的巧妙应用

还有人不会写阴影吗下面就带大家来分享一些实实在在的干货。box-shadow的作用box-shadow的作用是给元素添加阴影,说简单点就是要给元素阴影特效就用box-shadow就行。box-shad...