百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

jsoup Selector类学习笔记,快速提升你的HTML处理能力!

zhezhongyun 2025-05-21 17:55 4 浏览

Selector 类是 jsoup 库中的一个核心类,用于通过 CSS 选择器语法来查找 HTML 文档中的元素。

选择器语法

通用选择器 * :匹配任何元素。

标签选择器 tag :匹配指定标签名的元素。

ID 选择器 #id :匹配具有指定 ID 的元素。

类选择器 .class :匹配具有指定类名的元素。

属性选择器 [attr] :匹配具有指定属性的元素。

属性值选择器 [attr=val] :匹配具有指定属性值的元素。

属性值前缀选择器 [attr^=valPrefix] :匹配属性值以指定前缀开头的元素。

属性值后缀选择器 [attr$=valSuffix] :匹配属性值以指定后缀结尾的元素。

属性值包含选择器 [attr*=valContaining] :匹配属性值包含指定文本的元素。

属性值正则选择器 [attr~=regex] :匹配属性值符合正则表达式的元素。

子元素选择器 E F :匹配作为 E 元素后代的 F 元素。

子元素选择器 E > F :匹配作为 E 元素直接子元素的 F 元素。

相邻兄弟选择器 E + F :匹配紧接在 E 元素后的 F 元素。

兄弟选择器 E ~ F :匹配在 E 元素之后的所有 F 元素。

分组选择器 E, F, G :匹配 E、F 或 G 元素。

伪类选择器

:lt(n) :匹配兄弟元素中索引小于 n 的元素。

:gt(n) :匹配兄弟元素中索引大于 n 的元素。

:eq(n) :匹配兄弟元素中索引等于 n 的元素。

:has(selector) :匹配包含指定选择器匹配的元素的元素。

:is(selector list) :匹配选择器列表中任意一个选择器的元素。

:not(selector) :匹配不匹配指定选择器的元素。

:contains(text) :匹配包含指定文本的元素。

:containsOwn(text) :匹配直接包含指定文本的元素。

:containsData(data) :匹配包含指定数据的元素。

:containsWholeText(text) :匹配包含指定完整文本的元素。

:containsWholeOwnText(text) :匹配直接包含指定完整文本的元素。

:matches(regex) :匹配包含符合正则表达式的文本的元素。

:matchesWholeText(regex) :匹配包含符合正则表达式的完整文本的元素。

:matchesWholeOwnText(regex) :匹配直接包含符合正则表达式的完整文本的元素。

结构伪类选择器

:root :匹配文档的根元素。

:nth-child(an+b) :匹配父元素之前有 an+b-1 个兄弟元素的元素。

:nth-last-child(an+b) :匹配父元素之后有 an+b-1 个兄弟元素的元素。

:nth-of-type(an+b) :匹配父元素之前有 an+b-1 个同类型兄弟元素的元素。

:nth-last-of-type(an+b) :匹配父元素之后有 an+b-1 个同类型兄弟元素的元素。

:first-child :匹配父元素的第一个子元素。

:last-child :匹配父元素的最后一个子元素。

:first-of-type :匹配父元素的第一个同类型子元素。

:last-of-type :匹配父元素的最后一个同类型子元素。

:only-child :匹配没有其他兄弟元素的元素。

:only-of-type :匹配没有其他同类型兄弟元素的元素。

:empty :匹配不包含任何子元素的元素。

方法

select(String query) :根据 CSS 选择器查找匹配的元素。

selectFirst(String cssQuery, Element root) :根据 CSS 选择器查找第一个匹配的元素。

注意事项

使用正则表达式时,可能需要使用 Pattern.quote("regex") 来正确解析。

特殊字符需要使用 \ 进行转义。

相关推荐

办公小技巧:杜绝意外 让字体永不丢失

当精心编辑的文档,在其它电脑上打开时,最常见的问题就是页数增加了,表格被撑破了,有些严重的甚至会出现乱码……为什么会这样呢?究其根源都是因为缺少相应的字体。本文介绍各类文档中(包括Word文档、PPT...

网站速度优化:从10秒到2秒的极致性能提升方案

核心内容:性能诊断工具:PageSpeedInsights与Lighthouse的评分差异解读。WebPageTest多地区、多设备性能对比。前端优化:CSS/JS压缩与合并的自动化方案(如Webp...

如何在WordPress中删除谷歌字体(2种简单方法)

许多WordPress主题都会用Google字体,然而,Google字体并不存储在网站本地,它是一个第三方资源,这会影响网站的加载速度,让网站变慢,尤其当你的网站面向的是国内用户时,更需要禁用Goog...

2019年免费可商用字体大全(附打包下载)

私信“字体”可免费获得。附送一个几十G的,有商业授权要求的字体包!不说那么复杂了,简单讲,可能你下载的大多数字体都是收费的。比如方正、文鼎、汉仪等的90%以上需要商业授权,甚至个人授权。这儿的授权,指...

开源免费、美观实用的后台管理系统模版,简单轻量、开箱即用!

项目介绍ArtDesignPro是一款开源免费(基于MITlicense开源协议)、美观实用的后台管理系统模版,专注于用户体验和快速开发的开源后台管理解决方案。基于ElementPlus设计...

【推荐】一款开源免费、美观实用的后台管理系统模版

如果您对源码&技术感兴趣,请点赞+收藏+转发+关注,大家的支持是我分享最大的动力!!!项目介绍ArtDesignPro是一款开源免费(基于MITlicense开源协议)、美观实用的后台管理系统模...

想要字体图标设计师却给了SVG?没关系,自己转

本文为Varlet组件库源码主题阅读系列第三篇,读完本篇,你可以了解到如何将svg图标转换成字体图标文件,以及如何设计一个简洁的Vue图标组件。Varlet提供了一些常用的图标,图标都来自Mater...

零基础教你学前端——66、CSS谷歌字体和Icon图标

我们学习CSS谷歌字体和CSSIcon图标。我们在应用font-family属性声明样式字体时,除了使用HTML中的标准字体外,还可以使用谷歌字体。谷歌字体是免费使用的,并且有1000多种字体...

必须掌握的前端开发基础知识,什么是字体图标?

必须掌握的前端开发基础知识,什么是字体图标?显示隐藏元素display显示隐藏none隐藏block显示隐藏后不再占有原来的位置visibility隐藏元素后,继续占有原来的位置visible元...

让你的网站速度提升10倍!(四):压缩~~~

在前面的内容中讲了如何降低页面大小(给页面瘦身),重点讲的是如何优化图片,而没有讲文本内容如何优化,这是因为与其辛苦的优化文本还不如使用我们的秘密武器:Gzip压缩!如果你还不清楚Gzip是什么,看这...

MFC转QT - Qt界面开发 - 常用控件

基础控件(QPushButton,QLabel,QLineEdit等)按钮控件族Qt提供了丰富的按钮控件,比MFC的按钮控件更加细分和功能丰富。QPushButton(标准按钮)//创建按钮...

使用CSS实现苹果官网文字渐入效果

效果分析文字是从左到有慢慢呈现出来,不是整体消失和出现,那么肯定不能使用透明度。我们可以想到渐变文字,然后通过改变背景的位置来控制文字的显示与隐藏。渐变文字渐变文字该如何实现呢?这是实现这个效果的关键...

HarmonyOS NEXT - ArkUI: Text组件

Text组件用于在界面上展示一段文本信息,可以包含子组件Span。文本样式包含文本元素的组件,例如Text、Span、Button、TextInput等,都可以使用文本样式。文本样式的属性如下表:.f...

计算机网络的 166 个核心概念,你知道吗?

上回我整理了一下计算机网络中所有的关键概念,很多小伙伴觉得很有帮助,但是有一个需要优化的点就是这些概念不知道出自哪里,所以理解起来像是在云里穿梭,一会儿在聊应用层的概念,一会儿又跑到网络层协议了。针对...

软网推荐:请个多功能纯文本管理助手

纯文本不单是指常用的语言文字,还包括各种类型的程序代码、编码等。作为常用的纯文本处理工具,“记事本”显得力不从心。我们可用一款免费软件AlternateTextbrowser,随心所欲地管理各种类型...