百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

机器学习第五发:BS教你如何解析网页,规整数据?

zhezhongyun 2025-05-03 17:45 10 浏览

现在越来越多的应用和互联网产品做内容的聚合,像今日头条、等等,太多的聚合应用以及不胜枚举,甚至浏览器也可以嵌入聚合的应用。

互联网上拥有太多太多的数据,抓取网页的数据做数据挖掘也是最廉价的获取数据的途径,解析数据是得到规则数据的方法,他为后面数据挖掘、机器学习模型的学习提供支持。

在获取互联网数据的过程中,不可避免的就要使用到网页爬虫技术,此外在抓取下来的网页,需要进一步的解析出自己想要的内容。正则表达式是最常用的解析工具,针对网页目前有个非常便捷的框架,叫做BeautifulSoup。本文使用的是BeautifulSoup 3,现在已经有BeautifulSoup4了,名字改为bs4

(1)下载与安装

# BeautifulSoup 的下载与安装

pip install BeautifulSoup

另外也可以下载安装包进行安装

(2)快速开始

# BeautifulSoup 快速开始

html_doc = urllib2.urlopen('http://baike.baidu.com/view/1059363.htm')

soup = BeautifulSoup(html_doc)

print soup.title

结果:

# BeautifulSoup 结果

<title>前门大街_百度百科</title>

(3)BeautifulSoup对象介绍

BeautifulSoup中主要包含三种类型的对象:

BeautifulSoup.BeautifulSoup

BeautifulSoup.Tag

BeautifulSoup.NavigableString

通过下面例子来认识上面的三种数据类型:

# BeautifulSoup 示例

from BeautifulSoup import BeautifulSoup

import urllib2

html_doc = urllib2.urlopen('http://www.baidu.com')

soup = BeautifulSoup(html_doc)

print type(soup)

print type(soup.title)

print type(soup.title.string)

print soup.title

print soup.title.string

结果为

# BeautifulSoup 示例结果

<class 'BeautifulSoup.BeautifulSoup'>

<class 'BeautifulSoup.Tag'>

<class 'BeautifulSoup.NavigableString'>

<title>百度一下,你就知道</title>

百度一下,你就知道

print soup.title

print soup.title.string

从上面的例子可以比较清晰的看到BeautifulSoup主要包括三种类型的对象。


BeautifulSoup.BeautifulSoup //BeautifulSoup对象

BeautifulSoup.Tag //标签对象


BeautifulSoup.NavigableString //导航string文本对象

(4)BeautifulSoup剖析树

1. BeautifulSoup.Tag对象方法

获取标记对象,通过点号获取Tag对象

# BeautifulSoup 示例

title = soup.title

print type(title.contents)

print title.contents

print title.contents[0]

# BeautifulSoup 示例结果

<type 'list'>

[u'\u767e\u5ea6\u4e00\u4e0b\uff0c\u4f60\u5c31\u77e5\u9053']

百度一下,你就知道

contents方法

获得当前标签的内容list,如果该标签没有子标签,那么string方法和contents[0]得到的内容是一样的。见上面示例

next,parent方法

获得当前的标签的子标签和父标签

# BeautifulSoup 示例

html = soup.html

print html.next

print ''

print html.next.next

print html.next.next.nextSibling

# BeautifulSoup 示例结果

<head><meta http-equiv="content-type" content="text/html;charset=utf-8" /><meta http-equiv="X-UA-Compatible"content="IE=Edge" /><meta content="always" name="referrer" /><meta name="theme-color" content="#2932e1" /><link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" /><link rel="icon" sizes="any" mask="mask" href="
//www.baidu.com/img/baidu.svg" /><link rel="dns-prefetch" href="//s1.bdstatic.com" /><link rel="dns-prefetch" href="//t1.baidu.com" /><link rel="dns-prefetch" href="//t2.baidu.com" /><link rel="dns-prefetch" href="//t3.baidu.com" /><link rel="dns-prefetch" href="//t10.baidu.com" /><link rel="dns-prefetch" href="//t11.baidu.com" /><link rel="dns-prefetch" href="//t12.baidu.com" /><link rel="dns-prefetch" href="//b1.bdstatic.com" /><title>百度一下,你就知道</title>

......

</head>

<meta http-equiv="content-type" content="text/html;charset=utf-8" />

<meta http-equiv="X-UA-Compatible" content="IE=Edge" />

nextSibling,previousSibling

获得当前标签的下一个兄弟标签和前一个兄弟标签

对不同的网页,将你需要的标签中的数据,例如评论、阅读量、购买量、价格、数量等等,通过BS解析获得。解析是数据获取整理过程中不可少的一部分。

进一步的,借助机器学习模型对上述数据进行建模分析,得到一定的结论。

机器学习第四发:机器学习基础

机器学习第三发:入门书籍及网络课程

机器学习第二发:支持向量机

机器学习第一发:逻辑回归

相关推荐

关于CSS伪类&amp;伪元素的一些知识——CSS学习之路

最近两天接触到了CSS伪类和伪元素之间的关系,伪类和伪元素在css代码中使用:做标识符,同来识别元素。我倒是理解,可是为什么时常见到一会用一个冒号,一会用两个,然后就感觉很迷糊了,于是就有了这一篇文章...

CSS中before 和after的用法

CSS有两个说不上常用的伪类:before和:after,偶尔会被人用来添加些自定义格式什么的,但是它们的功用不仅于此。一基本语法在了解进阶的应用之前,先来了解一下语法规则。平常仅仅需要将这...

CSS 样式总翻车?5 个实战技巧让布局效率暴增 200%!

前端工程师们,是不是经常遇到这种崩溃瞬间?精心设计的CSS样式,一到不同浏览器就“变形走样”,或是响应式布局怎么调都达不到预期效果,改来改去不仅浪费时间,还容易产生一堆冗余代码。别慌!今天带来...

微信小程序入门教程之二:页面样式

这个系列的上一篇教程,教大家写了一个最简单的Helloworld微信小程序。但是,那只是一个裸页面,并不好看。今天接着往下讲,如何为这个页面添加样式,使它看上去更美观,教大家写出实际可以使用的页...

网格不迷路:用 CSS 网格生成器打造完美布局

前言你是否曾因写错grid-template-areas而捶键盘?是否在面对千层嵌套的复杂布局时,瞬间怀疑人生,甚至思考要不要转行去卖奶茶?别慌,CSS网格生成器闪亮登场,像拼乐高一样,帮你轻松...

MFC转QT:Qt高级特性 - 样式表

Qt样式表概述Qt样式表(QtStyleSheets)是基于CSS的样式系统,允许开发者以类似于Web前端的方式定制Qt应用程序的外观。这一特性极大地简化了Qt应用的界面定制,提供了比MFC更强大...

什么是CSS?

CSS是一种用来描述网页样式的语言,它可以控制HTML元素的颜色、大小、位置、布局等外观效果。CSS的全称是层叠样式表(CascadingStyleSheets),它的基本语法由选择器和...

从零开始学习网站CSS布局

CSS是前端开发中的重要技术之一,而CSS布局则是CSS技术中最基础的一部分。学习CSS布局是Web开发者的必修课,也是掌握CSS技能的基石。CSS布局指的是如何使用CSS定位和排版HTML元素。CS...

CSS3 渐变类型及其语法

线性渐变:CSS3可以让背景产生渐变效果,渐变属性有两种,即linear-gradient(线性渐变)和radial-gradient(圆形渐变),语法如下background:linear-gra...

五大顶级CSS性能优化工具,值得程序员一试!

为什么Web页面的加载速度如此重要?在这个信息化的时代,如果一个网站的加载时间过长,大部分用户会极其不耐烦地选择“关掉”!这让辛辛苦苦熬夜敲代码的程序员们情何以堪,不管网站功能如何强大,用户根本都没来...

get css中的clamp()函数,好用到起飞

CSS中有大量令人惊叹的属性和特性,但似乎没有人谈论的是clamp函数。这个函数让我们可以对任何CSS属性执行min-width,max-width,和之类的操作。CSSclamp语法cl...

Google Chrome终于支持CSS Variables了

这篇文章要报道的并不是“新闻”,因为W3C早已开始着手CSS变量(又称‘自定义属性’)方面的工作。而作为CSS4非正式标准的一部分,Mozilla早在Firefox版本号还是29的时候就已经支持它了。...

CSS3 过渡与动画

在现代网页设计中,平滑的过渡和生动的动画效果已成为提升用户体验不可或缺的元素。CSS3为我们提供了强大的transition和animation属性,让开发者能够轻松实现各种视觉效果。本文将...

css基础篇11--表格样式

目标表格边框合并表格边框的间距设置表格标题位置的设置表格可以说是网页必备的元素之一,但是原生的表格样式都是很丑,列如表格加入边框的默认情况下,单元格与单元格之间有一定的空隙;设置单元格边框间距等等,都...

WebDriver-工具辅助生成XPath语法和CSS语法

1.FireBug插件1.1生成XPath语法打开Firefox浏览器FireBug插件,单击插件左上角的鼠标箭头,再单击页面上需要定位的元素,在元素行上右击弹出快捷菜单,选择“复制XPath”,将会...