百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

python实践:快速爬取网页表格数据——证监会官网IPO表格

zhezhongyun 2025-02-27 17:22 73 浏览

为爬取网页表格数据,常规方式是通过requests请求以及html5lib解析定位获取元素。得到的是目标网页所有table表格的list集合。

以证监会官网披露的IPO表格为例,沪市IPO公司沪市主板,网址为:
http://eid.csrc.gov.cn/ipo/101010/index.html

按照网页的提示,最多显示50页。通过下图的观测,1-50页的网址变化是有规律的,
http://eid.csrc.gov.cn/ipo/101010/ 这些是不变的,而变化的是index_1.html、index_2.html、
index_3.html......index_50.html。

明白了基本的网页显示规律。下面就开始爬取网页表格数据。

需要说明的是,例子运行在win10+Andconda3+python3.9+Spyder环境下,进行演示的。如果环境不同,可能存在些许差异,粉丝可以在评论区讨论。

一、试探性测试

import requests
from bs4 import BeautifulSoup

#  获取网页内容
# 发送请求,获取响应
url = 'http://eid.csrc.gov.cn/ipo/101010/index_1.html'
response = requests.get(url)
# 从响应中获取数据
page = response.content.decode()
print(page)

检查网页返回的page结果如下图:

红色框所示,返回的信息没有返回正确的数据,出现了“很抱歉,由于您访问的URL有可能对网站造成安全威胁,您的访问被阻断。”意思是,服务器对这种请求进行屏蔽,也就是进行了反爬虫处理。至于反爬虫如何破解,对于不同的网站有不同的方法。有兴趣的粉丝可以评论去讨论。

二、正确下载第一个网页

我们直接给requests.get一个自定义的header,伪装为Mozilla Firefox5.0浏览器进行访问然后用下面的代码测试。

import requests
from bs4 import BeautifulSoup

header={'User-Agent':'Mozilla/5.0'}
url = "http://eid.csrc.gov.cn/ipo/101010/index_1.html"
response=requests.get(url,headers=header)  
page = response.content.decode()
print(page)

检查网页返回的page结果如下图:

发现能正确下载网页内容了。至于到底采用何种方式下载,需要不断地测试。找到服务器认可的方式。至此,我们开始成功进程。

三、分析第一个网页的内容

分析第一个网页的内容,我们是要获取公司名称、披露类型、上市板块、保荐机构、披露时间、公告等六个字段内容。通过分析网页的内容,我们需要的内容就是一个标准的标签

的内容。它与和、和配合形成表格。

为此,我们编写了get_web_content函数,分析网页内容,url:网址,header:请求的头,data:分析处理的数据。如果看不懂,可以参照我以前写的头条文章Python爬虫编程:数据解析模块之bs4,超详细,它里面讲述得非常详细。

def get_web_content(url,header,data):
    response=requests.get(url_str,headers=header)       
    # 从响应中获取数据
    page = response.content.decode()
    # 构建bs对象
    soup = BeautifulSoup(page, 'html5lib') 
    # 查找标签
    table = soup.find('table')
    content = table.find_all('tr')
    for i in range(len(content)):
        td_text = content[i].find_all('td')
        td_data=[]
        for j in range(len(td_text)):
            td_data.append(td_text[j].text.strip()) #去掉头尾多余的空格和回车换行
        if len(td_data) > 0:  #去掉空的标题头
            data.append(td_data) 
data = []
get_web_content(url,header,data)
print(data)

运行到这,结果出来了。运行结果如下图所示,但是发现红色箭头的地方,显示不完全。

四、精准分析第一个网页的内容

我们发现,公告的内容有些显示不完全,通过分析网页代码,网页代码片段如下:

发现title的内容是完整的。我们直接去title的值就行了。我们改进函数get_web_content的逻辑及内容。

def get_web_content(url,header,data):
    response=requests.get(url_str,headers=header)       
    # 从响应中获取数据
    page = response.content.decode()
    # 构建bs对象
    soup = BeautifulSoup(page, 'html5lib') 
    # 查找标签
    table = soup.find('table')
    content = table.find_all('tr')
    for i in range(len(content)):
        td_text = content[i].find_all('td')
        td_data=[]
        for j in range(len(td_text)):
            if j==5:
                td_data.append(td_text[j]['title']) #最后一个字段,提取title的内容
            else:
                td_data.append(td_text[j].text.strip())
        if len(td_data) > 0:
            data.append(td_data)
data = []
get_web_content(url,header,data)
print(data)

至此,运行的结果是正确的了。

五、获取全部50个网页的内容

我们利用for循环,巧妙读利用格式化字符串,获取不同网站,进行请求网站服务器。如果对格式化字符串不太了解,可以参照我头条以前的文章,python编程实践:格式化字符串输出的四种方式详解

import pandas as pd
import requests
from bs4 import BeautifulSoup
header={'User-Agent':'Mozilla/5.0'}
url = "http://eid.csrc.gov.cn/ipo/101010/index_{0:d}.html"

data=[]

def get_web_content1(url,header,data):
    response=requests.get(url_str,headers=header)       
    # 从响应中获取数据
    page = response.content.decode()
    # 构建bs对象
    soup = BeautifulSoup(page, 'html5lib') 
    # 查找标签
    table = soup.find('table')
    content = table.find_all('tr')
    for i in range(len(content)):
        td_text = content[i].find_all('td')
        td_data=[]
        for j in range(len(td_text)):
            if j==5:
                td_data.append(td_text[j]['title'])
            else:
                td_data.append(td_text[j].text.strip())
        if len(td_data) > 0:
            data.append(td_data)
for ii in range(50):
    url_str = url.format(ii+1)
    get_web_content(url_str,header,data)
print(data)
print(len(data))

至此,运行结果如下图,我们需要的数据都在data变量里,共计有750条记录。

这个data变量的数据,您可以把它赋值为panda的数据,就可以利用panda的数据分析功能进行分析了。

需要说明的是:本例子没有把网站4138条记录全部爬取。如果您确实需要爬取,那是又应该爬取?留给粉丝讨论实现。

相关推荐

Python入门学习记录之一:变量_python怎么用变量

写这个,主要是对自己学习python知识的一个总结,也是加深自己的印象。变量(英文:variable),也叫标识符。在python中,变量的命名规则有以下三点:>变量名只能包含字母、数字和下划线...

python变量命名规则——来自小白的总结

python是一个动态编译类编程语言,所以程序在运行前不需要如C语言的先行编译动作,因此也只有在程序运行过程中才能发现程序的问题。基于此,python的变量就有一定的命名规范。python作为当前热门...

Python入门学习教程:第 2 章 变量与数据类型

2.1什么是变量?在编程中,变量就像一个存放数据的容器,它可以存储各种信息,并且这些信息可以被读取和修改。想象一下,变量就如同我们生活中的盒子,你可以把东西放进去,也可以随时拿出来看看,甚至可以换成...

绘制学术论文中的“三线表”具体指导

在科研过程中,大家用到最多的可能就是“三线表”。“三线表”,一般主要由三条横线构成,当然在变量名栏里也可以拆分单元格,出现更多的线。更重要的是,“三线表”也是一种数据记录规范,以“三线表”形式记录的数...

Python基础语法知识--变量和数据类型

学习Python中的变量和数据类型至关重要,因为它们构成了Python编程的基石。以下是帮助您了解Python中的变量和数据类型的分步指南:1.变量:变量在Python中用于存储数据值。它们充...

一文搞懂 Python 中的所有标点符号

反引号`无任何作用。传说Python3中它被移除是因为和单引号字符'太相似。波浪号~(按位取反符号)~被称为取反或补码运算符。它放在我们想要取反的对象前面。如果放在一个整数n...

Python变量类型和运算符_python中变量的含义

别再被小名词坑哭了:Python新手常犯的那些隐蔽错误,我用同事的真实bug拆给你看我记得有一次和同事张姐一起追查一个看似随机崩溃的脚本,最后发现罪魁祸首竟然是她把变量命名成了list。说实话...

从零开始:深入剖析 Spring Boot3 中配置文件的加载顺序

在当今的互联网软件开发领域,SpringBoot无疑是最为热门和广泛应用的框架之一。它以其强大的功能、便捷的开发体验,极大地提升了开发效率,成为众多开发者构建Web应用程序的首选。而在Spr...

Python中下划线 ‘_’ 的用法,你知道几种

Python中下划线()是一个有特殊含义和用途的符号,它可以用来表示以下几种情况:1在解释器中,下划线(_)表示上一个表达式的值,可以用来进行快速计算或测试。例如:>>>2+...

解锁Shell编程:变量_shell $变量

引言:开启Shell编程大门Shell作为用户与Linux内核之间的桥梁,为我们提供了强大的命令行交互方式。它不仅能执行简单的文件操作、进程管理,还能通过编写脚本实现复杂的自动化任务。无论是...

一文学会Python的变量命名规则!_python的变量命名有哪些要求

目录1.变量的命名原则3.内置函数尽量不要做变量4.删除变量和垃圾回收机制5.结语1.变量的命名原则①由英文字母、_(下划线)、或中文开头②变量名称只能由英文字母、数字、下画线或中文字所组成。③英文字...

更可靠的Rust-语法篇-区分语句/表达式,略览if/loop/while/for

src/main.rs://函数定义fnadd(a:i32,b:i32)->i32{a+b//末尾表达式}fnmain(){leta:i3...

C++第五课:变量的命名规则_c++中变量的命名规则

变量的命名不是想怎么起就怎么起的,而是有一套固定的规则的。具体规则:1.名字要合法:变量名必须是由字母、数字或下划线组成。例如:a,a1,a_1。2.开头不能是数字。例如:可以a1,但不能起1a。3....

Rust编程-核心篇-不安全编程_rust安全性

Unsafe的必要性Rust的所有权系统和类型系统为我们提供了强大的安全保障,但在某些情况下,我们需要突破这些限制来:与C代码交互实现底层系统编程优化性能关键代码实现某些编译器无法验证的安全操作Rus...

探秘 Python 内存管理:背后的神奇机制

在编程的世界里,内存管理就如同幕后的精密操控者,确保程序的高效运行。Python作为一种广泛使用的编程语言,其内存管理机制既巧妙又复杂,为开发者们提供了便利的同时,也展现了强大的底层控制能力。一、P...