网页内嵌PDF获取的办法

zhezhongyun 2025-04-29 06:49 90 浏览

最近女王大人为了通过某认证考试，交了2000RMB，官方居然没有给线下教材资料，直接给的是在线教材，教材是PDF的但是是内嵌在网页内，可惜却没有给具体的PDF地址，无法下载，看到女王大人一点点的截图保存，深感心痛。思考能否通过脚本实现爬取网页内嵌的PDF并完成下载。

思路：

1. 查看网页源代码,找寻PDF文件地址。很多时候,网站会在网页源代码中隐藏PDF文件的直接下载地址,我们可以通过查找关键字like ".pdf"找到该地址,然后直接下载。

2. 使用浏览器开发者工具分析网络请求,找寻PDF文件地址。当我们访问网页时,浏览器会自动发出许多网络请求,其中很可能包含PDF文件的请求,我们可以通过分析找到请求URL并下载。

3. 使用爬虫程序自动分析网页并下载PDF。我们可以编写爬虫程序使用Requests库访问网页,自动解析网页源代码和网络请求,一旦发现PDF文件请求就进行下载。

首先通过网页源码，查找PDF文件失败，继而转为使用python进行爬取。

使用Requests获取网页内容:

import requests
url = "目标网页地址"
response = requests.get(url)
html = response.text

解析网页源码找寻PDF地址:

import re
pattern = re.compile(r'http.*?.pdf')
result = pattern.findall(html)
pdf_url = result[0] # 获取第一个匹配结果

下载PDF文件:

import requests
pdf_response = requests.get(pdf_url)
with open("pdf文件.pdf", "wb") as f:
f.write(pdf_response.content)

将上述脚本代码的思路整合行程统一执行脚本：

import requests
import re
url = "目标网页地址"
response = requests.get(url)
html = response.text
pattern = re.compile(r'http.*?.pdf')
result = pattern.findall(html)
pdf_url = result[0]
pdf_response = requests.get(pdf_url)
with open("course.pdf", "wb") as f:
f.write(pdf_response.content)
print("PDF文件已下载!")

执行结果不理想，代码报错

pdf_url = result[0]
~~~~~~^^^
IndexError: list index out of range

报错原因分析可能原因：

1. 网页源码中不存在PDF URL,正则表达式无法匹配,result为空列表。

2. 正则表达式匹配模式错误,无法正确匹配PDF URL,导致result为空列表。

通过重新打开浏览器打开目标网页地址，发现跳转至了首页，并且处于未登陆状态。开来要完成PDF爬取还需增加对网站当前账号的cookie，session，token等信息的获取，而这些信息基本都是通过浏览器开发者工具获取。

有点复杂，既然又转回开发者工具，那么转变思路，通过控制台命令的方式来进行PDF爬取试试。

开发者调试模式-控制台命令：

let pdf_url = "";
document.querySelectorAll("iframe, object, embed").forEach(element => {
if (element.src.includes(".pdf")) {
pdf_url = element.src;
}
});
console.log(pdf_url);

执行结果反馈了PDF的绝对地址，使用浏览器能正常打开该PDF文件，使用下载工具完成PDF的下载。

HTML embed src 属性

上一篇：印度女孩被邻居家客人性骚扰，父亲上门警告，反被围殴致死
下一篇：大数据Doris(六):编译 Doris遇到的问题

网页内嵌PDF获取的办法

相关推荐

《最后的信仰》新手开局保姆级指南职业选择、属性加点与开荒策略

邮箱126免费登录入口（邮箱126登录入口电脑版）

电脑网站（电脑网站被劫持怎么办怎么解决）

电脑怎么查看内存条信息（电脑哪里查看内存条信息）

Python中下划线 ‘_’ 的用法，你知道几种

C++第五课:变量的命名规则_c++中变量的命名规则

电脑上如何找回qq密码（用电脑找回qq密码）

nvidia显卡怎么设置（nvidia显卡怎么设置玩游戏更流畅）

一文学会Python的变量命名规则!_python的变量命名有哪些要求

解锁Shell编程:变量_shell $变量