百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

网页内嵌PDF获取的办法

zhezhongyun 2025-04-29 06:49 26 浏览

最近女王大人为了通过某认证考试,交了2000RMB,官方居然没有给线下教材资料,直接给的是在线教材,教材是PDF的但是是内嵌在网页内,可惜却没有给具体的PDF地址,无法下载,看到女王大人一点点的截图保存,深感心痛。思考能否通过脚本实现爬取网页内嵌的PDF并完成下载。



思路:

1. 查看网页源代码,找寻PDF文件地址。很多时候,网站会在网页源代码中隐藏PDF文件的直接下载地址,我们可以通过查找关键字like ".pdf"找到该地址,然后直接下载。

2. 使用浏览器开发者工具分析网络请求,找寻PDF文件地址。当我们访问网页时,浏览器会自动发出许多网络请求,其中很可能包含PDF文件的请求,我们可以通过分析找到请求URL并下载。

3. 使用爬虫程序自动分析网页并下载PDF。我们可以编写爬虫程序使用Requests库访问网页,自动解析网页源代码和网络请求,一旦发现PDF文件请求就进行下载。

首先通过网页源码,查找PDF文件失败,继而转为使用python进行爬取。



使用Requests获取网页内容:

import requests
url = "目标网页地址"
response = requests.get(url)
html = response.text

解析网页源码找寻PDF地址:

import re
pattern = re.compile(r'http.*?.pdf')
result = pattern.findall(html)
pdf_url = result[0] # 获取第一个匹配结果

下载PDF文件:

import requests
pdf_response = requests.get(pdf_url)
with open("pdf文件.pdf", "wb") as f:
f.write(pdf_response.content)

将上述脚本代码的思路整合行程统一执行脚本:

import requests
import re
url = "目标网页地址"
response = requests.get(url)
html = response.text
pattern = re.compile(r'http.*?.pdf')
result = pattern.findall(html)
pdf_url = result[0]
pdf_response = requests.get(pdf_url)
with open("course.pdf", "wb") as f:
f.write(pdf_response.content)
print("PDF文件已下载!")

执行结果不理想,代码报错



pdf_url = result[0]
~~~~~~^^^
IndexError: list index out of range

报错原因分析可能原因:

1. 网页源码中不存在PDF URL,正则表达式无法匹配,result为空列表。

2. 正则表达式匹配模式错误,无法正确匹配PDF URL,导致result为空列表。

通过重新打开浏览器打开目标网页地址,发现跳转至了首页,并且处于未登陆状态。开来要完成PDF爬取还需增加对网站当前账号的cookie,session,token等信息的获取,而这些信息基本都是通过浏览器开发者工具获取。

有点复杂,既然又转回开发者工具,那么转变思路,通过控制台命令的方式来进行PDF爬取试试。

开发者调试模式-控制台命令:

let pdf_url = "";
document.querySelectorAll("iframe, object, embed").forEach(element => {
if (element.src.includes(".pdf")) {
pdf_url = element.src;
}
});
console.log(pdf_url);

执行结果反馈了PDF的绝对地址,使用浏览器能正常打开该PDF文件,使用下载工具完成PDF的下载。


相关推荐

DevExpress使用教程:GridView经验小结

下面是笔者自己总结的使用DevExpressGridview的一些经验小结,分享给大家:1、去除GridView头上的"Dragacolumnheaderheretogroup...

ComponentOne 新版本发布,新增 .NET 6 和 Blazor 平台控件支持

ComponentOneEnterprise是葡萄城推出的一款内置300多种开发控件的.NET控件集,可满足WinForm、WPF、Blazor、ASP.NETMVC等平台下的系统开发...

Wijmo5 Flexgrid基础教程:数据绑定

WijmoEnterprise下载>FlexGrid在JavaScript程序中启动添加Wijmo引用;添加wijmo控件的扩展;在JavaScript中初始化wijmo控件;(可选)添加cs...

Wijmo5 Flexgrid基础教程:InlineEdit

WijmoEnterprise下载>对于flexgrid,可以直接在单元格内进行编辑。但另外还有一种编辑方式,即在一行添加按钮,统一的编辑和提交数据。本文主要介绍给flexgrid添加编辑按钮...

WinForms Data Grid控件升级(winform devexpress控件)

告诉大家一个好消息:慧都将于近期隆重推出“DevExpress14.2新版发布会”。心动不如行动,赶快报名吧!我们期待与您相约DevExpress14.2新版发布会。>>新增Wind...

XAML控件宽度为另一控件的一半、静态属性绑定

控件上当某些数据需要根据其他数据的变化而变化很多时候,想让某个控件的宽度或者高度是另一个已有控件的一半,一开始打算使用ObjectDataProvider来实现,因为在控件上当某些数据需要根据其他数据...

用 CSS Grid 布局制作一个响应式柱状图

最新一段时间比较喜欢玩弄图表,出于好奇,我想找出比较好的用CSS制作图表的方案。开始学习网上开源图表库,它对我学习新的和不熟悉的前端技术很有帮助,比如这个:CSSGrid。今天和大家分享我学到的...

Grid 移动端双列瀑布流(移动端瀑布流布局)

预览图:原理合理使用Grid的属性:display:设置为grid指明当前容器为Grid布局grid-template-columns:定义每一列的列宽(百分比或绝对单位)grid-templa...

DevExpress导出GridControl控件数据

前言:使用C#做桌面应用时,我们会常常使用Winform作为我们的开发界面,但是windows自带的控件由于长时间不更新,已经不能够满足当前开发需要所以使用DevExpress控件作为Winform...

css grid 布局的那些事儿(css grid布局和flex布局)

CSSGrid是一种为Web开发创建网站布局的方式。它已经存在了很多年,随着更多浏览器的支持,它终于变得越来越流行。接下来我们将了解下CSSGrid及其工作原理。了解下它如何使用。CSS...

Grid.js - 跨框架的前端表格插件(前端table框架)

只想简简单单画个表格,但React,Vue,Angular,…,这么多前端框架,各自都有不同的表格渲染库。就没有表格库能“一次画表,到处运行”吗?来看看Grid.js这个跨框架的前端表格插件吧!...

WPF开发教程01-布局控件(wpf tablecontrol控件)

布局控件是用于进行控件布局的容器类控件,其内部控件按照一定规律自动排列,且在父控件改变大小时,会自动适应。常用布局控件如下:1.一维布局控件(StackPanel)其内部控件按照某个维度自动排列,排...

wxPython - 高级控件之表格Grid(wxpython grid刷新数据)

实战wxPython系列-043wx.grid.Grid及其相关类用于显示和编辑表格数据。它们提供了一组丰富的功能,用于显示、编辑和与各种数据源交互。wx.grid.Grid是一个功能强大的但是又稍微...

前端 BFC、IFC、GFC 和 FFC,这些你都知道吗?

如果觉得我的文章不错,可以关注我,想要看其他的进阶知识可以查看我发布过的文章!编辑搜图请点击输入图片描述BFC(Blockformattingcontexts):块级格式上下文页面上的一个隔离的...

20多个好用的 Vue 组件库,请查收

在本文中,我们将探讨一些最常见的vuejs组件。你可以收藏一波。VueTables-2地址:https://github.com/matfish2/vue-tables-2VueTables2...