百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Spring boot + Jsoup 搭建,解析系统接口只需1分钟

zhezhongyun 2025-04-07 21:11 7 浏览

前几天有个小姐姐想看《天使陷落》的大片问有没有资源的渠道。本着不给广大程序小老哥的脸,想也没想的就答应给小姐姐找资源。但是凄惨的是把以前经常用的网站烦了个遍都没有。



这点小问题肯定难不到勤奋的小老弟,一通谷歌、百度、dogedoge终于找了可靠资源。


既然现在资源这么匮乏,网站都找到了何不试试抓包看看接口。说干就干,按照一贯的操作流程,打开Chrome->开发者工具->NextWork->All


经过一顿猛操作终于于发现接口,其实就是通过调用https://xxx/jx.php?do=h5&id=视频唯一标识来获取到原视频播放地址。

到这一步的时候,已经是觉得都成了,可是打开Postman跑接口一看,人都傻了。


根本就没有返回视频播放源的地址,当然对于爬虫分析都得有耐心,像这种通过Postman跑出来的数据和浏览器控制台抓的数据不一样,大几率就是header参数缺失的问题,知道问题出在哪里问题就迎刃而解。然后一个一个参数的copy过来果不其然少了一个referer参数。

接口参数抓到了就开始拿到我们需要的video路径。我们请求接口的参数返回的是html代码块。



 
 
 
 
 电影盒子
 
 
 
 
 
<script src="https://cdn.bootcss.com/flv.js/1.4.2/flv.min.js"></script> <script src="https://cdn.bootcss.com/dplayer/1.22.2/DPlayer.min.js"></script> <script type="text/javascript"> var isiPad = navigator.userAgent.match(/iPad|iPhone|Android|Linux|iPod/i) != null; if(isiPad){ document.getElementById('player').innerHTML = ' '; }else { var pic = ""; var dplayer = new DPlayer({ element: document.getElementById("player"), autoplay: true, hotkey: true, preload: 'auto', video: { url: 'http://sh-download.weiyun.com/ftn_handler/d77c3b67df5795dcbdd3a69d3cf3503753d6559d01114d3904e741eb27d266c9/%E7%83%88%E7%81%AB%E8%8B%B1%E9%9B%842019.mp4', pic: 'http://jx.178du.com/Dplayer/loading.png' } }); } </script> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?71034aa175241a731523ac24bdd3406d"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script>

这个时候我们可以通过正则从下面代码块里,拿到video标签里面的src值。

说干就干,打开强大的IEDA,新建Spring boot项目。在Maven配置pom.xml加入Jsoup解析插件。


 org.jsoup
 jsoup
 1.8.1

先通过Jsoup调用之前抓取到的接口解析得到Html。

/**
 * https://www.fenggoudy.com
 *
 * @Param null
 * @Author:tianminghai
 * @Date:5:28 PM 2019/11/15
 */
 public static String getVideoUrlForFengGou(String apiUrl,String refeurl)throws Exception{

 // 参数详情 https://www.fenggoudy.com 采集
 apiUrl = "https://jx33.178du.com/jx.php?do=h5&id=7aa7f493692edb4a.mp4";
 refeurl = "https://www.fenggoudy.com";

 Document html = null;

 try {
 html = Jsoup.connect(apiUrl).header("referer",refeurl).get();


 } catch (IOException e) {
 throw e;
 }

 String videoUrl = getHtmlVideoStr(html.outerHtml()).get("src");

 System.out.print("------原始数据:"+getHtmlVideoStr(html.outerHtml()));

 if (videoUrl.contains("download.weiyun.com")){
 return videoUrl;
 }else {
 throw new Exception("数据解析问题");
 }

 }

具体通过正则表达式解析网页得到video中的src值方法。

/**
 *得到html中的 video src
 *
 * @Param null
 * @Author:tianminghai
 * @Date:5:25 PM 2019/11/15
 */
 public static Map getHtmlVideoStr(String htmlStr) {

 Map pics = new HashMap();
 String regEx_video="]*?>";
 Pattern p = Pattern.compile(regEx_video,Pattern.CASE_INSENSITIVE);
 Matcher m = p.matcher(htmlStr);
 String video="";
 Map maps = new HashMap();
 while (m.find()) {
 video=m.group();
 Matcher mPoster = Pattern.compile("poster\\s*=\\s*\"?(.*?)(\"|>|\\s+)").matcher(video);
 Matcher mSrc = Pattern.compile("src\\s*=\\s*\"?(.*?)(\"|>|\\s+)").matcher(video);
 String poster ="";
 String src="";
 while (mPoster.find()){
 poster=mPoster.group(1);
 }

 while (mSrc.find()){
 src=mSrc.group(1);
 }
 maps.put("poster", poster);
 maps.put("src", src);
 maps.put("srcs", src);
 }

 return maps;

 }

这个时候一切都准备就绪就差把数据通过接口来实现了,新建一个Controller。

@RestController
public class VideoController {

 @RequestMapping(value = "/video")
 public ResultModel test(){

 
 ResultModel resultModel = new ResultModel();

 resultModel.setMsg("成功");

 try {
 resultModel.setCode(JsonConfigModel.SUSSESS);

 JSONObject obj = new JSONObject();

 obj.put("url",VideoUtils.getVideoUrlForFengGou("",""));

 resultModel.setObj(obj);

 } catch (Exception e) {
 resultModel.setCode(JsonConfigModel.ERROR_VIDEO);
 }
 

 return resultModel;
 }
}

小程序访问接口看看到底能不能观看视频。新建一个小程序项目,添加一个视频播放组件。Vide.WXML;


 返回
 列表
 



 

Video.js

var http = require('../../utils/httputils.js');

Page({
 data: {
 voideUrl:''
 
 },

 onLoad: function (options) {

 var that = this;

 console.log("-------")
 var prams = {
 username: "1111",
 password: "123456"
 }
 http.getRequest("http://192.168.0.103:8081/video", prams,
 function (res) {
 console.log("----aa---"+res.obj.url)
 that.setData({
 voideUrl:res.obj.url,
 })
 },
 function (err) {

 })
 
 },

 onReady() {
 
 }

 
});


万事具备,来给我动作整齐划一的走起!

那么问题来了,今天下午小姐姐约我去吃饭,老哥们能否指点招?

相关推荐

JPA实体类注解,看这篇就全会了

基本注解@Entity标注于实体类声明语句之前,指出该Java类为实体类,将映射到指定的数据库表。name(可选):实体名称。缺省为实体类的非限定名称。该名称用于引用查询中的实体。不与@Tab...

Dify教程02 - Dify+Deepseek零代码赋能,普通人也能开发AI应用

开始今天的教程之前,先解决昨天遇到的一个问题,docker安装Dify的时候有个报错,进入Dify面板的时候会出现“InternalServerError”的提示,log日志报错:S3_USE_A...

用离散标记重塑人体姿态:VQ-VAE实现关键点组合关系编码

在人体姿态估计领域,传统方法通常将关键点作为基本处理单元,这些关键点在人体骨架结构上代表关节位置(如肘部、膝盖和头部)的空间坐标。现有模型对这些关键点的预测主要采用两种范式:直接通过坐标回归或间接通过...

B 客户端流RPC (clientstream Client Stream)

客户端编写一系列消息并将其发送到服务器,同样使用提供的流。一旦客户端写完消息,它就等待服务器读取消息并返回响应gRPC再次保证了单个RPC调用中的消息排序在客户端流RPC模式中,客户端会发送多个请...

我的模型我做主02——训练自己的大模型:简易入门指南

模型训练往往需要较高的配置,为了满足友友们的好奇心,这里我们不要内存,不要gpu,用最简单的方式,让大家感受一下什么是模型训练。基于你的硬件配置,我们可以设计一个完全在CPU上运行的简易模型训练方案。...

开源项目MessageNest打造个性化消息推送平台多种通知方式

今天介绍一个开源项目,MessageNest-可以打造个性化消息推送平台,整合邮件、钉钉、企业微信等多种通知方式。定制你的消息,让通知方式更灵活多样。开源地址:https://github.c...

使用投机规则API加快页面加载速度

当今的网络用户要求快速导航,从一个页面移动到另一个页面时应尽量减少延迟。投机规则应用程序接口(SpeculationRulesAPI)的出现改变了网络应用程序接口(WebAPI)领域的游戏规则。...

JSONP安全攻防技术

关于JSONPJSONP全称是JSONwithPadding,是基于JSON格式的为解决跨域请求资源而产生的解决方案。它的基本原理是利用HTML的元素标签,远程调用JSON文件来实现数据传递。如果...

大数据Doris(六):编译 Doris遇到的问题

编译Doris遇到的问题一、js_generator.cc:(.text+0xfc3c):undefinedreferenceto`well_known_types_js’查找Doris...

网页内嵌PDF获取的办法

最近女王大人为了通过某认证考试,交了2000RMB,官方居然没有给线下教材资料,直接给的是在线教材,教材是PDF的但是是内嵌在网页内,可惜却没有给具体的PDF地址,无法下载,看到女王大人一点点的截图保...

印度女孩被邻居家客人性骚扰,父亲上门警告,反被围殴致死

微信的规则进行了调整希望大家看完故事多点“在看”,喜欢的话也点个分享和赞这样事儿君的推送才能继续出现在你的订阅列表里才能继续跟大家分享每个开怀大笑或拍案惊奇的好故事啦~话说只要稍微关注新闻的人,应该...

下周重要财经数据日程一览 (1229-0103)

下周焦点全球制造业PMI美国消费者信心指数美国首申失业救济人数值得注意的是,下周一希腊还将举行第三轮总统选举需要谷歌日历同步及部分智能手机(安卓,iPhone)同步日历功能的朋友请点击此链接,数据公布...

PyTorch 深度学习实战(38):注意力机制全面解析

在上一篇文章中,我们探讨了分布式训练实战。本文将深入解析注意力机制的完整发展历程,从最初的Seq2Seq模型到革命性的Transformer架构。我们将使用PyTorch实现2个关键阶段的注意力机制变...

聊聊Spring AI的EmbeddingModel

序本文主要研究一下SpringAI的EmbeddingModelEmbeddingModelspring-ai-core/src/main/java/org/springframework/ai/e...

前端分享-少年了解过iframe么

iframe就像是HTML的「内嵌画布」,允许在页面中加载独立网页,如同在画布上叠加另一幅动态画卷。核心特性包括:独立上下文:每个iframe都拥有独立的DOM/CSS/JS环境(类似浏...