[904]ScalersTalk成长会Python小组第20周学习笔记
zhezhongyun 2024-12-30 08:12 36 浏览
Scalers点评:在2015年,ScalersTalk成长会Python小组完成了《Python核心编程》第1轮的学习。到2016年,我们开始第二轮的学习,并且将重点放在章节的习题上。Python小组是成长会内部小组,如果你想和我们一起学习Python,你需要是成长会成员,并且完成相关进群任务。
我们的节奏是一周一章学到位,章节习题都会一个一个过。通过到位地执行,达到实质性的提升。
往期日志:
本周学习情况
本周(20160613-20160619)学习第二十章,章节内容为《web编程》,本周复盘主持人为祥子
本章主要内容
本章主要讲述了urlparse模块,主要包括3个函数,urlparse,unurlparse,urljoin,如何对URL字符串的解析;基于urllib模块的网络爬虫,包括urlopen 、urlretrieve 、quote 、unquote 、quote_plus、urlencode。
第一部分:urlparse模块
url格式:Prot_sch://net_loc/path;params?query#fragment
例子
net_loc:user:passwd@host:port
password:用户的密码
host:web服务器运行的机器名或地址(必须字段)
port:端口号(默认80)
处理URL 的模块:urlparse 、urllib
urlparse模块的函数:urlparse、urlunparse、urljoin
功能 :
urlparse格式:
urlparse(urlstr,defProtSch = None,allowFrag=None)
将urlstr解析成一个6元组(prot_sch,net_loc,path,params,query,fragment)
>>> import urlparse
>>> urlparse.urlparse('http://www.latexstudio.net/archives/category/tex-tips') ParseResult(scheme='http', netloc='www.latexstudio.net',
path='/archives/category/tex-tips', params='', query='', fragment='')
>>> urlparse.urlparse('http://www.sandia.gov/~tgkolda/TensorToolbox/index-2.6.html') ParseResult(scheme='http', netloc='www.sandia.gov',
path='/~tgkolda/TensorToolbox/index-2.6.html', params='', query='', fragment='')
urlunparse 与urlparse功能相反
公式: urlunparse(urlparse(urlstr)) = urlstr
语法公式:urlparse.urlunparse
例子:
>>> a=urlparse.urlparse('http://www.sandia.gov/~tgkolda/TensorToolbox/index-2.6.html')
>>> a ParseResult(scheme='http', netloc='www.sandia.gov',
path='/~tgkolda/TensorToolbox/index-2.6.html', params='', query='', fragment='')
>>> urlparse.urlunparse(a)'http://www.sandia.gov/~tgkolda/TensorToolbox/index-2.6.html'
urlparse.urljoin 需要多个相关的URL时使用urljoin
语法:urljoin(baseurl,newurl,allowFrag = None)
baseurl : 基路径 除了终端的文件名
newurl :新的路径文件名
例子:
>>> urlparse.urljoin('http://www.python.org/doc/FAQ.html','current/lib/lib.htm')
'http://www.python.org/doc/current/lib/lib.htm'
>>> urlparse.urljoin('http://www.python.org/doc/e/FAQ.html','faf.htm')
'http://www.python.org/doc/e/faf.htm'总结:
第二部分:urllib模块
函数:
urlopen
urlretrieve
quote
unquote
quote_plus
urlencode
urllib.urlopen :
打开一个给定的URL字符串与WEB连接,并返回了文件类的对象。
语法:urlopen(urlstr,postQueryData = None)
urlopen打开urlstr所指向的URL
read 读出所有的
readline : 读出一行
readlines: 读出所有的行
close: 关闭URL的连接
fileno 返回文件句柄
geturl 返回所打开的真正URL
info 返回mime头文件
例子:
>>> a=urllib.urlopen('http://www.bioconductor.org/')
>>> a.readline
'<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\n'
>>> a.fileno
940L
>>> a.info <httplib.HTTPMessage instance at 0x0000000003A93288>
>>> a.geturl
'http://www.bioconductor.org/'urllib.urlretrieve
语法: urlretrieve(urlstr,localfile=None,downloadStatusHook=None)
将html文件下载到本地磁盘中。返回(filename,mime_hdrs) :filename 包含下载数据的本地文件名,mime_hdrs 对web服务器响应后返回的一系列MIME文件头。
urllib.qutote
获取URL数据,并将其编码,从而适用于URL字符中。尤其一些不能被打印的或者不被WEB服务器作为有效URL接收的特殊字符串必须被转换。逗号、下划线、句号、斜线、字母数字不需要转化。
语法:quote(urldata,safe=’/’) urldata字符串被转换成一个可在URL字符串中使用的等价值,safe字符串可以包含一系列的不能被转换的字符。默认为斜线(/)
例子:
>>> name = 'joe mama'
>>> number = 6
>>> base = 'http://www/~foo/cgi-bin/s.py'
>>> final = '%s?name=%s&num=%d' %(base,name,number)
>>> final
'http://www/~foo/cgi-bin/s.py?name=joe mama&num=6'
>>> urllib.quote(final)
'http%3A//www/%7Efoo/cgi-bin/s.py%3Fname%3Djoe%20mama%26num%3D6'
>>> urllib.quote_plus(final)'http%3A%2F%2Fwww%2F%7Efoo%2Fcgi-bin%2Fs.py%3Fname%3Djoe+mama%26num%3D6'总结:功能相似,后者转换更加的全面,还将空格转为+
urllib.unquote 与 urllib.unquote_plus 将所有”%xx” 转为ASCII
urllib.urlencode
将字典键值对转为键=值。以连接符&划分
例子:
>>> aDict={'name':'Georgina Garcia','hmdir':'~ggarcia'}
>>> urllib.urlencode(aDict)
'name=Georgina+Garcia&hmdir=%7Eggarcia'
ScalersTalkID:scalerstalk本微信公众号作者Scalers,游走在口译世界的IT从业者。微信公众号ScalersTalk,微博@Scalers,网站ScalersTalk.com,口译100小时训练计划群C 456036104
成长会是由Scalers发起的面向成长、实践行动,且凝聚了来自全球各地各行各业从业者的社群。有意入会者请和Scalers直接联系,我和其他会员会和你直接交流关于成长行动等各方面的经验教训。2016年成长会持续招募中,参见做能说会写的持续行动者:ScalersTalk成长会2016年会员计划介绍(2016.3更新)
相关推荐
- 激光手术矫正视力对眼睛到底有没有伤害?
-
因为大家询问到很多关于“基质不能完全愈合”的问题,有必要在这里再详细解释一下。谢谢@珍惜年少时光提出的疑问:因为手头刚好在看组织学,其中提到:”角膜基质约占角膜的全厚度的90%,主要成分是胶原板层,...
- OneCode核心概念解析——View(视图)
-
什么是视图?在前面的章节中介绍过,Page相关的概念,Page是用户交互的入口,具有Url唯一性。但Page还只是一个抽象的容器,而View则是一个具备了具体业务能力的特殊的Page,它可以是一个...
- 精品博文图文详解Xilinx ISE14.7 安装教程
-
在软件安装之前,得准备好软件安装包,可从Xilinx官网上下载:http://china.xilinx.com/support/download/index.html/content/xilinx/z...
- 卡片项目管理(Web)(卡片设计的流程)
-
简洁的HTML文档卡片管理,简单框架个人本地离线使用。将个人工具类的文档整理使用。优化方向:添加图片、瀑布式布局、颜色修改、毛玻璃效果等。<!DOCTYPEhtml><html...
- GolangWeb框架Iris项目实战-JWT和中间件(Middleware)的使用EP07
-
前文再续,上一回我们完成了用户的登录逻辑,将之前用户管理模块中添加的用户账号进行账号和密码的校验,过程中使用图形验证码强制进行人机交互,防止账号的密码被暴力破解。本回我们需要为登录成功的用户生成Tok...
- sitemap 网站地图是什么格式?有什么好处?
-
sitemap网站地图方便搜索引擎发现和爬取网页站点地图是一种xml文件,或者是txt,是将网站的所有网址列在这个文件中,为了方便搜索引擎发现并收录的。sitemap网站地图分两种:用于用户导...
- 如何在HarmonyOS NEXT中处理页面间的数据传递?
-
大家好,前两天的Mate70的发布,让人热血沸腾啊,不想错过,自学的小伙伴一起啊,今天分享的学习笔记是关于页面间数据伟递的问题,在HarmonyOSNEXT5.0中,页面间的数据传递可以有很多种...
- 从 Element UI 源码的构建流程来看前端 UI 库设计
-
作者:前端森林转发链接:https://mp.weixin.qq.com/s/ziDMLDJcvx07aM6xoEyWHQ引言由于业务需要,近期团队要搞一套自己的UI组件库,框架方面还是Vue。而业界...
- jq+ajax+bootstrap改了一个动态分页的表格
-
最近在维护一个很古老的项目,里面是用jq的dataTable方法实现一个分页的表格,不过这些表格的分页是本地分页。现在想要的是点击分页去请求数据。经过多次的修改,以失败告终。分页的不准确,还会有这个错...
- 学习ES6- 入门Vue(大量源代码及笔记,带你起飞)
-
ES6学习网站:https://es6.ruanyifeng.com/箭头函数普通函数//普通函数this指向调用时所在的对象(可变)letfn=functionfn(a,b){...
- 青锋微服务架构之-Ant Design Pro 基本配置
-
青锋(msxy)-Gitee.com1、更换AntDesignPro的logo和名称需要修改文件所在位置:/config/defaultSetting.jsconstproSett...
- 大数据调度服务监控平台(大数据调度服务监控平台官网)
-
简介SmartKettle是针对上述企业的痛点,对kettle的使用做了一些包装、优化,使其在web端也能具备基础的kettle作业、转换的配置、调度、监控,能在很大一定程度上协助企业完成不同...
- Flask博客实战 - 实现博客首页视图及样式
-
本套教程是一个Flask实战类教程,html/css/javascript等相关技术栈不会过多的去详细解释,那么就需要各位初学者尽可能的先去掌握这些基础知识,当然本套教程不需要你对其非常精通,但最起码...
- Web自动化测试:模拟鼠标操作(ActionChains)
-
在日常的测试中,经常会遇到需要鼠标去操作的一些事情,比如说悬浮菜单、拖动验证码等,这一节我们来学习如何使用webdriver模拟鼠标的操作首页模拟鼠标的操作要首先引入ActionChains的包fro...
- DCS F-16C 中文指南 16.9ILS仪表降落系统教程
-
10–ILS教程我们的ILS(仪表着陆进近)将到达Batumi巴统机场。ILS频率:110.30跑道航向:120磁航向/126真航向无线电塔频率:131.0001.设置雷达高度表开关打开(前)并...
- 一周热门
- 最近发表
- 标签列表
-
- HTML 教程 (33)
- HTML 简介 (35)
- HTML 实例/测验 (32)
- HTML 测验 (32)
- JavaScript 和 HTML DOM 参考手册 (32)
- HTML 拓展阅读 (30)
- HTML常用标签 (29)
- HTML文本框样式 (31)
- HTML滚动条样式 (34)
- HTML5 浏览器支持 (33)
- HTML5 新元素 (33)
- HTML5 WebSocket (30)
- HTML5 代码规范 (32)
- HTML5 标签 (717)
- HTML5 标签 (已废弃) (75)
- HTML5电子书 (32)
- HTML5开发工具 (34)
- HTML5小游戏源码 (34)
- HTML5模板下载 (30)
- HTTP 状态消息 (33)
- HTTP 方法:GET 对比 POST (33)
- 键盘快捷键 (35)
- 标签 (226)
- HTML button formtarget 属性 (30)
- CSS 水平对齐 (Horizontal Align) (30)