[904]ScalersTalk成长会Python小组第20周学习笔记
zhezhongyun 2024-12-30 08:12 47 浏览
Scalers点评:在2015年,ScalersTalk成长会Python小组完成了《Python核心编程》第1轮的学习。到2016年,我们开始第二轮的学习,并且将重点放在章节的习题上。Python小组是成长会内部小组,如果你想和我们一起学习Python,你需要是成长会成员,并且完成相关进群任务。
我们的节奏是一周一章学到位,章节习题都会一个一个过。通过到位地执行,达到实质性的提升。
往期日志:
本周学习情况
本周(20160613-20160619)学习第二十章,章节内容为《web编程》,本周复盘主持人为祥子
本章主要内容
本章主要讲述了urlparse模块,主要包括3个函数,urlparse,unurlparse,urljoin,如何对URL字符串的解析;基于urllib模块的网络爬虫,包括urlopen 、urlretrieve 、quote 、unquote 、quote_plus、urlencode。
第一部分:urlparse模块
url格式:Prot_sch://net_loc/path;params?query#fragment
例子
net_loc:user:passwd@host:port
password:用户的密码
host:web服务器运行的机器名或地址(必须字段)
port:端口号(默认80)
处理URL 的模块:urlparse 、urllib
urlparse模块的函数:urlparse、urlunparse、urljoin
功能 :
urlparse格式:
urlparse(urlstr,defProtSch = None,allowFrag=None)
将urlstr解析成一个6元组(prot_sch,net_loc,path,params,query,fragment)
>>> import urlparse
>>> urlparse.urlparse('http://www.latexstudio.net/archives/category/tex-tips') ParseResult(scheme='http', netloc='www.latexstudio.net',
path='/archives/category/tex-tips', params='', query='', fragment='')
>>> urlparse.urlparse('http://www.sandia.gov/~tgkolda/TensorToolbox/index-2.6.html') ParseResult(scheme='http', netloc='www.sandia.gov',
path='/~tgkolda/TensorToolbox/index-2.6.html', params='', query='', fragment='')
urlunparse 与urlparse功能相反
公式: urlunparse(urlparse(urlstr)) = urlstr
语法公式:urlparse.urlunparse
例子:
>>> a=urlparse.urlparse('http://www.sandia.gov/~tgkolda/TensorToolbox/index-2.6.html')
>>> a ParseResult(scheme='http', netloc='www.sandia.gov',
path='/~tgkolda/TensorToolbox/index-2.6.html', params='', query='', fragment='')
>>> urlparse.urlunparse(a)'http://www.sandia.gov/~tgkolda/TensorToolbox/index-2.6.html'
urlparse.urljoin 需要多个相关的URL时使用urljoin
语法:urljoin(baseurl,newurl,allowFrag = None)
baseurl : 基路径 除了终端的文件名
newurl :新的路径文件名
例子:
>>> urlparse.urljoin('http://www.python.org/doc/FAQ.html','current/lib/lib.htm')
'http://www.python.org/doc/current/lib/lib.htm'
>>> urlparse.urljoin('http://www.python.org/doc/e/FAQ.html','faf.htm')
'http://www.python.org/doc/e/faf.htm'总结:
第二部分:urllib模块
函数:
urlopen
urlretrieve
quote
unquote
quote_plus
urlencode
urllib.urlopen :
打开一个给定的URL字符串与WEB连接,并返回了文件类的对象。
语法:urlopen(urlstr,postQueryData = None)
urlopen打开urlstr所指向的URL
read 读出所有的
readline : 读出一行
readlines: 读出所有的行
close: 关闭URL的连接
fileno 返回文件句柄
geturl 返回所打开的真正URL
info 返回mime头文件
例子:
>>> a=urllib.urlopen('http://www.bioconductor.org/')
>>> a.readline
'<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\n'
>>> a.fileno
940L
>>> a.info <httplib.HTTPMessage instance at 0x0000000003A93288>
>>> a.geturl
'http://www.bioconductor.org/'urllib.urlretrieve
语法: urlretrieve(urlstr,localfile=None,downloadStatusHook=None)
将html文件下载到本地磁盘中。返回(filename,mime_hdrs) :filename 包含下载数据的本地文件名,mime_hdrs 对web服务器响应后返回的一系列MIME文件头。
urllib.qutote
获取URL数据,并将其编码,从而适用于URL字符中。尤其一些不能被打印的或者不被WEB服务器作为有效URL接收的特殊字符串必须被转换。逗号、下划线、句号、斜线、字母数字不需要转化。
语法:quote(urldata,safe=’/’) urldata字符串被转换成一个可在URL字符串中使用的等价值,safe字符串可以包含一系列的不能被转换的字符。默认为斜线(/)
例子:
>>> name = 'joe mama'
>>> number = 6
>>> base = 'http://www/~foo/cgi-bin/s.py'
>>> final = '%s?name=%s&num=%d' %(base,name,number)
>>> final
'http://www/~foo/cgi-bin/s.py?name=joe mama&num=6'
>>> urllib.quote(final)
'http%3A//www/%7Efoo/cgi-bin/s.py%3Fname%3Djoe%20mama%26num%3D6'
>>> urllib.quote_plus(final)'http%3A%2F%2Fwww%2F%7Efoo%2Fcgi-bin%2Fs.py%3Fname%3Djoe+mama%26num%3D6'总结:功能相似,后者转换更加的全面,还将空格转为+
urllib.unquote 与 urllib.unquote_plus 将所有”%xx” 转为ASCII
urllib.urlencode
将字典键值对转为键=值。以连接符&划分
例子:
>>> aDict={'name':'Georgina Garcia','hmdir':'~ggarcia'}
>>> urllib.urlencode(aDict)
'name=Georgina+Garcia&hmdir=%7Eggarcia'
ScalersTalkID:scalerstalk本微信公众号作者Scalers,游走在口译世界的IT从业者。微信公众号ScalersTalk,微博@Scalers,网站ScalersTalk.com,口译100小时训练计划群C 456036104
成长会是由Scalers发起的面向成长、实践行动,且凝聚了来自全球各地各行各业从业者的社群。有意入会者请和Scalers直接联系,我和其他会员会和你直接交流关于成长行动等各方面的经验教训。2016年成长会持续招募中,参见做能说会写的持续行动者:ScalersTalk成长会2016年会员计划介绍(2016.3更新)
相关推荐
- Go语言标准库中5个被低估的强大package
-
在Go语言的世界里,开发者们往往对fmt、net/http这些“明星包”耳熟能详,却忽略了标准库里藏着的一批“宝藏工具”。它们功能强大却低调内敛,能解决并发控制、内存优化、日志管理等核心问题。今天就带...
- 作为测试人,如何优雅地查看Log日志?
-
作为一名测试工程师,测试工作中和Linux打交道的地方有很多。比如查看日志、定位Bug、修改文件、部署环境等。项目部署在Linux上,如果某个功能发生错误,就需要我们去排查出错的原因,所以熟练地掌握查...
- Java 从底层与接口实现了解String、StringBuffer、StringBuilder
-
String、StringBuffer和StringBuilder的接口实现关系:String:字符串常量,字符串长度不可变。Java中String是immutable(不可变)的。用于存放字符...
- FluentData 从入门到精通:C#.NET 数据访问最佳实践
-
简介FluentData是一个微型ORM(micro-ORM),主打「FluentAPI」风格,让开发者在保持对原生SQL完全控制的同时,享受链式调用的便捷性。它与Dapper、Massi...
- 团队协作-代码格式化工具clang-format
-
环境:clang-format:10.0.0前言统一的代码规范对于整个团队来说十分重要,通过git/svn在提交前进行统一的ClangFormat格式化,可以有效避免由于人工操作带来的代码格式问题。C...
- C# 数据操作系列 - 15 SqlSugar 增删改查详解(超长篇)
-
0.前言继上一篇,以及上上篇,我们对SqlSugar有了一个大概的认识,但是这并不完美,因为那些都是理论知识,无法描述我们工程开发中实际情况。而这一篇,将带领小伙伴们一起试着写一个能在工程中使用的模...
- Mac OS 下 Unix 使用最多的100条命令(收藏级)
-
MacOS内置基于Unix的强大终端(Terminal),对开发者、运维工程师和日常用户来说,掌握常用的Unix命令是提升效率的关键。本文整理了100条在MacOS下最常用的U...
- C语言字符串操作总结大全(超详细)
-
C语言字符串操作总结大全(超详细)1)字符串操作strcpy(p,p1)复制字符串strncpy(p,p1,n)复制指定长度字符串strcat(p,p1)附加字符串strncat...
- 经常使用到开源的MySQL,今天我们就来系统地认识一下
-
作为程序员,我们在项目中会使用到许多种类的数据库,根据业务类型、并发量和数据要求等选择不同类型的数据库,比如MySQL、Oracle、SQLServer、SQLite、MongoDB和Redis等。今...
- 电脑蓝屏代码大全_电脑蓝屏代码大全及解决方案
-
0X0000000操作完成0X0000001不正确的函数0X0000002系统找不到指定的文件0X0000003系统找不到指定的路径0X0000004系统无法打开文件0X0000005拒绝...
- 8个增强PHP程序安全的函数_php性能优化及安全策略
-
安全是编程非常重要的一个方面。在任何一种编程语言中,都提供了许多的函数或者模块来确保程序的安全性。在现代网站应用中,经常要获取来自世界各地用户的输入,但是,我们都知道“永远不能相信那些用户输入的数据”...
- css优化都有哪些优化方案_css性能优化技巧
-
CSS优化其实可以分成几个层面:性能优化、可维护性优化、兼容性优化以及用户体验优化。这里我帮你梳理一份比较系统的CSS优化方案清单,方便你参考:一、加载性能优化减少CSS文件体积压缩CSS...
- 筹划20年,他终于拍成了这部电影_筹划20年,他终于拍成了这部电影英语
-
如果提名好莱坞最难搞影星,你第一时间会联想到谁?是坏脾气的西恩·潘,还是曾因吸毒锒铛入狱的小罗伯特·唐尼,亦或是沉迷酒精影响工作的罗素·克劳?上述大咖,往往都有着这样或那样的瑕疵。可即便如此,却都仍旧...
- Keycloak Servlet Filter Adapter使用
-
KeycloakClientAdapters简介Keycloakclientadaptersarelibrariesthatmakeitveryeasytosecurea...
- 一些常用的linux常用的命令_linux常用命令有哪些?
-
在Linux的世界里,命令是与系统交互的基础。掌握常用命令不仅能让你高效地管理文件、进程和网络,还能为你进一步学习系统管理和自动化打下坚实的基础。本文将深入探讨一些最常用且功能强大的Linux...
- 一周热门
- 最近发表
- 标签列表
-
- HTML 教程 (33)
- HTML 简介 (35)
- HTML 实例/测验 (32)
- HTML 测验 (32)
- JavaScript 和 HTML DOM 参考手册 (32)
- HTML 拓展阅读 (30)
- HTML文本框样式 (31)
- HTML滚动条样式 (34)
- HTML5 浏览器支持 (33)
- HTML5 新元素 (33)
- HTML5 WebSocket (30)
- HTML5 代码规范 (32)
- HTML5 标签 (717)
- HTML5 标签 (已废弃) (75)
- HTML5电子书 (32)
- HTML5开发工具 (34)
- HTML5小游戏源码 (34)
- HTML5模板下载 (30)
- HTTP 状态消息 (33)
- HTTP 方法:GET 对比 POST (33)
- 键盘快捷键 (35)
- 标签 (226)
- HTML button formtarget 属性 (30)
- opacity 属性 (32)
- transition 属性 (33)