百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

[904]ScalersTalk成长会Python小组第20周学习笔记

zhezhongyun 2024-12-30 08:12 26 浏览

Scalers点评:在2015年,ScalersTalk成长会Python小组完成了《Python核心编程》第1轮的学习。到2016年,我们开始第二轮的学习,并且将重点放在章节的习题上。Python小组是成长会内部小组,如果你想和我们一起学习Python,你需要是成长会成员,并且完成相关进群任务。

我们的节奏是一周一章学到位,章节习题都会一个一个过。通过到位地执行,达到实质性的提升。

往期日志:

本周学习情况

本周(20160613-20160619)学习第二十章,章节内容为《web编程》,本周复盘主持人为祥子

本章主要内容

本章主要讲述了urlparse模块,主要包括3个函数,urlparse,unurlparse,urljoin,如何对URL字符串的解析;基于urllib模块的网络爬虫,包括urlopen 、urlretrieve 、quote 、unquote 、quote_plus、urlencode。

第一部分:urlparse模块

url格式:Prot_sch://net_loc/path;params?query#fragment

  • 例子

net_loc:user:passwd@host:port

password:用户的密码

host:web服务器运行的机器名或地址(必须字段)

port:端口号(默认80)

  • 处理URL 的模块:urlparse 、urllib

  • urlparse模块的函数:urlparse、urlunparse、urljoin

  • 功能 :

    urlparse格式:

    urlparse(urlstr,defProtSch = None,allowFrag=None)

    将urlstr解析成一个6元组(prot_sch,net_loc,path,params,query,fragment)

>>> import urlparse
>>> urlparse.urlparse('http://www.latexstudio.net/archives/category/tex-tips') ParseResult(scheme='http', netloc='www.latexstudio.net',
path='/archives/category/tex-tips', params='', query='', fragment='')
>>> urlparse.urlparse('http://www.sandia.gov/~tgkolda/TensorToolbox/index-2.6.html') ParseResult(scheme='http', netloc='www.sandia.gov',
path='/~tgkolda/TensorToolbox/index-2.6.html', params='', query='', fragment='')
  • urlunparse 与urlparse功能相反

    公式: urlunparse(urlparse(urlstr)) = urlstr

    语法公式:urlparse.urlunparse

例子:

>>> a=urlparse.urlparse('http://www.sandia.gov/~tgkolda/TensorToolbox/index-2.6.html')
>>> a ParseResult(scheme='http', netloc='www.sandia.gov',
path='/~tgkolda/TensorToolbox/index-2.6.html', params='', query='', fragment='')
>>> urlparse.urlunparse(a)'http://www.sandia.gov/~tgkolda/TensorToolbox/index-2.6.html'
  • urlparse.urljoin 需要多个相关的URL时使用urljoin

语法:urljoin(baseurl,newurl,allowFrag = None)

baseurl : 基路径 除了终端的文件名

newurl :新的路径文件名

  • 例子:

    >>> urlparse.urljoin('http://www.python.org/doc/FAQ.html','current/lib/lib.htm')
    'http://www.python.org/doc/current/lib/lib.htm'
    >>> urlparse.urljoin('http://www.python.org/doc/e/FAQ.html','faf.htm')
    'http://www.python.org/doc/e/faf.htm'
  • 总结:

第二部分:urllib模块

函数:

urlopen

urlretrieve

quote

unquote

quote_plus

urlencode

  • urllib.urlopen :

    打开一个给定的URL字符串与WEB连接,并返回了文件类的对象。

    语法:urlopen(urlstr,postQueryData = None)

    urlopen打开urlstr所指向的URL

    read 读出所有的

    readline : 读出一行

    readlines: 读出所有的行

    close: 关闭URL的连接

    fileno 返回文件句柄

    geturl 返回所打开的真正URL

    info 返回mime头文件

  • 例子:

    >>> a=urllib.urlopen('http://www.bioconductor.org/')
    >>> a.readline
    '<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\n'
    >>> a.fileno
    940L
    >>> a.info <httplib.HTTPMessage instance at 0x0000000003A93288>
    >>> a.geturl
    'http://www.bioconductor.org/'
  • urllib.urlretrieve

    语法: urlretrieve(urlstr,localfile=None,downloadStatusHook=None)

    将html文件下载到本地磁盘中。返回(filename,mime_hdrs) :filename 包含下载数据的本地文件名,mime_hdrs 对web服务器响应后返回的一系列MIME文件头。

  • urllib.qutote

    获取URL数据,并将其编码,从而适用于URL字符中。尤其一些不能被打印的或者不被WEB服务器作为有效URL接收的特殊字符串必须被转换。逗号、下划线、句号、斜线、字母数字不需要转化。

    语法:quote(urldata,safe=’/’) urldata字符串被转换成一个可在URL字符串中使用的等价值,safe字符串可以包含一系列的不能被转换的字符。默认为斜线(/)

  • 例子:

    >>> name = 'joe mama'
    >>> number = 6
    >>> base = 'http://www/~foo/cgi-bin/s.py'
    >>> final = '%s?name=%s&num=%d' %(base,name,number)
    >>> final
    'http://www/~foo/cgi-bin/s.py?name=joe mama&num=6'
    >>> urllib.quote(final)
    'http%3A//www/%7Efoo/cgi-bin/s.py%3Fname%3Djoe%20mama%26num%3D6'
    >>> urllib.quote_plus(final)'http%3A%2F%2Fwww%2F%7Efoo%2Fcgi-bin%2Fs.py%3Fname%3Djoe+mama%26num%3D6'

    总结:功能相似,后者转换更加的全面,还将空格转为+

  • urllib.unquote 与 urllib.unquote_plus 将所有”%xx” 转为ASCII

  • urllib.urlencode

    将字典键值对转为键=值。以连接符&划分

    例子:

    >>> aDict={'name':'Georgina Garcia','hmdir':'~ggarcia'}
    >>> urllib.urlencode(aDict)
    'name=Georgina+Garcia&hmdir=%7Eggarcia'

    ScalersTalkID:scalerstalk

    本微信公众号作者Scalers,游走在口译世界的IT从业者。微信公众号ScalersTalk,微博@Scalers,网站ScalersTalk.com,口译100小时训练计划群C 456036104


    成长会是由Scalers发起的面向成长、实践行动,且凝聚了来自全球各地各行各业从业者的社群。有意入会者请和Scalers直接联系,我和其他会员会和你直接交流关于成长行动等各方面的经验教训。2016年成长会持续招募中,参见做能说会写的持续行动者:ScalersTalk成长会2016年会员计划介绍(2016.3更新)



相关推荐

「layui」表单验证:验证注册

注册界面手动验证获取短信验证码代码原文<!DOCTYPEhtml><htmllang="zh"><head>&...

Full text: Joint statement between China and Kenya on creating an inspiring example in the all-weather China-Africa community with a shared future for the new era

JointStatementBetweenthePeople'sRepublicofChinaandtheRepublicofKenyaonCreatinganInspi...

国际组织最新岗位信息送给你

国际刑警组织PostingTitleITLogisticsManagerGrade5DutyStationAbidjan,IvoryCoastDeadlineforApplicatio...

【新功能】Spire.PDF 8.12.5 支持设置表单域的可见与隐藏属性

Spire.PDF8.12.5已发布。该版本新增支持设置表单域的可见与隐藏属性、添加自定义的元数据以及给PDF文档的元数据添加新的命名空间。本次更新还增强了PDF到DOCX和图片的转换...

AI curbs show Biden&#39;s rejection of cooperation

AIcurbsshowBiden'srejectionofcooperation:ChinaDailyeditorial-Opinion-Chinadaily.com.cnT...

“煤气灯效应”上热搜,这几种有毒的“情感关系”也要注意了……

近日,“煤气灯效应”(theGaslightEffect)再次进入公众视野并登上热搜,引发网友广泛关注。那么,什么是“煤气灯效应”?以“爱”之名进行情绪控制在心理学中,通过“扭曲受害者眼中的真实”...

Qt编写推流程序/支持webrtc265/从此不用再转码/打开新世界的大门

一、前言在推流领域,尤其是监控行业,现在主流设备基本上都是265格式的视频流,想要在网页上直接显示监控流,之前的方案是,要么转成hls,要么魔改支持265格式的flv,要么265转成264,如果要追求...

写给运维的Nginx秘籍

要说Web服务器、代理服务器和调度服务器层面,目前使用最大的要数Nginx。对于一个运维工程师日常不可避免要和Nginx打交道。为了更好地使用和管理Nginx,本文就给大家介绍几个虫虫日常常用的秘籍。...

突破亚马逊壁垒,Web Unlocker API 助您轻松获取数据

在数据驱动决策的时代,电商平台的海量数据是十足金贵的。然而,像亚马逊这样的巨头为保护自身数据资产,构建了近乎完美的反爬虫防线,比如IP封锁、CAPTCHA验证、浏览器指纹识别,常规爬虫工具在这些防线面...

每日一库之 logrus 日志使用教程

golang日志库golang标准库的日志框架非常简单,仅仅提供了print,panic和fatal三个函数对于更精细的日志级别、日志文件分割以及日志分发等方面并没有提供支持.所以催生了很多第三方...

对比测评:为什么AI编程工具需要 Rules 能力?

通义灵码ProjectRules在开始体验通义灵码ProjectRules之前,我们先来简单了解一下什么是通义灵码ProjectRules?大家都知道,在使用AI代码助手的时候,有时...

python 面向对象编程

Python的面向对象编程(OOP)将数据和操作封装在对象中,以下是深度解析和现代最佳实践:一、核心概念重构1.类与实例的底层机制classRobot:__slots__=['...

Windows系统下常用的Dos命令介绍(一)

DOS是英文DiskOperatingSystem的缩写,意思是“磁盘操作系统”。DOS主要是一种面向磁盘的系统软件,说得简单些,DOS就是人给机器下达命令的集合,是存储在操作系统中的命令集。主要...

使用 Flask-Admin 快速开发博客后台管理系统:关键要点解析

一、为什么选择Flask-Admin?Flask-Admin是Flask生态中高效的后台管理框架,核心优势在于:-零代码生成CRUD界面:基于数据库模型自动生成增删改查功能-高度可定制...

Redis淘汰策略导致数据丢失?

想象一下,你的Redis服务器是一个合租宿舍,内存就是床位。当新数据(新室友)要住进来,但床位已满时,你作为宿管(淘汰策略)必须决定:让谁卷铺盖走人?Redis提供了8种"劝退"方案,...