urllib在Python2.x中内置的库是urllib和urllib2,在Python3.x中合并为urllib库。
urllib是系统内置库,提供了一系列用于操作URL的功能。
urllib提供的功能就是利用程序去执行各种HTTP请求。如果要模拟浏览器完成特定功能,需要把请求伪装成浏览器。伪装的方法是先监控浏览器发出的请求,再根据浏览器的请求头来伪装,User-Agent头就是用来标识浏览器的。
可以非常方便地抓取URL内容,也就是发送一个GET请求到指定的页面,然后返回HTTP的响应:
urllib.request.urlopen("URL")
作用 :向网站发起1个请求并获取响应
字节流 = res.read()
字符串 = res.read().decode("utf-8")
encode() : 字符串 转为 字节流
decode() : 字节流 转为 字符串
重构User-Agent
urlopen()不支持重构User-Agent
支持重构User-Agent