这篇文章主要是将请求下来的数据,进行数据分析,并且进行存储

数据解析

数据的分类

  1. 结构化数据

    特点 :有固定的格式,如:HTML、XML、JSON

  2. 非结构化数据

    示例 :图片、音频、视频,这类数据一般存储为二进制

正则表达式 re

使用流程

1、创建编译对象 :p = re.compile('正则表达式')
2、对字符串匹配 :r = p.match("字符串")
3、获取匹配结果 :print(r.group())

常用方法

  1. match(s) : 字符串开头的第1个,返回对象
  2. search(s): 从开始往后找,匹配第1个满足的,返回对象
  3. findall(s):所有全部匹配,返回一个列表

表达式

字符 含义
. 任意字符(不包括\n)
\d 数字
\s 空白字符
\S 非空白字符
[...] 包含[]内容 A[BCD]E -> ABE ACE ABCE
\w 字母、数字、_
* 0次或n次
0次或1次
+ 1次或n次

贪婪匹配和非贪婪匹配

贪婪匹配(.*): 在整个表达式匹配成功的前提下,尽可能多的匹配

非贪婪匹配(.*?) : 在整个表达式匹配成功的前提下,尽可能少的匹配

re.S 让 . 能够匹配\n在内的所有字符