正则表达式。Python正则库中包括一系列的政策表达式,正则表达式是对字符串进行操作的公式,其会用已经概念好的特定字符组成规则字符串,对互联网爬取的重要数据信息进行筛选。 因此借助正则表达式语法,对爬取到的不同内容用特殊元素代替,可以完成对网页关键词、图片、视频等信息的搜索、爬取与剖析。第一进行网页源码、超链接的获得,之后借用于正则表达式,从超链接中筛选出所需要的内容。