关于 Python 爬虫知识

python 爬虫其实是爬取线上互联网上的网页并且对于网页上的资讯进行分析从而提取出有用的资讯,我们需要的 python 模组有 urllib 库和 BeautifulSoup 模组

关于 Python 爬虫知识

BeautifulSoup 模组的安装

pip install BeautifulSoup 4 等它安装完成即可

并在.py 档案下呼叫 from bs4 import BeautifulSoup 进行呼叫

开始使用 BeautifulSoup 4 之前需要进行初始化我们建立一个 BeautifulSoup 4 的物件 soup

souphtml = open(‘soup.html’,‘rb’)##开启实现已经储存好的 html 页面

html = BHhtml.read()#读取

Soup=BeautifulSoup(html,“html.parser”)##html 是指需要分析的页面

利用 find_all 函式查询对应的页面上的 class 元素

Souptag = bs.find_all(class_=“#这里填写需要查询的 class 元素”)

如果有多个元素可以使用 for 执行进行多次查询,而且如果是有多个 class 元素可以进行多次查询

例如:

number = len(Soupag)#获取对应的 class 的个数

for imit in range(number): #第一层回圈

Suopli=Souptag[imit].find_all(‘这里填写需要查询的函式’)

如果需要获取标签内的资料,但是里面存著空格可以使用 text.strip().replace(‘ ’, ‘’)将空格剔除

完整程式码如下:

Suophtml = open(py_html,‘rb’)#py_html 开启需要爬虫的页面

html = Suophtml.read()#字串传入 python,为什么我们需要将页面先爬取下来再分析呢,这样有助于进行多执行绪操作

bs = BeautifulSoup(html,“html.parser”)#传入 BeautifulSoup

Suoptag = bs.find_all(class_=py_html_class)#查询页面上需要爬取的 class

number = len(Suoptag)#获取对应的 class 的个数

for imit in range(number): #第一层回圈

Suopli = Suoptag[imit].find_all(‘li’)#这里是需要查询的 class 里面的元素

number2 = len(Suopli)#这里是获取 class 元素里面的个数

for imit2 in range(number2): #进行第二次回圈

print(imit2)列印获取要的资料

更多关于 phyton 爬虫相关的内容可以参考了解 html 程式语言的基础入门。

此文由“快兔兔AI采集器”自动生成,目的为演示采集器效果,若侵权请及时联系删除。

原文链接:https://mu.weixiaoduo.com/post/21031

更多内容