python 爬虫其实是爬取线上互联网上的网页并且对于网页上的资讯进行分析从而提取出有用的资讯,我们需要的 python 模组有 urllib 库和 BeautifulSoup 模组
关于 Python 爬虫知识
BeautifulSoup 模组的安装
pip install BeautifulSoup 4 等它安装完成即可
并在.py 档案下呼叫 from bs4 import BeautifulSoup 进行呼叫
开始使用 BeautifulSoup 4 之前需要进行初始化我们建立一个 BeautifulSoup 4 的物件 soup
souphtml = open(‘soup.html’,‘rb’)##开启实现已经储存好的 html 页面
html = BHhtml.read()#读取
Soup=BeautifulSoup(html,“html.parser”)##html 是指需要分析的页面
利用 find_all 函式查询对应的页面上的 class 元素
Souptag = bs.find_all(class_=“#这里填写需要查询的 class 元素”)
如果有多个元素可以使用 for 执行进行多次查询,而且如果是有多个 class 元素可以进行多次查询
例如:
number = len(Soupag)#获取对应的 class 的个数
for imit in range(number): #第一层回圈
Suopli=Souptag[imit].find_all(‘这里填写需要查询的函式’)
如果需要获取标签内的资料,但是里面存著空格可以使用 text.strip().replace(‘ ’, ‘’)将空格剔除
完整程式码如下:
Suophtml = open(py_html,‘rb’)#py_html 开启需要爬虫的页面
html = Suophtml.read()#字串传入 python,为什么我们需要将页面先爬取下来再分析呢,这样有助于进行多执行绪操作
bs = BeautifulSoup(html,“html.parser”)#传入 BeautifulSoup
Suoptag = bs.find_all(class_=py_html_class)#查询页面上需要爬取的 class
number = len(Suoptag)#获取对应的 class 的个数
for imit in range(number): #第一层回圈
Suopli = Suoptag[imit].find_all(‘li’)#这里是需要查询的 class 里面的元素
number2 = len(Suopli)#这里是获取 class 元素里面的个数
for imit2 in range(number2): #进行第二次回圈
print(imit2)列印获取要的资料
更多关于 phyton 爬虫相关的内容可以参考了解 html 程式语言的基础入门。
原文链接:https://mu.weixiaoduo.com/post/21031