ython超简单爬虫教程ython超简单爬虫教程七大步骤:1发送数据请求2请求网站源码3数据筛选4存储数据5数据可视化6数据分析7公司决策
ython超简单爬虫教程
大家好!在这里给大家交流一下小编总结得ython超简单爬虫教程,废话不多说,直接上代码
七大步骤:
1发送数据请求
2请求网站源码
3数据筛选
4存储数据
5数据可视化
6数据分析
7公司决策
完整代码如下:
imortquest
imort
imortxlwt
#获取源码
defget_content(age):
url='htts:www.zhiin.comc101010100-100109?age='+str(age)+'&am;ka=age-'+str(age)+''
headers={
"user-agent":"Mozilla5.0(WindowsNT10.0;WOW64)AleWebKit537.36(KHTML,keGecko)Chrome63.0.3239.26Safari537.36Co1.63.6788.400QQBrowser10.3.2727.400"
}
q=quest.get(url,headers=headers)
q.encoding='utf-8'
html=q.text
turnhtml
#筛选数据获取满足正则表达式所爬去的目标
defget(html):
g=.comile(r'class="job-tab".*?<divclass="job-title">(.*?)<>.*?<class="d">(.*?)<>.*?target="_blank">(.*?)<>',.S)
item=.findall(g,html)
turnitems
datast=[]
defsaveDataToDatast():
forjinrange(1,6)
rint('正在爬取第'+str(j)+'页数据内容。。。')
htmlget_content(j)
foriinget(html)
data=[]
forjinrange(0,5):
data.aend(i[j])
datast.aend(data)
turn
#创建方法将datast内容写入excel文件
defsaveDataToExcel(savePath):
book=xlwt.Workbook(encoding='utf-8',style_comssion=0)
sheet=book.add_sheet('boss',cell_overwrite_ok=Tu)
col=('职位','薪资','公司名称')
foriinrange(0,5)
sheet.wirte(0,i,col[i])
foriinrange(0,len(0,len(datast)):
data=datast[i]
forjinrange(0,5):
sheet.wirte(i+1,j,data[j])
book.save(savePath)
saveDataToDatast()
saveDataToExcel('boss.xls')
就这样了,都看到这里了,点赞关注走一走吧,谢谢大家!
下一篇 Scrapy爬虫框架学习视频教程