精易论坛
标题:
pyhon通用框架,爬虫,正则,文本读写
[打印本页]
作者:
xuehang00126
时间:
2018-12-31 22:05
标题:
pyhon通用框架,爬虫,正则,文本读写
本帖最后由 xuehang00126 于 2018-12-31 22:09 编辑
re.正则单个查找框架
import
re #导入re模块
def
zz_cz_dg
(
cz_nr
)
:
#正则查找视频地址
re_gz
=
'</a></li><li><a href="/Html/(.*?).html"'
#查找规则
re_jx_nr
=
re.search
(
re_gz,cz_nr
)
#正则查找方法
return
re_jx_nr.group
(
1
)
#返回查找内容
re.正则批量查找框架
import
re
def
zz_cz_lb
(
cz_nr
)
:
#正则查找视频地址
re_gz
=
'</a></li><li><a href="/Html/(.*?).html"'
#查找规则
re_jx_nr
=
re.findall
(
re_gz,cz_nr
)
#正则查找方法返回列表
return
re_jx_nr #返回查找内容,列表方式
requests.get访问框架
import
requests
def
html_get
(
wy_dz
)
:
#网页访问
r
=
requests.get
(
wy_dz
)
#get方法访问网页,获取源码
r.encoding
=
r.apparent_encoding #utf-8编码
wy_nr
=
r.text #赋值变量保存
return
wy_nr #返回保存网页内容
下载图片框架
import
requests
def
picture
(
url,name
)
:
html
=
requests.get
(
url
)
#访问图片地址
address
=
"D:
\\
图片
\\
"
+
str
(
name
)
+
".jpg"
#本地图片下载路径
with
open
(
address,
"wb"
)
as
f
:
#保存图片
f.write
(
html.content
)
print
(
address,
'
下载完成
'
)
读取文件框架
def
Read_the_file
(
Text_address
)
:
with
open
(
Text_address
)
as
f
:
#Full_text=f.read() #读取全部文本为文本格式
Full_text_list
=
f.readlines
()
#读取全部文本为列表格式
f.close
()
return
Full_text_list
写入文件框架
def
Written_to_the_file
(
Text_address,Write_content
)
:
with
open
(
Text_address,
"a"
)
as
f
:
f.write
(
Write_content
+
"
\n
"
)
#尾行写入文件
f.close
()
自己用的爬虫框架,觉的用的还行,分享下。
欢迎光临 精易论坛 (https://125.confly.eu.org/)
Powered by Discuz! X3.4