Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
Z
zzsn_spider
概览
概览
详情
活动
周期分析
版本库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
统计图
问题
0
议题
0
列表
看板
标记
里程碑
合并请求
1
合并请求
1
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
代码片段
成员
成员
折叠边栏
关闭边栏
活动
图像
聊天
创建新问题
作业
提交
问题看板
Open sidebar
丁双波
zzsn_spider
Commits
baba9e5d
提交
baba9e5d
authored
12月 11, 2023
作者:
薛凌堃
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
政策法规脚本维护
上级
f2ff6737
全部展开
隐藏空白字符变更
内嵌
并排
正在显示
4 个修改的文件
包含
23 行增加
和
14 行删除
+23
-14
BaseCore.py
comData/policylaw/BaseCore.py
+14
-5
gwysasac.py
comData/policylaw/gwysasac.py
+9
-9
ji_lin.py
comData/policylaw/ji_lin.py
+0
-0
tian_jin.py
comData/policylaw/tian_jin.py
+0
-0
没有找到文件。
comData/policylaw/BaseCore.py
浏览文件 @
baba9e5d
...
@@ -505,27 +505,36 @@ class BaseCore:
...
@@ -505,27 +505,36 @@ class BaseCore:
for
i
in
range
(
0
,
3
):
for
i
in
range
(
0
,
3
):
try
:
try
:
response
=
requests
.
get
(
file_href
,
headers
=
headers
,
verify
=
False
,
timeout
=
20
)
response
=
requests
.
get
(
file_href
,
headers
=
headers
,
verify
=
False
,
timeout
=
20
)
file_size
=
int
(
response
.
headers
.
get
(
'Content-Length'
))
break
break
except
:
except
Exception
as
e
:
time
.
sleep
(
3
)
time
.
sleep
(
3
)
if
i
==
2
:
return
retData
continue
continue
try
:
if
response
.
status_code
==
200
:
file_size
=
int
(
response
.
headers
.
get
(
'Content-Length'
))
else
:
return
retData
except
:
file_size
=
''
for
i
in
range
(
0
,
3
):
for
i
in
range
(
0
,
3
):
try
:
try
:
name
=
str
(
self
.
getuuid
())
+
category
name
=
str
(
self
.
getuuid
())
+
category
result
=
obsClient
.
putContent
(
'zzsn'
,
'PolicyDocuments/'
+
name
,
content
=
response
.
content
)
result
=
obsClient
.
putContent
(
'zzsn'
,
'PolicyDocuments/'
+
name
,
content
=
response
.
content
)
break
break
except
:
except
:
time
.
sleep
(
3
)
time
.
sleep
(
3
)
continue
continue
time_now
=
time
.
strftime
(
"
%
Y-
%
m-
%
d
%
H:
%
M:
%
S"
,
time
.
localtime
())
time_now
=
time
.
strftime
(
"
%
Y-
%
m-
%
d
%
H:
%
M:
%
S"
,
time
.
localtime
())
retData
[
'state'
]
=
True
retData
[
'state'
]
=
True
retData
[
'path'
]
=
result
[
'body'
][
'objectUrl'
]
.
split
(
'.com'
)[
1
]
retData
[
'path'
]
=
result
[
'body'
][
'objectUrl'
]
.
split
(
'.com'
)[
1
]
retData
[
'full_path'
]
=
result
[
'body'
][
'objectUrl'
]
retData
[
'full_path'
]
=
result
[
'body'
][
'objectUrl'
]
retData
[
'file_size'
]
=
self
.
convert_size
(
file_size
)
try
:
retData
[
'file_size'
]
=
self
.
convert_size
(
file_size
)
except
:
retData
[
'file_size'
]
=
''
retData
[
'create_time'
]
=
time_now
retData
[
'create_time'
]
=
time_now
return
retData
return
retData
except
Exception
as
e
:
except
Exception
as
e
:
...
...
comData/policylaw/gwysasac.py
浏览文件 @
baba9e5d
...
@@ -34,8 +34,8 @@ def get_content3():
...
@@ -34,8 +34,8 @@ def get_content3():
doc_href
=
soup
.
find
(
'div'
,
class_
=
'zsy_content'
)
doc_href
=
soup
.
find
(
'div'
,
class_
=
'zsy_content'
)
try
:
try
:
org_content
=
doc_href
.
select
(
'.zsy_cotitle'
)[
0
]
org_content
=
doc_href
.
select
(
'.zsy_cotitle'
)[
0
]
org
=
re
.
findall
(
'文章来源:(.*?)发布时间:'
,
org_content
)[
0
]
.
strip
()
org
=
re
.
findall
(
'文章来源:(.*?)发布时间:'
,
str
(
org_content
)
)[
0
]
.
strip
()
except
:
except
Exception
as
e
:
org
=
''
org
=
''
try
:
try
:
contentWithTag
=
doc_href
.
find
(
'div'
,
class_
=
'zsy_comain'
)
contentWithTag
=
doc_href
.
find
(
'div'
,
class_
=
'zsy_comain'
)
...
@@ -103,7 +103,7 @@ def get_content3():
...
@@ -103,7 +103,7 @@ def get_content3():
'id'
:
''
,
#
'id'
:
''
,
#
'labels'
:
[{
'relationId'
:
"1642"
,
'relationName'
:
"国务院国资委"
,
'labelMark'
:
"policy"
}],
'labels'
:
[{
'relationId'
:
"1642"
,
'relationName'
:
"国务院国资委"
,
'labelMark'
:
"policy"
}],
# 关联标签id 关联标签名称 关联标签标识
# 关联标签id 关联标签名称 关联标签标识
'origin'
:
''
,
# 政策发布机关
'origin'
:
org
,
# 政策发布机关
'organ'
:
org
,
# 政策发文机关
'organ'
:
org
,
# 政策发文机关
'topicClassification'
:
''
,
# 政策文件分类
'topicClassification'
:
''
,
# 政策文件分类
'issuedNumber'
:
pub_hao
,
# 发文字号
'issuedNumber'
:
pub_hao
,
# 发文字号
...
@@ -168,10 +168,10 @@ def get_content3():
...
@@ -168,10 +168,10 @@ def get_content3():
href
=
f
'http://www.sasac.gov.cn{href_.replace("../../..", "")}'
href
=
f
'http://www.sasac.gov.cn{href_.replace("../../..", "")}'
# 判断是否已经爬取过
# 判断是否已经爬取过
is_href
=
baseTool
.
db_storage
.
find_one
({
'网址'
:
href
})
is_href
=
baseTool
.
db_storage
.
find_one
({
'网址'
:
href
})
if
is_href
:
#
if is_href:
num
+=
1
#
num += 1
log
.
info
(
'已采集----------跳过'
)
#
log.info('已采集----------跳过')
continue
#
continue
title
=
doc_item
(
'a'
)
.
attr
(
'title'
)
title
=
doc_item
(
'a'
)
.
attr
(
'title'
)
pub_time
=
doc_item
(
'span'
)
.
text
()
.
replace
(
'['
,
''
)
.
replace
(
']'
,
''
)
pub_time
=
doc_item
(
'span'
)
.
text
()
.
replace
(
'['
,
''
)
.
replace
(
']'
,
''
)
except
:
except
:
...
@@ -184,9 +184,9 @@ def get_content3():
...
@@ -184,9 +184,9 @@ def get_content3():
end_time
=
time
.
time
()
end_time
=
time
.
time
()
log
.
info
(
f
'共抓取国资委文件{count}条数据,耗时{end_time - start_time}'
)
log
.
info
(
f
'共抓取国资委文件{count}条数据,耗时{end_time - start_time}'
)
#
partOne()
partOne
()
# 增量执行需要注释掉partTwo()
# 增量执行需要注释掉partTwo()
partTwo
()
#
partTwo()
if
__name__
==
"__main__"
:
if
__name__
==
"__main__"
:
...
...
comData/policylaw/ji_lin.py
0 → 100644
浏览文件 @
baba9e5d
差异被折叠。
点击展开。
comData/policylaw/tian_jin.py
0 → 100644
浏览文件 @
baba9e5d
差异被折叠。
点击展开。
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论