提交 16d20518 作者: 薛凌堃

政策法规脚本维护

上级 baba9e5d
......@@ -168,10 +168,10 @@ def get_content3():
href = f'http://www.sasac.gov.cn{href_.replace("../../..", "")}'
# 判断是否已经爬取过
is_href = baseTool.db_storage.find_one({'网址': href})
# if is_href:
# num += 1
# log.info('已采集----------跳过')
# continue
if is_href:
num += 1
log.info('已采集----------跳过')
continue
title = doc_item('a').attr('title')
pub_time = doc_item('span').text().replace('[', '').replace(']', '')
except:
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论