提交 16d20518 作者: 薛凌堃

政策法规脚本维护

上级 baba9e5d
...@@ -168,10 +168,10 @@ def get_content3(): ...@@ -168,10 +168,10 @@ def get_content3():
href = f'http://www.sasac.gov.cn{href_.replace("../../..", "")}' href = f'http://www.sasac.gov.cn{href_.replace("../../..", "")}'
# 判断是否已经爬取过 # 判断是否已经爬取过
is_href = baseTool.db_storage.find_one({'网址': href}) is_href = baseTool.db_storage.find_one({'网址': href})
# if is_href: if is_href:
# num += 1 num += 1
# log.info('已采集----------跳过') log.info('已采集----------跳过')
# continue continue
title = doc_item('a').attr('title') title = doc_item('a').attr('title')
pub_time = doc_item('span').text().replace('[', '').replace(']', '') pub_time = doc_item('span').text().replace('[', '').replace(']', '')
except: except:
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论