提交 6e34ed73 作者: 薛凌堃

政策法规脚本维护

上级 6a49a9de
import os import os
...@@ -963,11 +963,11 @@ def guizhou(): ...@@ -963,11 +963,11 @@ def guizhou():
if __name__=="__main__": if __name__=="__main__":
# file_path = f'data/REITs贵州省人民政府.xlsx' # file_path = f'data/REITs贵州省人民政府.xlsx'
# wb = policy.createfile(file_path) # wb = policy.createfile(file_path)
# reform() reform()
# shenzhen() # shenzhen()
# zhengquanqihuo() zhengquanqihuo()
# sse() sse()
hebei() hebei()
# guizhou() guizhou()
# zhengquanqihuo() # zhengquanqihuo()
\ No newline at end of file
...@@ -122,8 +122,11 @@ def get_content1(): ...@@ -122,8 +122,11 @@ def get_content1():
child_type = source.split('<td class="w340 zcwj_ztfl">')[1].split('</td>')[0] # 主题分类 child_type = source.split('<td class="w340 zcwj_ztfl">')[1].split('</td>')[0] # 主题分类
contentWithTag = i_soup.find('div', class_='wrap mxxgkwrap mxxgkwrap_gwywj').find('table', contentWithTag = i_soup.find('div', class_='wrap mxxgkwrap mxxgkwrap_gwywj').find('table',
class_='border-table noneBorder pages_content') class_='border-table noneBorder pages_content')
# 去除扫一扫 try:
contentWithTag.find('div', attrs={'id': 'div_div'}).decompose() # 去除扫一扫
contentWithTag.find('div', attrs={'id': 'div_div'}).decompose()
except:
pass
content = contentWithTag.text # 不带标签正文 content = contentWithTag.text # 不带标签正文
fu_jian_soup = contentWithTag.find_all('a') fu_jian_soup = contentWithTag.find_all('a')
time.sleep(0.5) time.sleep(0.5)
......
...@@ -44,7 +44,9 @@ def get_content2(): ...@@ -44,7 +44,9 @@ def get_content2():
start_time = time.time() start_time = time.time()
num = 0 num = 0
count = 0 count = 0
result_list = ['外交部', '国家发展和改革委员会', '教育部', '科学技术部', '工业和信息化部', '国家民族事务委员会', '公安部', '国家安全部', '民政部', '司法部', '财政部', result_list = [
'外交部', '国家发展和改革委员会', '教育部', '科学技术部',
'工业和信息化部', '国家民族事务委员会', '公安部', '国家安全部', '民政部', '司法部', '财政部',
'人力资源和社会保障部', '自然资源部', '生态环境部', '住房和城乡建设部', '交通运输部', '水利部', '农业农村部', '商务部', '文化和旅游部', '人力资源和社会保障部', '自然资源部', '生态环境部', '住房和城乡建设部', '交通运输部', '水利部', '农业农村部', '商务部', '文化和旅游部',
'国家卫生健康委员会', '国家卫生健康委员会',
'退役军人事务部', '退役军人事务部',
...@@ -55,7 +57,8 @@ def get_content2(): ...@@ -55,7 +57,8 @@ def get_content2():
'中国科学院', '中国科学院',
'中国社会科学院', '中国工程院', '中国气象局', '中国银行保险监督管理委员会', '中国证券监督管理委员会', '国家粮食和物资储备局', '国家能源局', '国家国防科技工业局', '中国社会科学院', '中国工程院', '中国气象局', '中国银行保险监督管理委员会', '中国证券监督管理委员会', '国家粮食和物资储备局', '国家能源局', '国家国防科技工业局',
'国家烟草专卖局', '国家烟草专卖局',
'国家移民管理局', '国家林业和草原局', '国家铁路局', '中国民用航空局', '国家邮政局', '国家文物局', '国家中医药管理局', '国家矿山安全监察局', '国家外汇管理局', '国家移民管理局', '国家林业和草原局', '国家铁路局', '中国民用航空局',
'国家邮政局', '国家文物局', '国家中医药管理局', '国家矿山安全监察局', '国家外汇管理局',
'国家药品监督管理局', '国家药品监督管理局',
'国家知识产权局', '国家档案局', '国家保密局', '国家密码管理局', '国家宗教事务局', '国务院台湾事务办公室', '国家乡村振兴局', '国家电影局'] '国家知识产权局', '国家档案局', '国家保密局', '国家密码管理局', '国家宗教事务局', '国务院台湾事务办公室', '国家乡村振兴局', '国家电影局']
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论