提交 519c0609 作者: 薛凌堃

daideliangxing

上级 4f718511
import re
import re
......@@ -88,34 +88,9 @@ def doJob():
log.error(f'第{page}页==={name}===连接失败')
continue
title = name.replace('/',' ').replace('|',' ').replace('?',' ').replace('"','”')
file = f'./研究咨询/戴德梁兴/行业视角-研究报告/{title}.pdf'
num_ = 2
while True:
flg = os.path.isfile(file)
if flg:
log.info(f'{name}===有重名')
title_ = f'{title}-{num_}'
file = f'./研究咨询/戴德梁兴/行业视角-研究报告/{title_}.pdf'
num_ += 1
else:
try:
title = title_
except:
pass
break
try:
with open(file, 'wb') as f:
f.write(content)
log.info(f'{name}===成功')
fjtitle_list += title + '\n'
fjhref_list += href + '\n'
data = [num, name, origin, href, summary, fjtitle_list, fjhref_list]
data_list.append(data)
except:
log.error(f'第{page}页==={name}===保存失败')
df = pd.DataFrame(np.array(data_list))
df.columns = ['序号', '标题', '来源', '原文链接', '摘要', '附件名称', '附件连接']
df.to_excel('./研究咨询/戴德梁兴/行业视角-研究报告.xlsx', index=False)
if __name__ == '__main__':
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论