Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
Z
zzsn_spider
概览
概览
详情
活动
周期分析
版本库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
统计图
问题
0
议题
0
列表
看板
标记
里程碑
合并请求
1
合并请求
1
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
代码片段
成员
成员
折叠边栏
关闭边栏
活动
图像
聊天
创建新问题
作业
提交
问题看板
Open sidebar
丁双波
zzsn_spider
Commits
e87f42c5
提交
e87f42c5
authored
11月 02, 2023
作者:
薛凌堃
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
年报
上级
637feb1a
显示空白字符变更
内嵌
并排
正在显示
3 个修改的文件
包含
16 行增加
和
16 行删除
+16
-16
fbs_annualreport.py
comData/annualReport/fbs_annualreport.py
+11
-11
report.py
comData/annualReport1014/report.py
+4
-4
report1.py
comData/annualReport1014/report1.py
+1
-1
没有找到文件。
comData/annualReport/fbs_annualreport.py
浏览文件 @
e87f42c5
...
@@ -58,22 +58,22 @@ if __name__ == '__main__':
...
@@ -58,22 +58,22 @@ if __name__ == '__main__':
'Accept-Encoding'
:
'gzip, deflate, br'
,
'Accept-Encoding'
:
'gzip, deflate, br'
,
'Accept-Language'
:
'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6'
,
'Accept-Language'
:
'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6'
,
}
}
query
=
"SELECT * FROM clb_sys_attachment WHERE type_id=1 AND
source='证监会' AND id = '18703822757'
"
query
=
"SELECT * FROM clb_sys_attachment WHERE type_id=1 AND
create_time >= '2023-10-27' AND create_time <= '2023-10-28' AND source like '
%
官网'
"
cursor_
.
execute
(
query
)
cursor_
.
execute
(
query
)
results
=
cursor_
.
fetchall
()
results
=
cursor_
.
fetchall
()
for
result
in
results
:
for
result
in
results
:
att_id
=
result
[
0
]
att_id
=
result
[
0
]
name
=
result
[
1
]
name
=
result
[
1
]
source
=
result
[
18
]
social_code
=
result
[
3
]
social_code
=
result
[
3
]
selectcom
=
f
"select * from EnterpriseInfo where SocialCode = '{social_code}'"
#
selectcom = f"select * from EnterpriseInfo where SocialCode = '{social_code}'"
cursor
.
execute
(
selectcom
)
#
cursor.execute(selectcom)
selects
=
cursor
.
fetchone
()
#
selects = cursor.fetchone()
com_name
=
selects
[
4
]
#
com_name = selects[4]
if
com_name
:
#
if com_name:
pass
#
pass
else
:
#
else:
com_name
=
selects
[
1
]
#
com_name = selects[1]
full_path
=
'http://zzsn.luyuen.com/'
+
result
[
19
]
full_path
=
'http://zzsn.luyuen.com/'
+
result
[
19
]
year
=
result
[
9
]
year
=
result
[
9
]
create_time
=
result
[
13
]
create_time
=
result
[
13
]
...
@@ -103,7 +103,7 @@ if __name__ == '__main__':
...
@@ -103,7 +103,7 @@ if __name__ == '__main__':
'id'
:
''
,
'id'
:
''
,
'keyWords'
:
''
,
'keyWords'
:
''
,
'lang'
:
detect_language
,
'lang'
:
detect_language
,
'origin'
:
'证监会'
,
'origin'
:
source
,
# 'origin': '雪球网',
# 'origin': '雪球网',
'publishDate'
:
publish
,
'publishDate'
:
publish
,
'sid'
:
'1684032033495392257'
,
'sid'
:
'1684032033495392257'
,
...
...
comData/annualReport1014/report.py
浏览文件 @
e87f42c5
...
@@ -29,7 +29,7 @@ type_id = 1
...
@@ -29,7 +29,7 @@ type_id = 1
create_by
=
'XueLingKun'
create_by
=
'XueLingKun'
taskType
=
'企业年报'
taskType
=
'企业年报'
file_path
=
'D:
\\
年报
\\
欧盟记分牌2500_年报补充_718_20231018
'
file_path
=
'D:
\\
年报
\\
福布斯2000年报PDF下载-207
'
log
.
info
(
f
'=============当前pid为{baseCore.getPID()}=============='
)
log
.
info
(
f
'=============当前pid为{baseCore.getPID()}=============='
)
def
sendKafka
(
dic_news
):
def
sendKafka
(
dic_news
):
...
@@ -146,9 +146,9 @@ if __name__=='__main__':
...
@@ -146,9 +146,9 @@ if __name__=='__main__':
social_code
=
data
[
1
]
social_code
=
data
[
1
]
ename
=
data
[
2
]
ename
=
data
[
2
]
cname
=
data
[
3
]
cname
=
data
[
3
]
file_name
=
e
name
+
':'
+
file_year
+
'年年度报告'
+
'.pdf'
file_name
=
c
name
+
':'
+
file_year
+
'年年度报告'
+
'.pdf'
content
=
''
content
=
''
origin
=
e
name
+
'官网'
origin
=
c
name
+
'官网'
#解析文件页数和内容
#解析文件页数和内容
log
.
info
(
f
"-----------正在处理{file_name}--------------"
)
log
.
info
(
f
"-----------正在处理{file_name}--------------"
)
with
open
(
pdf_path
,
'rb'
)
as
file
:
with
open
(
pdf_path
,
'rb'
)
as
file
:
...
@@ -178,7 +178,7 @@ if __name__=='__main__':
...
@@ -178,7 +178,7 @@ if __name__=='__main__':
retData_f
=
uptoOBS
(
retData
,
pathType
,
taskType
,
start_time
,
file_name
,
pdf_path
)
retData_f
=
uptoOBS
(
retData
,
pathType
,
taskType
,
start_time
,
file_name
,
pdf_path
)
if
retData_f
[
'state'
]:
if
retData_f
[
'state'
]:
#retData, com_name, year, pdf_name, num, pub_time
#retData, com_name, year, pdf_name, num, pub_time
att_id
=
baseCore
.
tableUpdate
(
retData_f
,
cname
,
file_year
,
file_name
,
num
,
file_year
+
'-12-31'
,
origin
)
att_id
=
baseCore
.
tableUpdate
(
retData_f
,
file_year
,
file_name
,
num
,
file_year
+
'-12-31'
,
origin
)
if
att_id
:
if
att_id
:
detect_language
=
baseCore
.
detect_language
(
content
)
detect_language
=
baseCore
.
detect_language
(
content
)
dic_news
=
{
dic_news
=
{
...
...
comData/annualReport1014/report1.py
浏览文件 @
e87f42c5
...
@@ -211,7 +211,7 @@ if __name__=='__main__':
...
@@ -211,7 +211,7 @@ if __name__=='__main__':
'sid'
:
'1684032033495392257'
,
'sid'
:
'1684032033495392257'
,
'sourceAddress'
:
''
,
# 原文链接
'sourceAddress'
:
''
,
# 原文链接
'summary'
:
''
,
'summary'
:
''
,
'title'
:
file_name
,
'title'
:
file_name
.
replace
(
'.pdf'
,
''
)
,
'type'
:
1
,
'type'
:
1
,
'socialCreditCode'
:
social_code
,
'socialCreditCode'
:
social_code
,
'year'
:
file_year
'year'
:
file_year
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论