Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
Z
zzsn_spider
概览
概览
详情
活动
周期分析
版本库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
统计图
问题
0
议题
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
代码片段
成员
成员
折叠边栏
关闭边栏
活动
图像
聊天
创建新问题
作业
提交
问题看板
Open sidebar
王景浩
zzsn_spider
Commits
8da2fe7c
提交
8da2fe7c
authored
4月 17, 2024
作者:
XveLingKun
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
华尔街日报多个信息源采集
上级
0ef8e52c
隐藏空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
42 行增加
和
7 行删除
+42
-7
wsj-TECH.py
comData/dingzhi/wsj-TECH.py
+8
-1
wsj_detail.py
comData/dingzhi/wsj_detail.py
+34
-6
没有找到文件。
comData/dingzhi/wsj-TECH.py
浏览文件 @
8da2fe7c
...
...
@@ -107,7 +107,7 @@ def get_newshref(key, url):
def
caiji
():
redis_client
=
redis
.
Redis
(
host
=
'114.116.90.53'
,
port
=
6380
,
password
=
'clbzzsn'
,
db
=
6
)
key
=
'WSJ:NewsInfo'
url_list
=
[
'https://cn.wsj.com/'
,
'https://cn.wsj.com/zh-hans/news/world?mod=nav_top_section'
,
'https://cn.wsj.com/zh-hans/news/china?mod=nav_top_section'
,
...
...
@@ -118,18 +118,25 @@ def caiji():
for
url
in
url_list
:
if
url
==
'https://cn.wsj.com/'
:
print
(
'正在采集WSJ首页...'
)
key
=
'WSJ:NewsInfo_sy'
elif
url
==
'https://cn.wsj.com/zh-hans/news/world?mod=nav_top_section'
:
print
(
'正在采集WSJ国际新闻...'
)
key
=
'WSJ:NewsInfo_world'
elif
url
==
'https://cn.wsj.com/zh-hans/news/china?mod=nav_top_section'
:
print
(
'正在采集WSJ中国新闻...'
)
key
=
'WSJ:NewsInfo_china'
elif
url
==
'https://cn.wsj.com/zh-hans/news/markets?mod=nav_top_section'
:
print
(
'正在采集WSJ金融市场...'
)
key
=
'WSJ:NewsInfo_markets'
elif
url
==
'https://cn.wsj.com/zh-hans/news/economy?mod=nav_top_section'
:
print
(
'正在采集WSJ经济新闻...'
)
key
=
'WSJ:NewsInfo_economy'
elif
url
==
'https://cn.wsj.com/zh-hans/news/business?mod=nav_top_section'
:
print
(
'正在采集WSJ商业新闻...'
)
key
=
'WSJ:NewsInfo_business'
else
:
print
(
'正在采集WSJ科技新闻...'
)
key
=
'WSJ:NewsInfo'
news_list
,
driver
=
get_newshref
(
key
,
url
)
# #todo:将获取到的列表全部放进redis等待
#
...
...
comData/dingzhi/wsj_detail.py
浏览文件 @
8da2fe7c
...
...
@@ -83,16 +83,46 @@ def getData(key):
keys
=
r
.
scan_iter
(
f
"{key}*"
)
for
key
in
keys
:
if
'WSJ:NewsInfo_sy'
in
key
.
decode
():
sid
=
'1780483604239781890'
info_code
=
"IN-20240417-0078"
origin
=
"华尔街日报中文网-首页"
elif
"WSJ:NewsInfo_world"
in
key
.
decode
():
sid
=
'1780484012605607937'
info_code
=
"IN-20240417-0081"
origin
=
"华尔街日报中文网-国际"
elif
"WSJ:NewsInfo_china"
in
key
.
decode
():
sid
=
'1780484750069108737'
info_code
=
"IN-20240417-0084"
origin
=
"华尔街日报中文网-中国"
elif
"WSJ:NewsInfo_markets"
in
key
.
decode
():
sid
=
'1780489030450884609'
info_code
=
"IN-20240417-0085"
origin
=
"华尔街日报中文网-金融市场"
elif
"WSJ:NewsInfo_economy"
in
key
.
decode
():
sid
=
'1780489531269484545'
info_code
=
"IN-20240417-0086"
origin
=
"华尔街日报中文网-经济"
elif
"WSJ:NewsInfo_business"
in
key
.
decode
():
sid
=
'1780489708428496897'
info_code
=
"IN-20240417-0087"
origin
=
"华尔街日报中文网-商业"
else
:
sid
=
'1775455062911447042'
info_code
=
"IN-20240403-0041"
origin
=
"华尔街日报中文网-科技"
fields
=
r
.
hgetall
(
key
)
decode_fields
=
{
k
.
decode
():
v
.
decode
()
for
k
,
v
in
fields
.
items
()}
# 获取一条信息
#
r.delete(key)
#
print(f"删除成功{key}")
r
.
delete
(
key
)
print
(
f
"删除成功{key}"
)
newsUrl
=
decode_fields
[
'newsUrl'
]
# todo: 判断是否已采集
try
:
flag
=
r_2
.
sismember
(
'IN-20240403-0041'
,
newsUrl
)
flag
=
r_2
.
sismember
(
info_code
,
newsUrl
)
if
flag
:
log
.
info
(
'信息已采集入库过'
)
continue
...
...
@@ -102,15 +132,13 @@ def getData(key):
title
=
decode_fields
[
'title'
]
summary
=
decode_fields
[
'summary'
]
# todo:发送kafka
sid
=
'1775455062911447042'
info_code
=
"IN-20240403-0041"
dic_news
=
{
'content'
:
''
,
'contentWithTag'
:
''
,
'id'
:
''
,
'summary'
:
summary
,
'origin'
:
'华尔街日报中文网-科技'
,
'origin'
:
origin
,
'publishDate'
:
publishDate
,
'sid'
:
sid
,
'sourceAddress'
:
newsUrl
,
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论