Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
Z
zzsn_spider
概览
概览
详情
活动
周期分析
版本库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
统计图
问题
0
议题
0
列表
看板
标记
里程碑
合并请求
1
合并请求
1
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
代码片段
成员
成员
折叠边栏
关闭边栏
活动
图像
聊天
创建新问题
作业
提交
问题看板
Open sidebar
丁双波
zzsn_spider
Commits
845ae514
提交
845ae514
authored
8月 21, 2023
作者:
刘伟刚
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
百度采集修改3
上级
ed571f70
隐藏空白字符变更
内嵌
并排
正在显示
3 个修改的文件
包含
15 行增加
和
34 行删除
+15
-34
baiduSpider.py
百度采集/baidu_comm/baiduSpider.py
+9
-9
baidutaskJob_loc.py
百度采集/baidu_comm/baidutaskJob_loc.py
+2
-24
requirements.txt
百度采集/baidu_comm/requirements.txt
+4
-1
没有找到文件。
百度采集/baidu_comm/baiduSpider.py
浏览文件 @
845ae514
#codi
ng=utf-8
#codi
ng=utf-8
...
...
@@ -266,13 +266,13 @@ class BaiduSpider(object):
break
for
detail
in
lists
:
publishTag
=
detail
[
'publishTag'
]
if
publishTag
:
pubtime
=
datetime
.
datetime
.
strptime
(
publishTag
,
"
%
Y-
%
m-
%
d
%
H:
%
M:
%
S"
)
needDate
=
'2022-01-01 00:00:00'
needTime
=
datetime
.
datetime
.
strptime
(
needDate
,
"
%
Y-
%
m-
%
d
%
H:
%
M:
%
S"
)
if
pubtime
<
needTime
:
timeFlag
=
True
break
#
if publishTag:
#
pubtime = datetime.datetime.strptime(publishTag, "%Y-%m-%d %H:%M:%S")
#
needDate='2022-01-01 00:00:00'
#
needTime = datetime.datetime.strptime(needDate, "%Y-%m-%d %H:%M:%S")
#
if pubtime < needTime:
#
timeFlag = True
#
break
is_member
=
self
.
r
.
sismember
(
'pybaidu_baidu_'
+
self
.
wordsCode
,
durl
)
if
is_member
:
continue
...
...
@@ -398,7 +398,7 @@ class BaiduSpider(object):
processitem
=
self
.
getProcessitem
(
bdetail
)
try
:
self
.
sendkafka
(
processitem
)
self
.
r
.
sadd
(
'pybaidu_
test
_'
+
self
.
wordsCode
,
processitem
[
'sourceAddress'
])
self
.
r
.
sadd
(
'pybaidu_
baidu
_'
+
self
.
wordsCode
,
processitem
[
'sourceAddress'
])
except
Exception
as
e
:
self
.
logger
.
info
(
"放入kafka失败!"
)
#插入数据库
...
...
百度采集/baidu_comm/baidutaskJob_loc.py
浏览文件 @
845ae514
# -*-
coding: utf-8 -*-
# -*-
coding: utf-8 -*-
...
...
@@ -190,29 +190,7 @@ if __name__ == '__main__':
while
True
:
try
:
codeList
=
[]
codeList
.
append
(
'KW-20221114-0007'
)
codeList
.
append
(
'KW-20221114-0006'
)
codeList
.
append
(
'KW-20221114-0005'
)
codeList
.
append
(
'KW-20221114-0009'
)
codeList
.
append
(
'KW-20221114-0011'
)
codeList
.
append
(
'KW-20221114-0012'
)
codeList
.
append
(
'KW-20221114-0013'
)
codeList
.
append
(
'KW-20221114-0014'
)
codeList
.
append
(
'KW-20221114-0018'
)
codeList
.
append
(
'KW-20221213-0006'
)
codeList
.
append
(
'KW-20221114-0008'
)
codeList
.
append
(
'KW-20221114-0015'
)
codeList
.
append
(
'KW-20221114-0016'
)
codeList
.
append
(
'KW-20221114-0017'
)
codeList
.
append
(
'KW-20221114-0019'
)
codeList
.
append
(
'KW-20221114-0022'
)
codeList
.
append
(
'KW-20221114-0023'
)
codeList
.
append
(
'KW-20221114-0024'
)
codeList
.
append
(
'KW-20221114-0025'
)
codeList
.
append
(
'KW-20221114-0026'
)
codeList
.
append
(
'KW-20221114-0027'
)
codeList
.
append
(
'KW-20221114-0020'
)
codeList
.
append
(
'KW-20221114-0021'
)
codeList
.
append
(
'KW-20230818-0003'
)
for
codeid
in
codeList
:
try
:
# keymsg=baiduTaskJob.getkafka()
...
...
百度采集/baidu_comm/requirements.txt
浏览文件 @
845ae514
...
...
@@ -12,6 +12,9 @@ pip install tqdm -i https://pypi.douban.com/simple
pip install goose3 -i https://mirrors.aliyun.com/pypi/simple
pip install Beautifulsoup4 -i https://mirrors.aliyun.com/pypi/simple
pip install langid -i https://mirrors.aliyun.com/pypi/simple/
pip install jieba -i https://mirrors.aliyun.com/pypi/simple
selenium==3.141.0
selenium-wire==5.1.0
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论