Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
Z
zzsn_spider
概览
概览
详情
活动
周期分析
版本库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
统计图
问题
0
议题
0
列表
看板
标记
里程碑
合并请求
1
合并请求
1
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
代码片段
成员
成员
折叠边栏
关闭边栏
活动
图像
聊天
创建新问题
作业
提交
问题看板
Open sidebar
丁双波
zzsn_spider
Commits
6ce462aa
提交
6ce462aa
authored
5月 20, 2024
作者:
XveLingKun
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
谷歌搜索
上级
9d49a0cd
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
72 行增加
和
0 行删除
+72
-0
补充文章内容为空的.py
google_comm/补充文章内容为空的.py
+72
-0
没有找到文件。
google_comm/补充文章内容为空的.py
0 → 100644
浏览文件 @
6ce462aa
# 获取详情页
# 获取详情页
import
time
from
bs4
import
BeautifulSoup
def
get_detail_html
():
while
True
:
# todo:从redis中读取数据
title
=
detailmsg
[
'title'
]
detailUrl
=
detailmsg
[
'detailUrl'
]
logger
.
info
(
"
%
s:
%
s开始解析详情数据
\n
"
%
(
title
,
detailUrl
))
try
:
# try:
# self.driver.get(detailUrl)
# except Exception as e:
# self.driver.quit()
# self.driver=self.createDriver()
# self.driver.get(detailUrl)
# response = self.driver.page_source
try
:
bdetail
=
getDetailmsg
(
detailmsg
)
# 'content':content,
# 'contentHtml':contentWithTag,
content
=
bdetail
[
'content'
]
contentHtml
=
bdetail
[
'contentHtml'
]
if
len
(
content
)
<
100
:
continue
soup
=
BeautifulSoup
(
contentHtml
,
"html.parser"
)
# 查找所有带有class属性的元素
elements_with_class
=
soup
.
find_all
(
class_
=
True
)
# 循环遍历元素并去掉class属性
for
element
in
elements_with_class
:
del
element
.
attrs
[
"class"
]
contentHtml
=
str
(
soup
)
bdetail
[
'content'
]
=
content
bdetail
[
'contentHtml'
]
=
contentHtml
except
Exception
as
e
:
logger
.
info
(
'详情解析失败'
)
continue
processitem
=
getProcessitem
(
bdetail
)
# uniqueCode = self.baseCore.getUniqueCode('GG', '195', self.threadId)
# processitem['uniqueCode'] = uniqueCode
try
:
# flg = self.sendkafka(processitem)
flg
=
True
if
flg
:
r
.
sadd
(
'pygoogle_'
+
'google'
,
processitem
[
'sourceAddress'
])
# 插入数据库
try
:
items
=
[]
items
.
apitemInsertToTablepend
(
bdetail
)
(
items
)
except
Exception
as
e
:
logger
.
info
(
f
"插入数据库失败!{bdetail['kword']}===={e}"
)
# self.logger.info(f"放入kafka成功!{bdetail['kword']}===={detailUrl}")
# self.sendMonitor(processitem)
except
Exception
as
e
:
logger
.
info
(
f
"{e}{bdetail['kword']}===={detailUrl}"
)
# 关闭当前新窗口
# self.driver.close()
time
.
sleep
(
1
)
except
Exception
as
e
:
time
.
sleep
(
5
)
logger
.
info
(
"详情页解析异常!"
+
detailUrl
)
else
:
break
# time.sleep(5)
\ No newline at end of file
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论