Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
Z
zzsn_spider
概览
概览
详情
活动
周期分析
版本库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
统计图
问题
0
议题
0
列表
看板
标记
里程碑
合并请求
1
合并请求
1
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
代码片段
成员
成员
折叠边栏
关闭边栏
活动
图像
聊天
创建新问题
作业
提交
问题看板
Open sidebar
丁双波
zzsn_spider
Commits
ca6cfd8d
提交
ca6cfd8d
authored
9月 28, 2023
作者:
薛凌堃
浏览文件
操作
浏览文件
下载
差异文件
Merge remote-tracking branch 'origin/master'
上级
19e70d94
beaf2f01
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
26 行增加
和
2 行删除
+26
-2
oneWeixin2.py
comData/weixin_solo/oneWeixin2.py
+26
-2
没有找到文件。
comData/weixin_solo/oneWeixin2.py
浏览文件 @
ca6cfd8d
...
...
@@ -2,6 +2,7 @@
'''
成功100 发送数据失败200 请求失败400 文章内容为空500
'''
import
re
import
requests
,
time
,
random
,
json
,
pymysql
,
redis
...
...
@@ -32,7 +33,7 @@ def updatewxLink(link,info_source_code,state):
def
getjsonInfo
():
#从数据库中获取信息 一条
select_sql
=
"select * from wx_link where state=0 order by id asc limit 1"
select_sql
=
"select * from wx_link where state=
10
0 order by id asc limit 1"
cursor_
.
execute
(
select_sql
)
row
=
cursor_
.
fetchone
()
cnx_
.
commit
()
...
...
@@ -85,8 +86,10 @@ def get_info(dict_json):
soup_news
=
BeautifulSoup
(
res_news
.
content
,
'html.parser'
)
news_html
=
soup_news
.
find
(
'div'
,
{
'id'
:
'js_content'
})
news_html
[
'style'
]
=
'width: 814px ; margin: 0 auto;'
try
:
del
news_html
[
'style'
]
#del news_html['style']
news_html
=
rm_style_attr
(
news_html
)
del
news_html
[
'id'
]
del
news_html
[
'class'
]
except
:
...
...
@@ -209,6 +212,27 @@ def get_info(dict_json):
updatewxLink
(
url_news
,
info_source_code
,
100
)
return
True
def
rm_style_attr
(
soup
):
# 查找所有含有style属性的标签
style_tags
=
soup
.
find_all
(
style
=
True
)
# 遍历每个style标签
for
style_tag
in
style_tags
:
try
:
# 使用正则表达式替换
styleattr
=
style_tag
[
'style'
]
styleattr
=
re
.
sub
(
r'visibility:(?s).{1,}?;'
,
''
,
styleattr
)
styleattr
=
re
.
sub
(
r'font-family:(?s).{1,}?;'
,
''
,
styleattr
)
styleattr
=
re
.
sub
(
r'color:(?s).{1,}?;'
,
''
,
styleattr
)
styleattr
=
re
.
sub
(
r'font-size:(?s).{1,}?;'
,
''
,
styleattr
)
style_tag
[
'style'
]
=
styleattr
except
:
continue
first_div
=
soup
.
select
(
'div[id="js_content"]'
)
# 设置style属性
first_div
[
'style'
]
=
'width: 814px ; margin: 0 auto;'
return
soup
if
__name__
==
"__main__"
:
num_caiji
=
0
list_all_info
=
[]
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论