Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
Z
zzsn_spider
概览
概览
详情
活动
周期分析
版本库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
统计图
问题
0
议题
0
列表
看板
标记
里程碑
合并请求
1
合并请求
1
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
代码片段
成员
成员
折叠边栏
关闭边栏
活动
图像
聊天
创建新问题
作业
提交
问题看板
Open sidebar
丁双波
zzsn_spider
Commits
422c5516
提交
422c5516
authored
2月 06, 2024
作者:
LiuLiYuan
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
审计法规 02/06
上级
e976fee1
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
12 行增加
和
4 行删除
+12
-4
sclx.py
shenji/sclx.py
+12
-4
没有找到文件。
shenji/sclx.py
浏览文件 @
422c5516
import
time
import
pandas
as
pd
import
requests
import
requests
from
bs4
import
BeautifulSoup
from
bs4
import
BeautifulSoup
from
retry
import
retry
from
retry
import
retry
...
@@ -69,11 +72,13 @@ def getHref(Keywords):
...
@@ -69,11 +72,13 @@ def getHref(Keywords):
href
=
'https://sclx.pkulaw.com'
+
tag
.
get
(
'url'
)
href
=
'https://sclx.pkulaw.com'
+
tag
.
get
(
'url'
)
except
:
except
:
href
=
''
href
=
''
time
.
sleep
(
1
)
return
href
return
href
@retry
(
tries
=
2
,
delay
=
5
)
@retry
(
tries
=
2
,
delay
=
5
)
def
getData
(
href
):
def
getData
(
href
):
data
=
[]
ip
=
baseCore
.
get_proxy
()
ip
=
baseCore
.
get_proxy
()
req
=
requests
.
get
(
href
,
headers
=
headers
,
proxies
=
ip
,
verify
=
False
)
req
=
requests
.
get
(
href
,
headers
=
headers
,
proxies
=
ip
,
verify
=
False
)
req
.
encoding
=
req
.
apparent_encoding
req
.
encoding
=
req
.
apparent_encoding
...
@@ -89,15 +94,18 @@ def getData(href):
...
@@ -89,15 +94,18 @@ def getData(href):
relevance
=
li
.
find
(
'div'
,
class_
=
'relevance'
)
.
text
.
strip
()
relevance
=
li
.
find
(
'div'
,
class_
=
'relevance'
)
.
text
.
strip
()
except
:
except
:
relevance
=
''
relevance
=
''
log
.
info
(
f
'{publishDate}==={theme}==={relevance}'
)
data
.
append
([
publishDate
,
theme
,
relevance
])
time
.
sleep
(
1
)
return
data
def
doJob
():
def
doJob
():
data
=
[]
Keywords
=
'中华人民共和国公司法(2023修订)'
Keywords
=
'中华人民共和国公司法(2023修订)'
href
=
getHref
(
Keywords
)
href
=
getHref
(
Keywords
)
if
href
:
if
href
:
getData
(
href
)
data
+=
getData
(
href
)
df
=
pd
.
DataFrame
(
data
)
print
(
df
)
if
__name__
==
'__main__'
:
if
__name__
==
'__main__'
:
doJob
()
doJob
()
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论