Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
Z
zzsn_spider
概览
概览
详情
活动
周期分析
版本库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
统计图
问题
0
议题
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
代码片段
成员
成员
折叠边栏
关闭边栏
活动
图像
聊天
创建新问题
作业
提交
问题看板
Open sidebar
王景浩
zzsn_spider
Commits
95091024
提交
95091024
authored
9月 21, 2023
作者:
LiJunMing
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
智能解析笔记
上级
e4cf70b6
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
17 行增加
和
148 行删除
+17
-148
test.py
test.py
+17
-148
没有找到文件。
test.py
浏览文件 @
95091024
"""sorted(title_extracted_by_h,key = lambda x:similarity(x,title_extracted_by_title),reverse=True)
from
base
import
BaseCore
etree.strip_elements(elements,tag) #tag是要删除的标签名
# 根据从Redis中拿到的社会信用代码,在数据库中获取对应基本信息
for child in children(element): #children(element)是一个函数,获取当前HTML元素的所有子元素
import
time
child.tag.lower() #获取标签名称
baseCore
=
BaseCore
.
BaseCore
()
etree.strip_tags(child,'span') #删除标签对
# log = baseCore.getLogger()
r
=
baseCore
.
r
# social_code = baseCore.redicPullData('NewsEnterprise:gwqy_socialCode')
#
# # 判断 如果Redis中已经没有数据,则等待
# if not social_code:
#
# print('1:')
# if social_code == 'None':
#
# print('2')
#
# if social_code == None:
# print('3:')
#9131000010000595XD 91100000100003962T
# item = '91110000101690725E'
item
=
'91100000100003962T'
list
=
[
'86'
,
element.getparent() #获取给定元素的父元素
'122'
,
'142'
,
'168'
,
"""
'270'
,
# from io import StringIO
'282'
,
#
'364'
,
# import pandas as pd
'407'
,
# data = '"1234","456\r7","897"'
'416'
,
# print(data)
'563'
,
# aa = pd.read_csv(StringIO(data),escapechar='\r')
'566'
,
# print(aa)
'588'
,
\ No newline at end of file
'595'
,
'597'
,
'737'
,
'750'
,
'810'
,
'838'
,
'860'
,
'875'
,
'885'
,
'886'
,
'1003'
,
'1250'
,
'1272'
,
'1362'
,
'1379'
,
'1381'
,
'1382'
,
'1392'
,
'1476'
,
'1583'
,
'1639'
,
'1748'
,
'1764'
,
'1775'
,
'1801'
,
'1839'
,
'2018'
,
'2260'
,
'2356'
,
'2471'
,
'2563'
,
'2703'
,
'2800'
,
'2815'
,
'2934'
,
'3162'
,
'3376'
,
'3474'
,
'3737'
,
'3782'
,
'3939'
,
'4118'
,
'4509'
,
'4675'
,
'4801'
,
'4818'
,
'4943'
,
'5149'
,
'5195'
,
'5429'
,
'7023'
,
'7025'
,
'7026'
,
'7039'
,
'7053'
,
'7058'
,
'7059'
,
'7060'
,
'7062'
,
'7066'
,
'7067'
,
'7069'
,
'7073'
,
'7077'
,
'7083'
,
'7091'
,
'7095'
,
'7103'
,
'7105'
,
'7107'
,
'7109'
,
'7110'
,
'7113'
,
'7131'
,
'7135'
,
'7136'
,
'7138'
,
'7140'
,
'7141'
,
'7142'
,
'7143'
,
'7144'
,
'7145'
,
'7147'
,
'7150'
,
'7151'
,
'7152'
,
'7156'
,
'7157'
,
'7160'
,
'7162'
,
'7165'
,
'7169'
,
'7174'
,
'7180'
,
'7187'
,
'7193'
,
'7197'
,
'7198'
,
'7199'
,
'7201'
,
'7202'
,
'7203'
,
'7204'
,
'7205'
,
'7206'
,
'7208'
,
'7209'
,
'7211'
,
'7212'
,
'7213'
,
'7214'
]
for
item
in
list
:
r
.
rpush
(
'NewsEnterpriseFbs:gnqy_socialCode'
,
item
)
\ No newline at end of file
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论