Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
Z
zzsn_spider
概览
概览
详情
活动
周期分析
版本库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
统计图
问题
0
议题
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
代码片段
成员
成员
折叠边栏
关闭边栏
活动
图像
聊天
创建新问题
作业
提交
问题看板
Open sidebar
王景浩
zzsn_spider
Commits
6e148f55
提交
6e148f55
authored
2月 27, 2024
作者:
薛凌堃
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
习讲话数据库标题修改
上级
159f6105
显示空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
23 行增加
和
102 行删除
+23
-102
aaaa.py
comData/YanBao/aaaa.py
+0
-102
write_tocsv.py
习近平讲话/write_tocsv.py
+23
-0
没有找到文件。
comData/YanBao/aaaa.py
deleted
100644 → 0
浏览文件 @
159f6105
"""
从es中拿到所有的标题
"""
import
redis
from
elasticsearch
import
Elasticsearch
from
base
import
BaseCore
baseCore
=
BaseCore
.
BaseCore
()
log
=
baseCore
.
getLogger
()
class
EsMethod
(
object
):
def
__init__
(
self
):
# 创建Elasticsearch对象,并提供账号信息
self
.
es
=
Elasticsearch
([
'http://114.116.19.92:9700'
],
http_auth
=
(
'elastic'
,
'zzsn9988'
),
timeout
=
300
)
self
.
index_name
=
'researchreportdata'
def
queryatt
(
self
,
index_name
):
body
=
{
"query"
:
{
"bool"
:
{
"must"
:
[
{
"nested"
:
{
"path"
:
"labels"
,
"query"
:
{
"match"
:
{
"labels.relationId"
:
"91330000747735638J"
}
}
}
},
{
"range"
:
{
"createDate"
:
{
"gte"
:
"2024-02-26T13:00:00"
,
"lte"
:
"2024-02-27T00:00:00"
}
}
},
{
"term"
:
{
"type.keyword"
:
{
"value"
:
"3"
}
}
}
]
}
},
"sort"
:
[
{
"createDate"
:
{
"order"
:
"desc"
}
}
],
"track_total_hits"
:
True
,
"size"
:
100
}
filter_path
=
[
'hits.hits._id'
,
'hits.total.value'
,
'hits.hits._source.title'
,
'hits.hits._source.origin'
,
'hits.hits._source.publishDate'
,
]
# 字段2
result
=
self
.
es
.
search
(
index
=
index_name
,
doc_type
=
'_doc'
,
filter_path
=
filter_path
,
body
=
body
)
# log.info(result)
return
result
if
__name__
==
'__main__'
:
es_method
=
EsMethod
()
# 连接Redis
r
=
redis
.
Redis
(
host
=
"114.115.236.206"
,
port
=
6379
,
password
=
'clbzzsn'
,
db
=
6
)
result
=
es_method
.
queryatt
(
'researchreportdata'
)
total
=
result
[
'hits'
][
'total'
][
'value'
]
try
:
msglist
=
result
[
'hits'
][
'hits'
]
except
:
log
.
info
(
f
'error-----{result}'
)
log
.
info
(
f
'---第1页{len(msglist)}条数据----共{total}条数据----'
)
for
mms
in
msglist
:
id
=
mms
[
'_id'
]
title
=
mms
[
'_source'
][
'title'
]
origin
=
mms
[
'_source'
][
'origin'
]
pub_time
=
mms
[
'_source'
][
'publishDate'
]
try
:
log
.
info
(
f
'{id}--{title}--{origin}--'
)
item
=
id
+
"|"
+
title
# r.lrem(f'XJPdatabase:id_2', 0, item)
r
.
lpush
(
f
'91330000747735638J:id'
,
item
)
except
:
continue
习近平讲话/write_tocsv.py
0 → 100644
浏览文件 @
6e148f55
import
csv
import
csv
import
redis
r
=
redis
.
Redis
(
host
=
"114.115.236.206"
,
port
=
6379
,
password
=
'clbzzsn'
,
db
=
6
)
if
__name__
==
"__main__"
:
with
open
(
'./title1.csv'
,
'w'
,
newline
=
''
,
encoding
=
'utf-8'
)
as
file
:
writer
=
csv
.
writer
(
file
)
while
True
:
try
:
term
=
r
.
lpop
(
'XJPdatabase:id'
)
.
decode
()
except
:
term
=
''
if
term
==
''
:
break
else
:
# 写入数据
writer
.
writerow
(
str
(
term
)
.
split
(
'|'
))
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论