Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
Z
zzsn_spider
概览
概览
详情
活动
周期分析
版本库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
统计图
问题
0
议题
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
代码片段
成员
成员
折叠边栏
关闭边栏
活动
图像
聊天
创建新问题
作业
提交
问题看板
Open sidebar
王景浩
zzsn_spider
Commits
636a7138
提交
636a7138
authored
2月 26, 2024
作者:
薛凌堃
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
习近平讲话标题处理
上级
632d5a17
显示空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
111 行增加
和
0 行删除
+111
-0
datasfromes.py
习近平讲话/datasfromes.py
+78
-0
title.py
习近平讲话/title.py
+33
-0
没有找到文件。
习近平讲话/datasfromes.py
0 → 100644
浏览文件 @
636a7138
"""
"""
从es中拿到所有的标题
"""
import
redis
from
elasticsearch
import
Elasticsearch
from
base
import
BaseCore
baseCore
=
BaseCore
.
BaseCore
()
log
=
baseCore
.
getLogger
()
class
EsMethod
(
object
):
def
__init__
(
self
):
# 创建Elasticsearch对象,并提供账号信息
self
.
es
=
Elasticsearch
([
'http://114.116.19.92:9700'
],
http_auth
=
(
'elastic'
,
'zzsn9988'
),
timeout
=
300
)
self
.
index_name
=
'subjectdatabase'
def
queryatt
(
self
,
index_name
,
pnum
):
body
=
{
"query"
:
{
"match"
:
{
"subjectId"
:
"1534423014825668610"
}
},
"sort"
:
[
{
"publishDate"
:
{
"order"
:
"desc"
}
}
],
"track_total_hits"
:
True
,
"size"
:
200
,
"from"
:
pnum
}
filter_path
=
[
'hits.hits._id'
,
'hits.total.value'
,
'hits.hits._source.title'
,
'hits.hits._source.origin'
,
'hits.hits._source.publishDate'
,
]
# 字段2
result
=
self
.
es
.
search
(
index
=
index_name
,
doc_type
=
'_doc'
,
filter_path
=
filter_path
,
body
=
body
)
# log.info(result)
return
result
if
__name__
==
'__main__'
:
es_method
=
EsMethod
()
# 连接Redis
r
=
redis
.
Redis
(
host
=
"114.115.236.206"
,
port
=
6379
,
password
=
'clbzzsn'
,
db
=
6
)
for
i
in
range
(
56
):
result
=
es_method
.
queryatt
(
'subjectdatabase'
,
i
*
200
)
total
=
result
[
'hits'
][
'total'
][
'value'
]
try
:
msglist
=
result
[
'hits'
][
'hits'
]
except
:
log
.
info
(
f
'error-----{result}'
)
continue
log
.
info
(
f
'---第{i}页{len(msglist)}条数据----共{total}条数据----'
)
for
mms
in
msglist
:
id
=
mms
[
'_id'
]
title
=
mms
[
'_source'
][
'title'
]
origin
=
mms
[
'_source'
][
'origin'
]
pub_time
=
mms
[
'_source'
][
'publishDate'
]
try
:
log
.
info
(
f
'{id}--{title}--{origin}--'
)
item
=
id
+
"|"
+
pub_time
# r.lrem(f'XJPdatabase:id_2', 0, item)
r
.
lpush
(
f
'XJPdatabase:id'
,
item
)
except
:
continue
习近平讲话/title.py
0 → 100644
浏览文件 @
636a7138
"""
"""
对标题进行操作
1.有空格的去掉空格
2.精确去重
3.杰卡德相似度去重
"""
#将数据读到csv中
import
pandas
as
pd
from
sklearn.metrics.pairwise
import
cosine_similarity
df
=
pd
.
read_excel
(
'./test2.xlsx'
)
print
(
df
)
# 去掉空格
df
[
'title_1'
]
=
df
[
'title'
]
.
str
.
replace
(
' '
,
''
)
print
(
df
[
'title_1'
])
#精确去重
# df_drop = df.drop_duplicates(subset=['title'], keep='first')
# duplicates = df[df.duplicated('title_1', keep=False)]['title_1']
#杰卡德相似度去重
# from sklearn.feature_extraction.text import TfidfVectorizer
# vectorizer = TfidfVectorizer(analyzer='word',ngram_range=(1, 2),max_features=1000)
# tfidf_matrix = vectorizer.fit_transform(df['title'])
#
# dist = 1 - cosine_similarity(tfidf_matrix)
#
# df['similar'] = dist.mean(axis=1)
#
# df_drop = df.drop_duplicates(subset=['title'],keep='last')
# df_drop.to_csv('D:/data/titles_drop.csv',index=False)
\ No newline at end of file
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论