修改代码提交

a512c71f · 刘伟刚 · c52051f8 · a512c71f · a512c71f · a512c71f
--- a/comData/haiguanData/amountVerify.py
+++ b/comData/haiguanData/amountVerify.py
+import configparser
+import os
+import glob
+
+#统计数据的路径信息
+def getTotalFileNamePath(path,year,startMonth,endMonth,field_name,iEType_name):
+
+    end_str = "{:02d}".format(endMonth)
+    if startMonth<endMonth:
+        filePathname=path+str(year)+'\\'+end_str+'\\累计\\'
+        # 202301-07--收发货地址--进口.csv
+        fileName=str(year)+'01-'+end_str+'--'+field_name+'--'+iEType_name+'.csv'
+    if startMonth==endMonth:
+        filePathname=path+str(year)+'\\'+end_str+'\\单月\\'
+        fileName=str(year)+end_str+'--'+field_name+'--'+iEType_name+'.csv'
+    fpathName = os.path.join(filePathname, fileName)
+    return fpathName
+
+#统计数据的详细数据信息
+def getFileNamePath(path,year,startMonth,endMonth,field_name,iEType_name):
+
+    end_str = "{:02d}".format(endMonth)
+    if startMonth<endMonth:
+        filePathname=path+str(year)+'\\'+end_str+'\\累计\\'+field_name+'\\'
+        # 202301-07--收发货地址--出口-11.csv
+        fileName=str(year)+'01-'+end_str+'--'+field_name+'--'+iEType_name+'-*.csv'
+    if startMonth==endMonth:
+        filePathname=path+str(year)+'\\'+end_str+'\\单月\\'+field_name+'\\'
+        # 202307--收发货地址--出口-11.csv
+        fileName=str(year)+end_str+'--'+field_name+'--'+iEType_name+'-*.csv'
+    inFileName = os.path.join(filePathname, fileName)
+    return inFileName
+
+import pandas as pd
+
+def readTotalCsv(path):
+    df = pd.read_csv(path, encoding='gbk',dtype=str)
+    df['美元'] = df['美元'].str.replace(',', '').astype(float)
+    return df
+
+def readDetailCsv(path):
+    ddf = pd.read_csv(path, encoding='gbk',dtype=str)
+    # 计算列的总和
+    column_sum = pd.to_numeric(ddf['美元'].str.replace(',', '').astype(float)).sum()
+    # row =pd.loc[pd[field_name+'编码']==codeId]
+    codeId=ddf.iloc[0, 0]
+    return codeId,column_sum
+
+
+
+
+def test():
+    path='D:\hg\\'
+    years='2022'
+    endMonths='12'
+    endMonths=int(endMonths)
+    startMonths=[1,endMonths]
+    field_names=['贸易伙伴','收发货地址','贸易方式']
+    iEType_names=['进口','进出口','出口']
+    errorFile=[]
+    conError=[]
+    for startMonth in startMonths:
+        for field_name in field_names:
+            for iEType_name in iEType_names:
+                fpathName=getTotalFileNamePath(path,years,startMonth,endMonths,field_name,iEType_name)
+                pdAll=readTotalCsv(fpathName)
+                inFileName=getFileNamePath(path,years,startMonth,endMonths,field_name,iEType_name)
+                listDetailFile = glob.glob(inFileName, recursive=True)
+                for detailFile in listDetailFile:
+                    try:
+                        codeId,column_sum=readDetailCsv(detailFile)
+                        try:
+                            if field_name=='收发货地址':
+                                row =pdAll.loc[pdAll['注册地编码']==codeId]
+                            else:
+                                row =pdAll.loc[pdAll[field_name+'编码']==codeId]
+                            try:
+                                usvalue = row.at[row.index[-1], '美元']
+                                if usvalue==column_sum:
+                                    continue
+                                else:
+                                    msgList=[detailFile,column_sum,usvalue]
+                                    errorFile.append(msgList)
+                            except Exception as e:
+                                print(f'错误原因e{e} {detailFile}')
+                        except Exception as e2 :
+                            print(f'错误原因e2{e2} {detailFile}')
+                    except Exception as e3 :
+                        # 下载的异常文件
+                        conError.append(detailFile)
+                        print(f'错误原因e2{e3} {detailFile}')
+    # 将列表转换为DataFrame
+    df = pd.DataFrame(errorFile, columns=['有问题的文件','计算的值','网站的值'])
+    # 将DataFrame保存为CSV文件
+    df.to_csv(years+str(endMonths)+'data.csv', index=False)
+    # 将列表转换为DataFrame
+    df = pd.DataFrame(conError, columns=['下载内容异常'])
+    # 将DataFrame保存为CSV文件
+    df.to_csv(years+str(endMonths)+'文件错误.csv', index=False)
+    return errorFile
+
+if __name__ == '__main__':
+    errorFileList=test()
+
+
+    # config = configparser.ConfigParser()
+    # config.read('config.ini')
+    # path=config.get('param', 'path')
+    # years=config.get('param', 'year')
+    # endMonths=config.get('param', 'endMonth')
+    # startMonths=['1',endMonths]
+    # field_names=['贸易伙伴','收发货地址','贸易方式']
+    # iEType_names=['进口','进出口','出口']
+    # for startMonth in startMonths:
+    #     for field_name in field_names:
+    #         for iEType_name in iEType_names:
+    #             getFileNamePath(path,years,startMonth,endMonths,field_name,iEType_name)
+
--- a/comData/haiguanData/hgDownFile2022单月.py
+++ b/comData/haiguanData/hgDownFile2022单月.py
-
+
@@ -10,7 +10,6 @@ import pandas as pd
 import redis
 import requests
 from datetime import datetime
-
 '''
 海关下载数据类型和参数分类组合
 CODE_TS #商品编码  ORIGIN_COUNTRY  #贸易伙伴 TRADE_MODE #贸易方式 TRADE_CO_PORT #收发货地址
@@ -44,6 +43,10 @@ d:/hg/2023/7/
 1）按照类型分组获取对应的每月的最新编码信息
 2）根据字段编码和商品进行对应统计信息的下载
 3）根据商品编码下载数据
+6.添加文件内容格式校验
+1）获取统计文件信息
+2）获取下载的文件数据
+3）计算对应的值，如果异常就删除
 '''

 class HgDownFile(object):
@@ -212,11 +215,20 @@ class HgDownFile(object):

    #单个字段的参数设置
    def setparam(self,iEType,currencyType,year,startMonth,endMonth,outerField1):
-        if year==2022 and endMonth==1:
-            selectTableState= 1  #202201前的数据为2 后的数据是1
+        # 2022年 1-1  202202 2   2022年 1月之前数据是 2
+        # 2022年 1-2  202202 3  2022年的累计数据是 3
+        # 2022年 2-2  202202 1  2022年 1月之后数据是 1
+        if year<2022:
+            selectTableState= 2  #202202前的数据为2 后的数据是1
        else:
-            selectTableState= 2  #202201前的数据为2 后的数据是1
-
+            s=int(startMonth)
+            e=int(endMonth)
+            if year==2022 and s<e: #2022年累计数据单独设置参数
+                selectTableState= 3
+            elif year==2022 and e==1:
+                selectTableState= 2
+            else:
+                selectTableState= 1  #202202前的数据为2 后的数据是1
        param={
            'pageSize': 10,
            'iEType': iEType,
@@ -238,17 +250,24 @@ class HgDownFile(object):
            'outerValue4':'',
            'orderType': 'CODE ASC DEFAULT',
            'selectTableState': selectTableState,  #202201前的数据为2 后的数据是1
-            'currentStartTime': '202201',
+            'currentStartTime': '202202',
        }
-
        return param

    #联合查询字段的参数设置
    def setcodesAndProductparam(self,iEType,currencyType,year,startMonth,endMonth,outerField1,filedCode):
-        if year==2022 and endMonth==1:
-            selectTableState= 1  #202201前的数据为2 后的数据是1
+
+        if year<2022:
+            selectTableState= 2  #202202前的数据为2 后的数据是1
+        else:
+            s=int(startMonth)
+            e=int(endMonth)
+            if year==2022 and s<e: #2022年累计数据单独设置参数
+                selectTableState= 3
+            elif year==2022 and e==1:
+                selectTableState= 2
            else:
-            selectTableState= 2  #202201前的数据为2 后的数据是1
+                selectTableState= 1  #202202前的数据为2 后的数据是1
        param={
            'pageSize': 10,
            'iEType': iEType,
@@ -270,7 +289,7 @@ class HgDownFile(object):
            'outerValue4':'',
            'orderType': 'CODE ASC DEFAULT',
            'selectTableState': selectTableState,
-            'currentStartTime': '202201',
+            'currentStartTime': '202202',
        }
        return param

@@ -314,12 +333,11 @@ class HgDownFile(object):
        outerFields=['CODE_TS','ORIGIN_COUNTRY','TRADE_MODE','TRADE_CO_PORT']
        # outerFields=['CODE_TS']
        currencyType='usd'
-        # endMonth=self.r.get('newMonth')
-        # endMonth=int(endMonth.decode('utf-8'))
-        # endMonth=int(self.config.get('param', 'endMonth'))
-        # if endMonth != (month-1):
-        #     return
-        startMonths=[endMonth]
+
+        if endMonth==1:
+            startMonths=[1]
+        else:
+            startMonths=[1,endMonth]
        for startMonth in startMonths:
            for iEType in iETypes:
                for outerField1 in outerFields:
@@ -346,19 +364,59 @@ class HgDownFile(object):
                print(f'文件已存在{filePathName}')
                codeFileList.append(filePathName)
                continue
+            #进行数据下载返回临时文件
            tmpfilename=self.reqDownFile(param)
+            #校验临时的金额是否跟统计文件中的对应
+            flagg=self.verifyFile(tmpfilename,year,startMonth,endMonth,outerField1,iEType,currencyType)
+            #将临时文件的数据复制到指定文件中
+            if flagg:
                saveFileName=self.tmpToFile(tmpfilename,filePathName)
                print(saveFileName)
                codeFileList.append(saveFileName)
+            else:
+                os.remove(tmpfilename)
        return codeFileList

+    def verifyFile(self,tmpfilename,year,startMonth,endMonths,outerField1,iEType,currencyType):
+        flag=False
+        path='D:\\hg\\'
+        years=year
+        endMonths=endMonths
+        end_str=int(endMonths)
+        startMonths=startMonth
+        if startMonths<=end_str:
+            filePathName=self.filepath(iEType,currencyType,year,startMonth,end_str,outerField1)
+            try:
+                dfAll = pd.read_csv(filePathName, encoding='gbk',dtype=str)
+                dfAll['美元'] = dfAll['美元'].str.replace(',', '').astype(float)
+                ddf = pd.read_csv(tmpfilename, encoding='gbk',dtype=str)
+                column_sum = pd.to_numeric(ddf['美元'].str.replace(',', '').astype(float)).sum()
+                codeId=ddf.iloc[0, 0]
+                fieldNm=''
+                if 'ORIGIN_COUNTRY' in outerField1:
+                    fieldNm='贸易伙伴'
+                if 'TRADE_MODE' in outerField1:
+                    fieldNm='贸易方式'
+                if 'TRADE_CO_PORT' in outerField1:
+                    fieldNm='收发货地址'
+                if fieldNm=='收发货地址':
+                    row =dfAll.loc[dfAll['注册地编码']==codeId]
+                else:
+                    row =dfAll.loc[dfAll[fieldNm+'编码']==codeId]
+                try:
+                    usvalue = row.at[row.index[-1], '美元']
+                    if usvalue==column_sum:
+                        flag=True
+                except Exception as e:
+                    print(e)
+            except Exception as e22:
+                print(e22)
+        return flag
+
    def codeFieldDown(self,fieldFileList,year,endMonth):
        current_date = datetime.now()
        # year = current_date.year
        year = int(year)
-        # endMonth=self.r.get('newMonth')
-        # endMonth=int(endMonth.decode('utf-8'))
-        # endMonth=int(self.config.get('param', 'endMonth'))
        for fieldFile in fieldFileList:
            #['CODE_TS','ORIGIN_COUNTRY','TRADE_MODE','TRADE_CO_PORT']
            try:
@@ -411,7 +469,11 @@ if __name__ == '__main__':
                    fieldFileList=hgDownFile.field1Down(year,endMonth)
                    if len(fieldFileList)>= 12:
                        break
-
+            else:
+                while len(fieldFileList)< 24:
+                    fieldFileList=hgDownFile.field1Down(year,endMonth)
+                    if len(fieldFileList)>= 24:
+                        break
            for i in range(1,3):
                print('_______________')
                hgDownFile.codeFieldDown(fieldFileList,year,endMonth)
--- a/comData/haiguanData/hgProductDownFile.py
+++ b/comData/haiguanData/hgProductDownFile.py
@@ -11,6 +11,8 @@ import redis
 import requests
 from datetime import datetime
 from logRecord import LogRecord
+import traceback
+
 '''
 海关商品详情下载流程
 1.下载商品编码
@@ -225,10 +227,18 @@ class HgDownFile(object):

    #单个字段的参数设置
    def setparam(self,iEType,currencyType,year,startMonth,endMonth,outerField1):
-        if year>2021:
-            selectTableState= 1  #202201前的数据为2 后的数据是1
+        if year<2022:
+            selectTableState= 2  #202202前的数据为2 后的数据是1
+        else:
+            s=int(startMonth)
+            e=int(endMonth)
+            if year==2022 and s<e: #2022年累计数据单独设置参数
+                selectTableState= 3
+            elif year==2022 and e==1:
+                selectTableState= 2
            else:
-            selectTableState= 2  #202201前的数据为2 后的数据是1
+                selectTableState= 1  #202202前的数据为2 后的数据是1
+        outerValue1='87036011,87036012,87036013,87036019,87036021,87036022,87036023,87036029,87036031,87036032,87036033,87036039,87036041,87036042,87036043,87036049,87036051,87036052,87036053,87036059,87036061,87036062,87036063,87036069,87036071,87036072,87036073,87036079,87037011,87037012,87037013,87037019,87037021,87037022,87037023,87037029,87037031,87037032,87037033,87037039,87037041,87037042,87037043,87037049,87037051,87037052,87037053,87037059,87037061,87037062,87037063,87037069,87037071,87037072,87037073,87037079,40111000,40112000,40121100,40121200,40122010,40129020,40131000,70071190,70072190,70091000,85229091,85269110,85272100,85272900,85392130,85392930,94019910,28046117,28046119,38180011,38180019,85044030,85414200,85414300,84723090,84729040,85258120,85258220,85258320,85258921,85258922,85258923,85258929,85286210,85286220,85286290,85286910,85286990,90065310,90065390,90065930,90065941,90065949'
        param={
            'pageSize': 10,
            'iEType': iEType,
@@ -244,22 +254,29 @@ class HgDownFile(object):
            'outerField2':'',
            'outerField3':'',
            'outerField4':'',
-            'outerValue1':'',
+            'outerValue1':outerValue1,
            'outerValue2':'',
            'outerValue3':'',
            'outerValue4':'',
            'orderType': 'CODE ASC DEFAULT',
            'selectTableState': selectTableState,  #202201前的数据为2 后的数据是1
-            'currentStartTime': '202201', #2022年1月数据需要单独处理
+            'currentStartTime': '202202', #2022年1月数据需要单独处理
        }
        return param

    #联合查询字段的参数设置
    def setcodesAndProductparam(self,iEType,currencyType,year,startMonth,endMonth,outerField1,filedCode):
-        if year>2021:
-            selectTableState= 1  #202201前的数据为2 后的数据是1
+        if year<2022:
+            selectTableState= 2  #202202前的数据为2 后的数据是1
        else:
-            selectTableState= 2  #202201前的数据为2 后的数据是1
+            s=int(startMonth)
+            e=int(endMonth)
+            if year==2022 and s<e: #2022年累计数据单独设置参数
+                selectTableState= 3
+            elif year==2022 and e==1:
+                selectTableState= 2
+            else:
+                selectTableState= 1  #202202前的数据为2 后的数据是1
        param={
            'pageSize': 10,
            'iEType': iEType,
@@ -281,7 +298,7 @@ class HgDownFile(object):
            'outerValue4':'',
            'orderType': 'CODE ASC DEFAULT',
            'selectTableState': selectTableState,
-            'currentStartTime': '202201',
+            'currentStartTime': '202202',
        }
        return param

@@ -302,6 +319,20 @@ class HgDownFile(object):
            os.remove(tmpfilename)

        return   filePathName
+    #将临时文件放复制到目录中
+    def tmpFileLength(self,tmpfilename):
+        flag=True
+        # 打开csv文件
+        with open(tmpfilename, 'r') as file:
+            # 创建csv阅读器
+            csv_reader = csv.reader(file)
+            # 使用len()函数获取行数
+            line_count = len(list(csv_reader))
+        if line_count > 9990:
+            print('csv文件行数过大需要对编码进行拆分')
+            flag=False
+
+        return  flag

    def readcsv(self,filePath):
        codes=[]
@@ -369,8 +400,19 @@ class HgDownFile(object):
                codeFileList.append(codeFileMsg)
                continue
            tmpfilename=self.reqDownFile(param)
+            fflag=self.tmpFileLength(tmpfilename)
+            #判断文件行数是否接近1万
+            if fflag: #小于1万保存数据
+                #校验临时的金额是否跟统计文件中的对应
+                flagg=self.verifyFile(tmpfilename,year,startMonth,endMonth,outerField1,iEType,currencyType)
+                #将临时文件的数据复制到指定文件中
+                if flagg:
                    #将下载的临时文件复制到规定的文件中
                    saveFileName=self.tmpToFile(tmpfilename,filePathName)
+                else:
+                    saveFileName=''
+            else:
+                saveFileName=''
            #文件行数超过接近1万时需要对编码进行拆分进行重新下载
            if saveFileName=='':
                cds=code.split(',')
@@ -380,6 +422,7 @@ class HgDownFile(object):
                    #拼接参数
                    param=self.setcodesAndProductparam(iEType,currencyType,year,startMonth,endMonth,outerField1,code)
                    #生成参数对应的文件路径
+
                    filePathName=self.codeFilepath(iEType,currencyType,year,startMonth,endMonth,outerField1,filecodes)
                    if os.path.exists(filePathName):
                        print(f'文件已存在{filePathName}')
@@ -390,14 +433,54 @@ class HgDownFile(object):
                        codeFileList.append(codeFileMsg)
                        continue
                    tmpfilename=self.reqDownFile(param)
+                    #校验临时的金额是否跟统计文件中的对应
+                    flagg=self.verifyFile(tmpfilename,year,startMonth,endMonth,outerField1,iEType,currencyType)
+                    #将临时文件的数据复制到指定文件中
+                    if flagg:
                        #将下载的临时文件复制到规定的文件中
                        saveFileName=self.tmpToFile(tmpfilename,filePathName)
+                    # #将下载的临时文件复制到规定的文件中
+                    # saveFileName=self.tmpToFile(tmpfilename,filePathName)

            print(saveFileName)
            codeFileList.append(saveFileName)
            filemsg=self.codeFilepathMsg(iEType,currencyType,year,startMonth,endMonth,outerField1)
        return codeFileList,filemsg

+
+    def verifyFile(self,tmpfilename,year,startMonth,endMonths,outerField1,iEType,currencyType):
+        flag=False
+        path='D:\\hg\\'
+        years=year
+        endMonths=endMonths
+        end_str=int(endMonths)
+        startMonths=startMonth
+        if startMonths<=end_str:
+            try:
+                filePathName=self.filepath(iEType,currencyType,year,startMonth,endMonth,outerField1)
+            except :
+                traceback.print_exc()
+            try:
+                dfAll = pd.read_csv(filePathName, encoding='gbk',dtype=str)
+                dfAll['美元'] = dfAll['美元'].str.replace(',', '').astype(float)
+                ddf = pd.read_csv(tmpfilename, encoding='gbk',dtype=str)
+                ddf['美元']=pd.to_numeric(ddf['美元'].str.replace(',', '').astype(float))
+                column_sum = ddf.groupby('商品编码')['美元'].sum()
+                sumList=column_sum.reset_index().values.tolist()
+                for codesum in sumList:
+                    codeId=codesum[0]
+                    cvalue=codesum[1]
+                    row =dfAll.loc[dfAll['商品编码']==codeId]
+                    try:
+                        usvalue = row.at[row.index[-1], '美元']
+                        if usvalue==cvalue:
+                            flag=True
+                    except Exception as e:
+                        print(e)
+            except Exception as e22:
+                print(e22)
+        return flag
+
    #详情商品信息参数拼接
    def codeFieldDown(self,fieldFileList,year,endMonth):
        current_date = datetime.now()
@@ -427,7 +510,8 @@ class HgDownFile(object):
                codeFileList,filemsg=hgDownFile.fieldCodeDown(iEType,currencyType,year,startMonth,endMonth,outerField1,codes)

            except Exception as e:
-                print(e)
+                # print(e)
+                traceback.print_exc()
                continue

        return codeFileList,filemsg
@@ -486,6 +570,3 @@ if __name__ == '__main__':



-
-
-
--- a/comData/haiguanData/hgDownFile2022累计.py
+++ b/comData/haiguanData/hgDownFile2022累计.py
-
+
@@ -10,8 +10,21 @@ import pandas as pd
 import redis
 import requests
 from datetime import datetime
+from logRecord import LogRecord
+import traceback

 '''
+海关商品详情下载流程
+1.下载商品编码
+2.对商品编码进行分组 
+3.对商品编码进行重命名
+4.拼接路径和创建文件名
+5.进行数据的下载
+6.去重文件中的 \r换行
+7.进行文件的保存
+
+
+
 海关下载数据类型和参数分类组合
 CODE_TS #商品编码  ORIGIN_COUNTRY  #贸易伙伴 TRADE_MODE #贸易方式 TRADE_CO_PORT #收发货地址
 1.设置进出口类型 （默认进口，出口，进出口都进行下载）采用遍历的方式
@@ -46,6 +59,7 @@ d:/hg/2023/7/
 3）根据商品编码下载数据
 '''

+log=LogRecord()
 class HgDownFile(object):

    def __init__(self):
@@ -71,26 +85,10 @@ class HgDownFile(object):
        return cookie
    #请求下载文件
    def reqDownFile(self,data):
-        header={
-            'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
-            'Accept-Encoding':'gzip, deflate',
-            'Accept-Language':'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
-            'Cache-Control':'max-age=0',
-            'Content-Type':'application/x-www-form-urlencoded',
-            'Host':'stats.customs.gov.cn',
-            'Origin':'http://stats.customs.gov.cn',
-            'Proxy-Connection':'keep-alive',
-            'Upgrade-Insecure-Requests':'1',
-            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.64',
-            'Cookie': self.getcookie()
-        }
        data=data
-        proxy={}
-        # response=requests.post(url=self.downUrl,data=data,headers=header,verify=False,timeout=20)
        statuscode=410
        filename='数据文件.csv'
        while statuscode != 200:
-            # time.sleep(5)
            try:
                header={
                    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
@@ -113,7 +111,7 @@ class HgDownFile(object):
                    try:
                        csv_content = response.text
                        count = csv_content.count("\n")
-                        csv_content=csv_content.replace('\0', '')
+                        csv_content=csv_content.replace('\0', '').replace('\r','')
                        print(count)
                        # filename='数据文件.csv'
                        tmppath='D:\\hg\\tmp'
@@ -127,7 +125,6 @@ class HgDownFile(object):
                    except Exception as e:
                        print(e)
                        statuscode=411
-
                else:
                    print('CSV文件下载保存失败！')

@@ -140,7 +137,7 @@ class HgDownFile(object):
        return filename
    #统计数据的文件路径设置单个字段
    def filepath(self,iEType,currencyType,year,startMonth,endMonth,outerField1):
-        path='D:\\hg\\'
+        path=self.config.get('param', 'path')
        field_name=self.getfieldName(outerField1)
        iEType_name=self.getiETypeName(iEType)
        if startMonth<endMonth:
@@ -164,25 +161,43 @@ class HgDownFile(object):

    #统计数据的文件路径设置单个字段
    def codeFilepath(self,iEType,currencyType,year,startMonth,endMonth,outerField1,code):
-        path='D:\\hg\\'
+        path=self.config.get('param', 'path')
        field_name=self.getfieldName(outerField1)
        iEType_name=self.getiETypeName(iEType)
        if startMonth<endMonth:
            start_str = '01'
            end_str = "{:02d}".format(endMonth)
-            filename=str(year)+start_str+'-'+end_str+'--'+field_name+'--'+iEType_name+'-'+str(code)+'.csv'
+            filename=str(year)+"年--"+start_str+"月-"+end_str+"月--"+iEType_name+"--商品-贸易伙伴-贸易方式-注册地--"+str(code)+".csv";
            filepath=path+str(year)+'\\'+end_str+'\\累计\\'+field_name+'\\'
        else:
            end_str = "{:02d}".format(endMonth)
-            filename=str(year)+end_str+'--'+field_name+'--'+iEType_name+'-'+str(code)+'.csv'
+            filename=str(year)+"年--"+end_str+"月--"+iEType_name+"--商品-贸易伙伴-贸易方式-注册地--"+str(code)+".csv";
            filepath=path+str(year)+'\\'+end_str+'\\单月\\'+field_name+'\\'
-
        save_dir = os.path.dirname(filepath)
        os.makedirs(save_dir, exist_ok=True)
        filename = os.path.join(save_dir, filename)
-
        return filename

+    #统计数据的文件路径设置单个字段
+    def codeFilepathMsg(self,iEType,currencyType,year,startMonth,endMonth,outerField1):
+        path=self.config.get('param', 'path')
+        field_name=self.getfieldName(outerField1)
+        iEType_name=self.getiETypeName(iEType)
+        if startMonth<endMonth:
+            start_str = '01'
+            end_str = "{:02d}".format(endMonth)
+            fn=str(year)+"年--"+start_str+"月-"+end_str+"月--"+iEType_name+"_文件统计.csv";
+            filepath=path+str(year)+'\\'+end_str+'\\'
+        else:
+            end_str = "{:02d}".format(endMonth)
+            fn=str(year)+"年--"+end_str+"月--"+iEType_name+"_文件统计.csv";
+            filepath=path+str(year)+'\\'+end_str+'\\'
+
+        save_dir = os.path.dirname(filepath)
+        os.makedirs(save_dir, exist_ok=True)
+        filemsg = os.path.join(save_dir, fn)
+        return filemsg
+
    def getfieldName(self,outerField1):
        field_name=''
        if 'CODE_TS' in outerField1:
@@ -212,11 +227,18 @@ class HgDownFile(object):

    #单个字段的参数设置
    def setparam(self,iEType,currencyType,year,startMonth,endMonth,outerField1):
-        # if year>2021:
-        #     selectTableState= 1  #202201前的数据为2 后的数据是1
-        # else:
-        #     selectTableState= 2  #202201前的数据为2 后的数据是1
+        if year<2022:
+            selectTableState= 2  #202202前的数据为2 后的数据是1
+        else:
+            s=int(startMonth)
+            e=int(endMonth)
+            if year==2022 and s<e: #2022年累计数据单独设置参数
                selectTableState= 3
+            elif year==2022 and e==1:
+                selectTableState= 2
+            else:
+                selectTableState= 1  #202202前的数据为2 后的数据是1
+        # outerValue1='87036011,87036012,87036013,87036019,87036021,87036022,87036023,87036029,87036031,87036032,87036033,87036039,87036041,87036042,87036043,87036049,87036051,87036052,87036053,87036059,87036061,87036062,87036063,87036069,87036071,87036072,87036073,87036079,87037011,87037012,87037013,87037019,87037021,87037022,87037023,87037029,87037031,87037032,87037033,87037039,87037041,87037042,87037043,87037049,87037051,87037052,87037053,87037059,87037061,87037062,87037063,87037069,87037071,87037072,87037073,87037079,40111000,40112000,40121100,40121200,40122010,40129020,40131000,70071190,70072190,70091000,85229091,85269110,85272100,85272900,85392130,85392930,94019910,28046117,28046119,38180011,38180019,85044030,85414200,85414300,84723090,84729040,85258120,85258220,85258320,85258921,85258922,85258923,85258929,85286210,85286220,85286290,85286910,85286990,90065310,90065390,90065930,90065941,90065949'
        param={
            'pageSize': 10,
            'iEType': iEType,
@@ -238,17 +260,23 @@ class HgDownFile(object):
            'outerValue4':'',
            'orderType': 'CODE ASC DEFAULT',
            'selectTableState': selectTableState,  #202201前的数据为2 后的数据是1
-            'currentStartTime': '202201',
+            'currentStartTime': '202202', #2022年1月数据需要单独处理
        }
        return param

    #联合查询字段的参数设置
    def setcodesAndProductparam(self,iEType,currencyType,year,startMonth,endMonth,outerField1,filedCode):
-        # if year>2021:
-        #     selectTableState= 1  #202201前的数据为2 后的数据是1
-        # else:
-        #     selectTableState= 2  #202201前的数据为2 后的数据是1
+        if year<2022:
+            selectTableState= 2  #202202前的数据为2 后的数据是1
+        else:
+            s=int(startMonth)
+            e=int(endMonth)
+            if year==2022 and s<e: #2022年累计数据单独设置参数
                selectTableState= 3
+            elif year==2022 and e==1:
+                selectTableState= 2
+            else:
+                selectTableState= 1  #202202前的数据为2 后的数据是1
        param={
            'pageSize': 10,
            'iEType': iEType,
@@ -260,17 +288,17 @@ class HgDownFile(object):
            'unitFlag': False,
            'unitFlag1': False,
            'codeLength': '8',
-            'outerField1': outerField1,
-            'outerField2':'CODE_TS',
-            'outerField3':'',
-            'outerField4':'',
+            'outerField1': 'CODE_TS',
+            'outerField2':'ORIGIN_COUNTRY',
+            'outerField3':'TRADE_MODE',
+            'outerField4':'TRADE_CO_PORT',
            'outerValue1': filedCode,
            'outerValue2':'',
            'outerValue3':'',
            'outerValue4':'',
            'orderType': 'CODE ASC DEFAULT',
            'selectTableState': selectTableState,
-            'currentStartTime': '202201',
+            'currentStartTime': '202202',
        }
        return param

@@ -282,15 +310,29 @@ class HgDownFile(object):
            csv_reader = csv.reader(file)
            # 使用len()函数获取行数
            line_count = len(list(csv_reader))
-        if line_count > 9995:
+        if line_count > 9990:
            print('csv文件行数过大需要对编码进行拆分')
            os.remove(tmpfilename)
            return ''
        else:
            shutil.copy(tmpfilename, filePathName)
-
            os.remove(tmpfilename)
+
        return   filePathName
+    #将临时文件放复制到目录中
+    def tmpFileLength(self,tmpfilename):
+        flag=True
+        # 打开csv文件
+        with open(tmpfilename, 'r') as file:
+            # 创建csv阅读器
+            csv_reader = csv.reader(file)
+            # 使用len()函数获取行数
+            line_count = len(list(csv_reader))
+        if line_count > 9990:
+            print('csv文件行数过大需要对编码进行拆分')
+            flag=False
+
+        return  flag

    def readcsv(self,filePath):
        codes=[]
@@ -300,7 +342,7 @@ class HgDownFile(object):
            next(reader)
            for row in reader:
                # print(row[0])
-                codes.append(row[0])
+                codes.append(str(row[0]))
        return codes
    #下载获取字段的编码信息
    def field1Down(self,year,endMonth):
@@ -311,7 +353,7 @@ class HgDownFile(object):
        year = int(year)
        month = current_date.month
        iETypes=[0,1,10]
-        outerFields=['CODE_TS','ORIGIN_COUNTRY','TRADE_MODE','TRADE_CO_PORT']
+        outerFields=['CODE_TS']
        # outerFields=['CODE_TS']
        currencyType='usd'
        # endMonth=self.r.get('newMonth')
@@ -319,7 +361,10 @@ class HgDownFile(object):
        # endMonth=int(self.config.get('param', 'endMonth'))
        # if endMonth != (month-1):
        #     return
+        if endMonth==1:
            startMonths=[1]
+        else:
+            startMonths=[1,endMonth]
        for startMonth in startMonths:
            for iEType in iETypes:
                for outerField1 in outerFields:
@@ -333,25 +378,109 @@ class HgDownFile(object):
                    print(saveFileName)

        return fieldFileList
-    #下载贸易方式商品，贸易伙伴商品，注册地商品 的统计信息
-    #1.从单个统计文件中获取对应的贸易编码，
-    #2.对每个贸易编码进行文件下载
-    #3.对下载的文件进行合并清洗重命名
+
+    #下载商品编码的内容信息
    def fieldCodeDown(self,iEType,currencyType,year,startMonth,endMonth,outerField1,codes):
        codeFileList=[]
-        for code in codes:
+        #对数据进行变量分组
+        codeList=self.group_elements(codes)
+        for k in range(0,len(codeList)):
+            code=codeList[k]
+            filecodes='cc'+str(k)
+            #拼接参数
+            param=self.setcodesAndProductparam(iEType,currencyType,year,startMonth,endMonth,outerField1,code)
+            #生成参数对应的文件路径
+            filePathName=self.codeFilepath(iEType,currencyType,year,startMonth,endMonth,outerField1,filecodes)
+            if os.path.exists(filePathName):
+                print(f'文件已存在{filePathName}')
+                codeFileMsg={
+                    '文件名':filePathName,
+                    '商品编码':code,
+                }
+                codeFileList.append(codeFileMsg)
+                continue
+            tmpfilename=self.reqDownFile(param)
+            fflag=self.tmpFileLength(tmpfilename)
+            #判断文件行数是否接近1万
+            if fflag: #小于1万保存数据
+                #校验临时的金额是否跟统计文件中的对应
+                flagg=self.verifyFile(tmpfilename,year,startMonth,endMonth,outerField1,iEType,currencyType)
+                #将临时文件的数据复制到指定文件中
+                if flagg:
+                    #将下载的临时文件复制到规定的文件中
+                    saveFileName=self.tmpToFile(tmpfilename,filePathName)
+                else:
+                    saveFileName=''
+            else:
+                saveFileName=''
+            #文件行数超过接近1万时需要对编码进行拆分进行重新下载
+            if saveFileName=='':
+                cds=code.split(',')
+                for j in range(0,len(cds)):
+                    code=cds[j]
+                    filecodes='cc'+str(k)+'_'+str(j)
+                    #拼接参数
                    param=self.setcodesAndProductparam(iEType,currencyType,year,startMonth,endMonth,outerField1,code)
-            filePathName=self.codeFilepath(iEType,currencyType,year,startMonth,endMonth,outerField1,code)
+                    #生成参数对应的文件路径
+                    filePathName=self.codeFilepath(iEType,currencyType,year,startMonth,endMonth,outerField1,filecodes)
                    if os.path.exists(filePathName):
                        print(f'文件已存在{filePathName}')
-                codeFileList.append(filePathName)
+                        codeFileMsg={
+                            '文件名':filePathName,
+                            '商品编码':code,
+                        }
+                        codeFileList.append(codeFileMsg)
                        continue
                    tmpfilename=self.reqDownFile(param)
+                    #校验临时的金额是否跟统计文件中的对应
+                    flagg=self.verifyFile(tmpfilename,year,startMonth,endMonth,outerField1,iEType,currencyType)
+                    #将临时文件的数据复制到指定文件中
+                    if flagg:
+                        #将下载的临时文件复制到规定的文件中
                        saveFileName=self.tmpToFile(tmpfilename,filePathName)
+                    # #将下载的临时文件复制到规定的文件中
+                    # saveFileName=self.tmpToFile(tmpfilename,filePathName)
+
            print(saveFileName)
            codeFileList.append(saveFileName)
-        return codeFileList
+            filemsg=self.codeFilepathMsg(iEType,currencyType,year,startMonth,endMonth,outerField1)
+        return codeFileList,filemsg
+

+    def verifyFile(self,tmpfilename,year,startMonth,endMonths,outerField1,iEType,currencyType):
+        flag=False
+        path='D:\\hg\\'
+        years=year
+        endMonths=endMonths
+        end_str=int(endMonths)
+        startMonths=startMonth
+        if startMonths<=end_str:
+            try:
+                filePathName=self.filepath(iEType,currencyType,year,startMonth,endMonth,outerField1)
+            except :
+                traceback.print_exc()
+            try:
+                dfAll = pd.read_csv(filePathName, encoding='gbk',dtype=str)
+                dfAll['美元'] = dfAll['美元'].str.replace(',', '').astype(float)
+                ddf = pd.read_csv(tmpfilename, encoding='gbk',dtype=str)
+                ddf['美元']=pd.to_numeric(ddf['美元'].str.replace(',', '').astype(float))
+                column_sum = ddf.groupby('商品编码')['美元'].sum()
+                sumList=column_sum.reset_index().values.tolist()
+                for codesum in sumList:
+                    codeId=codesum[0]
+                    cvalue=codesum[1]
+                    row =dfAll.loc[dfAll['商品编码']==codeId]
+                    try:
+                        usvalue = row.at[row.index[-1], '美元']
+                        if usvalue==cvalue:
+                            flag=True
+                    except Exception as e:
+                        print(e)
+            except Exception as e22:
+                print(e22)
+        return flag
+
+    #详情商品信息参数拼接
    def codeFieldDown(self,fieldFileList,year,endMonth):
        current_date = datetime.now()
        # year = current_date.year
@@ -359,17 +488,11 @@ class HgDownFile(object):
        # endMonth=self.r.get('newMonth')
        # endMonth=int(endMonth.decode('utf-8'))
        # endMonth=int(self.config.get('param', 'endMonth'))
+        codeFileList=[]
        for fieldFile in fieldFileList:
            #['CODE_TS','ORIGIN_COUNTRY','TRADE_MODE','TRADE_CO_PORT']
            try:
-                if '商品' in fieldFile:
-                    continue
-                if '贸易伙伴' in fieldFile:
-                    outerField1=['ORIGIN_COUNTRY']
-                if '贸易方式' in fieldFile:
-                    outerField1=['TRADE_MODE']
-                if '收发货地址' in fieldFile:
-                    outerField1=['TRADE_CO_PORT']
+                outerField1=['CODE_TS']
                if '单月' in fieldFile:
                    startMonth=endMonth
                if '累计' in fieldFile:
@@ -381,37 +504,70 @@ class HgDownFile(object):
                if '--进出口' in fieldFile:
                    iEType=10
                currencyType='usd'
-                codes=hgDownFile.readcsv(fieldFile)
-                codeFileList=hgDownFile.fieldCodeDown(iEType,currencyType,year,startMonth,endMonth,outerField1,codes)
-                print(f'codes:{len(codeFileList)}')
-                print(len(codeFileList))
-                while len(codes)!= len(codeFileList):
-                    print('+++++++++++++')
-                    codeFileList=hgDownFile.fieldCodeDown(iEType,currencyType,year,startMonth,endMonth,outerField1,codes)
+                codes=hgDownFile.readcsv(fieldFile) #获取商品编码
+                # 进行下载
+                codeFileList,filemsg=hgDownFile.fieldCodeDown(iEType,currencyType,year,startMonth,endMonth,outerField1,codes)

            except Exception as e:
-                print(e)
+                # print(e)
+                traceback.print_exc()
+                continue

+        return codeFileList,filemsg
+    def group_elements(self,codes):
+        groups = [codes[i:i+8] for i in range(0, len(codes), 8)]
+        result = [','.join(group) for group in groups]
+        return result
+
+    def outfilemsg(self,codeFileList,filemsg):
+        # 输出字典数据到CSV文件
+        with open(filemsg, 'w', newline='') as file:
+            fieldnames = ['文件名', '商品编码']
+            writer = csv.DictWriter(file, fieldnames=fieldnames)
+            writer.writeheader()
+            writer.writerows(codeFileList)

 if __name__ == '__main__':
    hgDownFile=HgDownFile()
-    # hgDownFile.fileNameleiji()
-    # hgDownFile.fileNamedanyue()
-    # hgDownFile.tmpToFile(tmpfilename,filePathName)

-    ss=hgDownFile.config.get('param', 'endMonth')
    yss=hgDownFile.config.get('param', 'year')
+    ss=hgDownFile.config.get('param', 'endMonth')
+
+    # newMonth = hgDownFile.r.get("newMonth").decode('utf-8')
+    # ms = "{:02d}".format(int(ss))
+    #设置采集中
+    # hgDownFile.r.set("newhgdatastatus"+yss+"_"+ms,1)
+    try:
        for ye in yss.split(','):
            year=int(ye)
            for s in ss.split(','):
                endMonth=int(s)
+                print(f'year:{year} end:{endMonth}')
+                try:
                    fieldFileList=hgDownFile.field1Down(year,endMonth)
                    if endMonth==1:
-                while len(fieldFileList)< 12:
+                        while len(fieldFileList)< 3:
                            fieldFileList=hgDownFile.field1Down(year,endMonth)
-                    if len(fieldFileList)>= 12:
+                            if len(fieldFileList)>= 3:
+                                break
+                    else:
+                        while len(fieldFileList)< 6:
+                            fieldFileList=hgDownFile.field1Down(year,endMonth)
+                            if len(fieldFileList)>= 6:
                                break
-
                    for i in range(1,3):
-                print('_______________')
-                hgDownFile.codeFieldDown(fieldFileList,year,endMonth)
+                        codeFileList,filemsg=hgDownFile.codeFieldDown(fieldFileList,year,endMonth)
+                    #输出文件和商品编码对应到文件中
+                    hgDownFile.outfilemsg(codeFileList,filemsg)
+                except Exception as ee:
+                    print(ee)
+    except  Exception as e:
+        print(e)
+        # hgDownFile.r.set("newhgdatastatus"+yss+"_"+ms,3)
+    #设置采集结束
+    # hgDownFile.r.set("newhgdatastatus"+yss+"_"+ms,2)
+
+
+
+
+
--- a/comData/haiguanData/logMsg.py
+++ b/comData/haiguanData/logMsg.py
+# !/usr/bin/env python
+# -*- coding:utf-8 -*-
+
+import logging
+import getpass
+import sys
+
+class MyLog(object):
+    
+    def __init__(self):
+        """这个类用于创建一个自用的log"""
+        user=getpass.getuser()
+        self.logger=logging.getLogger(user)
+        self.logger.setLevel(logging.DEBUG)
+        logFile=sys.argv[0][0:-3]+'.log' #日志文件名
+        formatter=logging.Formatter('%(asctime)-12s %(levelname)-8s %(name)-10s %(message)-12s')
+
+        """日志显示到屏幕上并输出到日志文件夹内"""
+        logHand=logging.FileHandler(logFile)
+        logHand.setFormatter(formatter)
+        logHand.setLevel(logging.ERROR) #只有错误才会被记录到logfile中
+
+        logHandSt=logging.StreamHandler()
+        logHandSt.setFormatter(formatter)
+
+        self.logger.addHandler(logHand)
+        self.logger.addHandler(logHandSt)
+
+    """日志的5个级别对应以下的5个函数"""
+    def debug(self,msg):
+        self.logger.debug(msg)
+
+    def info(self,msg):
+        self.logger.info(msg)
+
+    def warn(self,msg):
+        self.logger.warn(msg)
+
+    def error(self,msg):
+        self.logger.error(msg)
+
+    def critical(self,msg):
+        self.logger.critical(msg)
+
+
+if __name__ == '__main__':
+    mylog=MyLog()
+    mylog.debug("我是一个debug")
+    mylog.info("我是一个info")
+    mylog.warn("我是一个warn")
+    mylog.error("我是一个error")
+    mylog.critical("我是一个critical")
--- a/comData/policylaw/政策法规.xlsx
+++ b/comData/policylaw/政策法规.xlsx
--- a/comData/tradingview/tradviewNew.py
+++ b/comData/tradingview/tradviewNew.py
@@ -93,7 +93,7 @@ def paserList(searchmsg,social_code):
            storyPath='https://cn.tradingview.com'+item['storyPath']
            published=item['published']
            published=getFormatedate(published)
-
+            log.info(f'信用代码{social_code}的资讯列表---{storyPath}')
            #是否重复判断
            flag=selectLinkMsg(storyPath,social_code)
            if flag:
@@ -121,7 +121,10 @@ def paserList(searchmsg,social_code):
            #     sourceAddress=storyPath
            sourceAddress=storyPath
            content,contentWithTag=extractorMsg(sourceAddress,title)
+
            if content:
+                if len(content)<150:
+                    continue
                time_now = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
                detailmsg={
                    'content': content,
@@ -214,7 +217,7 @@ def conn144():
 def getStockFromSql():
    conn,cursor=conn144()
    # 检查记录是否存在
-    select_sql=f"SELECT ticker,exchange,xydm FROM mgzqyjwyh_list "
+    select_sql=f"SELECT ticker,exchange,xydm FROM mgzqyjwyh_list where xydm='ZZSN22080900000001' "
    cursor.execute(select_sql)
    gn_result = cursor.fetchall()
    conn.commit()
@@ -313,20 +316,23 @@ if __name__ == '__main__':
    # url='https://news-headlines.tradingview.com/v2/headlines?client=web&lang=zh-Hans&symbol=NASDAQ%3AAAPL'
    # searchmsg=reqmsg(url)
    # print(searchmsg)
-    # getStockFromSql()
-    while True:
-        try:
-            tradview_ticker=r.lpop('tradview_ticker')
-            if tradview_ticker:
-                tradviewticker = tradview_ticker.decode(errors='ignore')
-                ticker_param=str(tradviewticker).split('_')[0]
-                social_code=str(tradviewticker).split('_')[1]
-                url=f'https://news-headlines.tradingview.com/v2/headlines?client=web&lang=zh-Hans&symbol={tradview_ticker}'
-                searchmsg=reqmsg(url)
-                paserList(searchmsg,social_code)
-        except Exception as e:
-            log.info(f'redis中获取企业信息为空{e}')
-            break
+    getStockFromSql()
+    # while True:
+    #     try:
+    #         tradview_ticker=r.lpop('tradview_ticker')
+    #         if tradview_ticker:
+    #
+    #             tradviewticker = tradview_ticker.decode(errors='ignore')
+    #             log.info(f'采集资讯的企业{tradviewticker}')
+    #             ticker_param=str(tradviewticker).split('_')[0]
+    #             social_code=str(tradviewticker).split('_')[1]
+    #             url=f'https://news-headlines.tradingview.com/v2/headlines?client=web&lang=zh-Hans&symbol={ticker_param}'
+    #             log.info(f'采集资讯企业列表地址{tradview_ticker}')
+    #             searchmsg=reqmsg(url)
+    #             paserList(searchmsg,social_code)
+    #     except Exception as e:
+    #         log.info(f'redis中获取企业信息为空{e}')
+    #         break




--- a/comData/wanfangdataCrawler/机构.xlsx
+++ b/comData/wanfangdataCrawler/机构.xlsx
--- a/comData/wanfangdataCrawler/超星期刊.xlsx
+++ b/comData/wanfangdataCrawler/超星期刊.xlsx
--- a/comData/weixin_solo/base/fdfs_client/client.py
+++ b/comData/weixin_solo/base/fdfs_client/client.py
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+# filename: client.py
+
+'''
+  Client module for Fastdfs 3.08
+  author: scott yuan scottzer8@gmail.com
+  date: 2012-06-21
+'''
+
+import os
+import sys
+from fdfs_client.utils import *
+from fdfs_client.tracker_client import *
+from fdfs_client.storage_client import *
+from fdfs_client.exceptions import *
+
+
+def get_tracker_conf(conf_path='../../client.conf'):
+    cf = Fdfs_ConfigParser()
+    tracker = {}
+    try:
+        cf.read(conf_path)
+        timeout = cf.getint('__config__', 'connect_timeout')
+        tracker_list = cf.get('__config__', 'tracker_server')
+        if isinstance(tracker_list, str):
+            tracker_list = [tracker_list]
+        tracker_ip_list = []
+        for tr in tracker_list:
+            tracker_ip, tracker_port = tr.split(':')
+            tracker_ip_list.append(tracker_ip)
+        tracker['host_tuple'] = tuple(tracker_ip_list)
+        tracker['port'] = int(tracker_port)
+        tracker['timeout'] = timeout
+        tracker['name'] = 'Tracker Pool'
+    except:
+        raise
+    return tracker
+
+
+class Fdfs_client(object):
+    '''
+    Class Fdfs_client implemented Fastdfs client protol ver 3.08.
+
+    It's useful upload, download, delete file to or from fdfs server, etc. It's uses
+    connection pool to manage connection to server.
+    '''
+
+    def __init__(self, trackers, poolclass=ConnectionPool):
+        self.trackers = trackers
+        self.tracker_pool = poolclass(**self.trackers)
+        self.timeout = self.trackers['timeout']
+        return None
+
+    def __del__(self):
+        try:
+            self.pool.destroy()
+            self.pool = None
+        except:
+            pass
+
+    def upload_by_filename(self, filename, meta_dict=None):
+        '''
+        Upload a file to Storage server.
+        arguments:
+        @filename: string, name of file that will be uploaded
+        @meta_dict: dictionary e.g.:{
+            'ext_name'  : 'jpg',
+            'file_size' : '10240B',
+            'width'     : '160px',
+            'hight'     : '80px'
+        } meta_dict can be null
+        @return dict {
+            'Group name'      : group_name,
+            'Remote file_id'  : remote_file_id,
+            'Status'          : 'Upload successed.',
+            'Local file name' : local_file_name,
+            'Uploaded size'   : upload_size,
+            'Storage IP'      : storage_ip
+        } if success else None
+        '''
+        isfile, errmsg = fdfs_check_file(filename)
+        if not isfile:
+            raise DataError(errmsg + '(uploading)')
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_stor_without_group()
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_upload_by_filename(tc, store_serv, filename, meta_dict)
+
+    def upload_by_file(self, filename, meta_dict=None):
+        isfile, errmsg = fdfs_check_file(filename)
+        if not isfile:
+            raise DataError(errmsg + '(uploading)')
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_stor_without_group()
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_upload_by_file(tc, store_serv, filename, meta_dict)
+
+    def upload_by_buffer(self, filebuffer, file_ext_name=None, meta_dict=None):
+        '''
+        Upload a buffer to Storage server.
+        arguments:
+        @filebuffer: string, buffer
+        @file_ext_name: string, file extend name
+        @meta_dict: dictionary e.g.:{
+            'ext_name'  : 'jpg',
+            'file_size' : '10240B',
+            'width'     : '160px',
+            'hight'     : '80px'
+        }
+        @return dict {
+            'Group name'      : group_name,
+            'Remote file_id'  : remote_file_id,
+            'Status'          : 'Upload successed.',
+            'Local file name' : '',
+            'Uploaded size'   : upload_size,
+            'Storage IP'      : storage_ip
+        } if success else None
+        '''
+        if not filebuffer:
+            raise DataError('[-] Error: argument filebuffer can not be null.')
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_stor_without_group()
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_upload_by_buffer(tc, store_serv, filebuffer, file_ext_name, meta_dict)
+
+    def upload_slave_by_filename(self, filename, remote_file_id, prefix_name, meta_dict=None):
+        '''
+        Upload slave file to Storage server.
+        arguments:
+        @filename: string, local file name
+        @remote_file_id: string, remote file id
+        @prefix_name: string
+        @meta_dict: dictionary e.g.:{
+            'ext_name'  : 'jpg',
+            'file_size' : '10240B',
+            'width'     : '160px',
+            'hight'     : '80px'
+        }
+        @return dictionary {
+            'Status'        : 'Upload slave successed.',
+            'Local file name' : local_filename,
+            'Uploaded size'   : upload_size,
+            'Remote file id'  : remote_file_id,
+            'Storage IP'      : storage_ip
+        }
+        '''
+        isfile, errmsg = fdfs_check_file(filename)
+        if not isfile:
+            raise DataError(errmsg + '(uploading slave)')
+        tmp = split_remote_fileid(remote_file_id)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(uploading slave)')
+        if not prefix_name:
+            raise DataError('[-] Error: prefix_name can not be null.')
+        group_name, remote_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_stor_with_group(group_name)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        try:
+            ret_dict = store.storage_upload_slave_by_filename(tc, store_serv, filename, prefix_name, remote_filename,
+                                                              meta_dict=None)
+        except:
+            raise
+        ret_dict['Status'] = 'Upload slave file successed.'
+        return ret_dict
+
+    def upload_slave_by_file(self, filename, remote_file_id, prefix_name, meta_dict=None):
+        '''
+        Upload slave file to Storage server.
+        arguments:
+        @filename: string, local file name
+        @remote_file_id: string, remote file id
+        @prefix_name: string
+        @meta_dict: dictionary e.g.:{
+            'ext_name'  : 'jpg',
+            'file_size' : '10240B',
+            'width'     : '160px',
+            'hight'     : '80px'
+        }
+        @return dictionary {
+            'Status'        : 'Upload slave successed.',
+            'Local file name' : local_filename,
+            'Uploaded size'   : upload_size,
+            'Remote file id'  : remote_file_id,
+            'Storage IP'      : storage_ip
+        }
+        '''
+        isfile, errmsg = fdfs_check_file(filename)
+        if not isfile:
+            raise DataError(errmsg + '(uploading slave)')
+        tmp = split_remote_fileid(remote_file_id)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(uploading slave)')
+        if not prefix_name:
+            raise DataError('[-] Error: prefix_name can not be null.')
+        group_name, remote_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_stor_with_group(group_name)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        try:
+            ret_dict = store.storage_upload_slave_by_file(tc, store_serv, filename, prefix_name, remote_filename,
+                                                          meta_dict=None)
+        except:
+            raise
+        ret_dict['Status'] = 'Upload slave file successed.'
+        return ret_dict
+
+    def upload_slave_by_buffer(self, filebuffer, remote_file_id, meta_dict=None, file_ext_name=None):
+        '''
+        Upload slave file by buffer
+        arguments:
+        @filebuffer: string
+        @remote_file_id: string
+        @meta_dict: dictionary e.g.:{
+            'ext_name'  : 'jpg',
+            'file_size' : '10240B',
+            'width'     : '160px',
+            'hight'     : '80px'
+        }
+        @return dictionary {
+            'Status'        : 'Upload slave successed.',
+            'Local file name' : local_filename,
+            'Uploaded size'   : upload_size,
+            'Remote file id'  : remote_file_id,
+            'Storage IP'      : storage_ip
+        }
+        '''
+        if not filebuffer:
+            raise DataError('[-] Error: argument filebuffer can not be null.')
+        tmp = split_remote_fileid(remote_file_id)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(uploading slave)')
+        group_name, remote_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, remote_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_upload_slave_by_buffer(tc, store_serv, filebuffer, remote_filename, meta_dict,
+                                                    file_ext_name)
+
+    def upload_appender_by_filename(self, local_filename, meta_dict=None):
+        '''
+        Upload an appender file by filename.
+        arguments:
+        @local_filename: string
+        @meta_dict: dictionary e.g.:{
+            'ext_name'  : 'jpg',
+            'file_size' : '10240B',
+            'width'     : '160px',
+            'hight'     : '80px'
+        }    Notice: it can be null
+        @return dict {
+            'Group name'      : group_name,
+            'Remote file_id'  : remote_file_id,
+            'Status'          : 'Upload successed.',
+            'Local file name' : '',
+            'Uploaded size'   : upload_size,
+            'Storage IP'      : storage_ip
+        } if success else None
+        '''
+        isfile, errmsg = fdfs_check_file(local_filename)
+        if not isfile:
+            raise DataError(errmsg + '(uploading appender)')
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_stor_without_group()
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_upload_appender_by_filename(tc, store_serv, local_filename, meta_dict)
+
+    def upload_appender_by_file(self, local_filename, meta_dict=None):
+        '''
+        Upload an appender file by file.
+        arguments:
+        @local_filename: string
+        @meta_dict: dictionary e.g.:{
+            'ext_name'  : 'jpg',
+            'file_size' : '10240B',
+            'width'     : '160px',
+            'hight'     : '80px'
+        }    Notice: it can be null
+        @return dict {
+            'Group name'      : group_name,
+            'Remote file_id'  : remote_file_id,
+            'Status'          : 'Upload successed.',
+            'Local file name' : '',
+            'Uploaded size'   : upload_size,
+            'Storage IP'      : storage_ip
+        } if success else None
+        '''
+        isfile, errmsg = fdfs_check_file(local_filename)
+        if not isfile:
+            raise DataError(errmsg + '(uploading appender)')
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_stor_without_group()
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_upload_appender_by_file(tc, store_serv, local_filename, meta_dict)
+
+    def upload_appender_by_buffer(self, filebuffer, file_ext_name=None, meta_dict=None):
+        '''
+        Upload a buffer to Storage server.
+        arguments:
+        @filebuffer: string
+        @file_ext_name: string, can be null
+        @meta_dict: dictionary, can be null
+        @return dict {
+            'Group name'      : group_name,
+            'Remote file_id'  : remote_file_id,
+            'Status'          : 'Upload successed.',
+            'Local file name' : '',
+            'Uploaded size'   : upload_size,
+            'Storage IP'      : storage_ip
+        } if success else None
+        '''
+        if not filebuffer:
+            raise DataError('[-] Error: argument filebuffer can not be null.')
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_stor_without_group()
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_upload_appender_by_buffer(tc, store_serv, filebuffer, meta_dict, file_ext_name)
+
+    def delete_file(self, remote_file_id):
+        '''
+        Delete a file from Storage server.
+        arguments:
+        @remote_file_id: string, file_id of file that is on storage server
+        @return tuple ('Delete file successed.', remote_file_id, storage_ip)
+        '''
+        tmp = split_remote_fileid(remote_file_id)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(in delete file)')
+        group_name, remote_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, remote_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_delete_file(tc, store_serv, remote_filename)
+
+    def download_to_file(self, local_filename, remote_file_id, offset=0, down_bytes=0):
+        '''
+        Download a file from Storage server.
+        arguments:
+        @local_filename: string, local name of file 
+        @remote_file_id: string, file_id of file that is on storage server
+        @offset: long
+        @downbytes: long
+        @return dict {
+            'Remote file_id'  : remote_file_id,
+            'Content'         : local_filename,
+            'Download size'   : downloaded_size,
+            'Storage IP'      : storage_ip
+        }
+        '''
+        tmp = split_remote_fileid(remote_file_id)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(in download file)')
+        group_name, remote_filename = tmp
+        if not offset:
+            file_offset = int(offset)
+        if not down_bytes:
+            download_bytes = int(down_bytes)
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_fetch(group_name, remote_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_download_to_file(tc, store_serv, local_filename, file_offset, download_bytes,
+                                              remote_filename)
+
+    def download_to_buffer(self, remote_file_id, offset=0, down_bytes=0):
+        '''
+        Download a file from Storage server and store in buffer.
+        arguments:
+        @remote_file_id: string, file_id of file that is on storage server
+        @offset: long
+        @down_bytes: long
+        @return dict {
+            'Remote file_id'  : remote_file_id,
+            'Content'         : file_buffer,
+            'Download size'   : downloaded_size,
+            'Storage IP'      : storage_ip
+        }
+        '''
+        tmp = split_remote_fileid(remote_file_id)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(in download file)')
+        group_name, remote_filename = tmp
+        if not offset:
+            file_offset = int(offset)
+        if not down_bytes:
+            download_bytes = int(down_bytes)
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_fetch(group_name, remote_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        file_buffer = None
+        return store.storage_download_to_buffer(tc, store_serv, file_buffer, file_offset, download_bytes,
+                                                remote_filename)
+
+    def list_one_group(self, group_name):
+        '''
+        List one group information.
+        arguments:
+        @group_name: string, group name will be list
+        @return Group_info,  instance
+        '''
+        tc = Tracker_client(self.tracker_pool)
+        return tc.tracker_list_one_group(group_name)
+
+    def list_servers(self, group_name, storage_ip=None):
+        '''
+        List all storage servers information in a group
+        arguments:
+        @group_name: string
+        @return dictionary {
+            'Group name' : group_name,
+            'Servers'    : server list,
+        }
+        '''
+        tc = Tracker_client(self.tracker_pool)
+        return tc.tracker_list_servers(group_name, storage_ip)
+
+    def list_all_groups(self):
+        '''
+        List all group information.
+        @return dictionary {
+            'Groups count' : group_count,
+            'Groups'       : list of groups
+        }
+        '''
+        tc = Tracker_client(self.tracker_pool)
+        return tc.tracker_list_all_groups()
+
+    def get_meta_data(self, remote_file_id):
+        '''
+        Get meta data of remote file.
+        arguments:
+        @remote_fileid: string, remote file id
+        @return dictionary, meta data
+        '''
+        tmp = split_remote_fileid(remote_file_id)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(in get meta data)')
+        group_name, remote_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, remote_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_get_metadata(tc, store_serv, remote_filename)
+
+    def set_meta_data(self, remote_file_id, meta_dict, op_flag=STORAGE_SET_METADATA_FLAG_OVERWRITE):
+        '''
+        Set meta data of remote file.
+        arguments:
+        @remote_file_id: string
+        @meta_dict: dictionary
+        @op_flag: char, 'O' for overwrite, 'M' for merge
+        @return dictionary {
+            'Status'     : status,
+            'Storage IP' : storage_ip
+        }
+        '''
+        tmp = split_remote_fileid(remote_file_id)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(in set meta data)')
+        group_name, remote_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        try:
+            store_serv = tc.tracker_query_storage_update(group_name, remote_filename)
+            store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+            status = store.storage_set_metadata(tc, store_serv, remote_filename, meta_dict)
+        except (ConnectionError, ResponseError, DataError):
+            raise
+        # if status == 2:
+        #    raise DataError('[-] Error: remote file %s is not exist.' % remote_file_id)
+        if status != 0:
+            raise DataError('[-] Error: %d, %s' % (th.status, os.strerror(th.status)))
+        ret_dict = {}
+        ret_dict['Status'] = 'Set meta data success.'
+        ret_dict['Storage IP'] = store_serv.ip_addr
+        return ret_dict
+
+    def append_by_filename(self, local_filename, remote_fileid):
+        isfile, errmsg = fdfs_check_file(local_filename)
+        if not isfile:
+            raise DataError(errmsg + '(append)')
+        tmp = split_remote_fileid(remote_fileid)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(append)')
+        group_name, appended_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, appended_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_append_by_filename(tc, store_serv, local_filename, appended_filename)
+
+    def append_by_file(self, local_filename, remote_fileid):
+        isfile, errmsg = fdfs_check_file(local_filename)
+        if not isfile:
+            raise DataError(errmsg + '(append)')
+        tmp = split_remote_fileid(remote_fileid)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(append)')
+        group_name, appended_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, appended_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_append_by_file(tc, store_serv, local_filename, appended_filename)
+
+    def append_by_buffer(self, file_buffer, remote_fileid):
+        if not file_buffer:
+            raise DataError('[-] Error: file_buffer can not be null.')
+        tmp = split_remote_fileid(remote_fileid)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(append)')
+        group_name, appended_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, appended_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_append_by_buffer(tc, store_serv, file_buffer, appended_filename)
+
+    def truncate_file(self, truncated_filesize, appender_fileid):
+        '''
+        Truncate file in Storage server.
+        arguments:
+        @truncated_filesize: long
+        @appender_fileid: remote_fileid
+        @return: dictionary {
+            'Status'     : 'Truncate successed.',
+            'Storage IP' : storage_ip
+        }
+        '''
+        trunc_filesize = int(truncated_filesize)
+        tmp = split_remote_fileid(appender_fileid)
+        if not tmp:
+            raise DataError('[-] Error: appender_fileid is invalid.(truncate)')
+        group_name, appender_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, appender_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_truncate_file(tc, store_serv, trunc_filesize, appender_filename)
+
+    def modify_by_filename(self, filename, appender_fileid, offset=0):
+        '''
+        Modify a file in Storage server by file.
+        arguments:
+        @filename: string, local file name
+        @offset: long, file offset
+        @appender_fileid: string, remote file id
+        @return: dictionary {
+            'Status'     : 'Modify successed.',
+            'Storage IP' : storage_ip
+        }
+        '''
+        isfile, errmsg = fdfs_check_file(filename)
+        if not isfile:
+            raise DataError(errmsg + '(modify)')
+        filesize = os.stat(filename).st_size
+        tmp = split_remote_fileid(appender_fileid)
+        if not tmp:
+            raise DataError('[-] Error: remote_fileid is invalid.(modify)')
+        group_name, appender_filename = tmp
+        if not offset:
+            file_offset = int(offset)
+        else:
+            file_offset = 0
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, appender_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_modify_by_filename(tc, store_serv, filename, file_offset, filesize, appender_filename)
+
+    def modify_by_file(self, filename, appender_fileid, offset=0):
+        '''
+        Modify a file in Storage server by file.
+        arguments:
+        @filename: string, local file name
+        @offset: long, file offset
+        @appender_fileid: string, remote file id
+        @return: dictionary {
+            'Status'     : 'Modify successed.',
+            'Storage IP' : storage_ip
+        }
+        '''
+        isfile, errmsg = fdfs_check_file(filename)
+        if not isfile:
+            raise DataError(errmsg + '(modify)')
+        filesize = os.stat(filename).st_size
+        tmp = split_remote_fileid(appender_fileid)
+        if not tmp:
+            raise DataError('[-] Error: remote_fileid is invalid.(modify)')
+        group_name, appender_filename = tmp
+        if not offset:
+            file_offset = int(offset)
+        else:
+            file_offset = 0
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, appender_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_modify_by_file(tc, store_serv, filename, file_offset, filesize, appender_filename)
+
+    def modify_by_buffer(self, filebuffer, appender_fileid, offset=0):
+        '''
+        Modify a file in Storage server by buffer.
+        arguments:
+        @filebuffer: string, file buffer
+        @offset: long, file offset
+        @appender_fileid: string, remote file id
+        @return: dictionary {
+            'Status'     : 'Modify successed.',
+            'Storage IP' : storage_ip
+        }
+        '''
+        if not filebuffer:
+            raise DataError('[-] Error: filebuffer can not be null.(modify)')
+        filesize = len(filebuffer)
+        tmp = split_remote_fileid(appender_fileid)
+        if not tmp:
+            raise DataError('[-] Error: remote_fileid is invalid.(modify)')
+        group_name, appender_filename = tmp
+        if not offset:
+            file_offset = int(offset)
+        else:
+            file_offset = 0
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, appender_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_modify_by_buffer(tc, store_serv, filebuffer, file_offset, filesize, appender_filename)
--- a/comData/weixin_solo/get_tokenCookies.py
+++ b/comData/weixin_solo/get_tokenCookies.py
@@ -50,8 +50,8 @@ if __name__=="__main__":
    opt.add_experimental_option("excludeSwitches", ["enable-automation"])
    opt.add_experimental_option('excludeSwitches', ['enable-logging'])
    opt.add_experimental_option('useAutomationExtension', False)
-    opt.binary_location = r'D:/Google/Chrome/Application/chrome.exe'
-    chromedriver = r'D:/cmd100/chromedriver.exe'
+    opt.binary_location = r'D:\crawler\baidu_crawler\tool\Google\Chrome\Application\chrome.exe'
+    chromedriver = r'C:\Users\WIN10\DataspellProjects\crawlerProjectDemo\tmpcrawler\cmd100\chromedriver.exe'
    browser = webdriver.Chrome(chrome_options=opt, executable_path=chromedriver)
    url = "https://mp.weixin.qq.com/"
    browser.get(url)

--- a/comData/xinyongdaima/headerFlask.py
+++ b/comData/xinyongdaima/headerFlask.py
+
+import os
+import redis
+from flask import Flask, request, send_file, render_template, jsonify
+import json
+import pymysql
+from pyquery import PyQuery as pq
+from flask_cors import cross_origin
+
+'''
+手动捕获请求的接口数据，实现解析
+使用fiddler将链接对应的页面数据信息发送到后台，后台对数据进行解析
+通过fiddler获取浏览器访问刷新的header信息和cookie信息
+'''
+
+r = redis.Redis(host='127.0.0.1', port='6379', db=0)
+
+app = Flask(__name__)
+
+@app.route('/')
+@cross_origin()
+def index():
+    return 'Welcome to the website!'
+
+@app.route('/get_hold', methods=['POST'])
+@cross_origin()
+def get_news():
+    data=request.form
+
+@app.route('/task/setCookie', methods=['GET'])
+# @cross_origin()
+def setCookie():
+    try:
+        cookie = request.args.get('cookie')
+        r.sadd('hgcookie',cookie)
+    except Exception as e:
+        print('error')
+    return 'succes'
+
+@app.route('/task/getCookieSize', methods=['GET'])
+@cross_origin()
+def getCookieSize():
+    try:
+        size=r.scard('hgcookie')
+        data = {
+            "code": 200,
+            "msg": "操作成功",
+            "data": size
+        }
+    except Exception as e:
+        data={
+            "code": 200,
+            "msg": "操作失败",
+            "data": 0
+        }
+    return jsonify(data)
+
+
+if __name__ == '__main__':
+    app.run(port=8003)
+
+
+
+
+
+
+
+
+
+
+
+
+
+
--- a/google_comm/googleSpider.py
+++ b/google_comm/googleSpider.py
@@ -277,8 +277,8 @@ class GoogleSpider(object):
        self.logger.info("开始抓取首页..." + self.searchkw )
        time.sleep(5)
        flag, lists = self.parse_page()
-        if len(lists):
-            time.sleep(600)
+        if len(lists)<1:
+            time.sleep(6)
        for detail in lists:
            durl=detail['detailUrl']
            is_member = self.r.sismember('pygoogle_'+self.wordsCode, durl)
@@ -292,7 +292,7 @@ class GoogleSpider(object):
        hasnext = hasnext.strip()
        timeFlag = False
        while hasnext == '下一页':
-            if self.page_num==29:
+            if self.page_num==5:
                break
            self.page_num = self.page_num + 1
            self.logger.info("开始抓取第%s页..." % self.page_num)

--- a/google_comm/googletaskJob_loc.py
+++ b/google_comm/googletaskJob_loc.py
@@ -113,6 +113,8 @@ class GoogleTaskJob(object):
        id=keymsg['id']
        try:
            searchEngines=keymsg['searchEngines']
+            if 'java.util.ArrayList' in searchEngines:
+                searchEngines=searchEngines[1]
        except Exception as e:
            searchEngines=[]
        kwList=[]
@@ -127,17 +129,6 @@ class GoogleTaskJob(object):
                        'sid':id
                    }
                    kwList.append(kwmsg)
-        else:
-            logger.info('+++++')
-            keyword=keymsg['keyWord']
-            keymsglist=self.getkeywords(keyword)
-            for kw in keymsglist:
-                kwmsg={
-                    'kw':kw,
-                    'wordsCode':wordsCode,
-                    'sid':id
-                }
-                kwList.append(kwmsg)
        return kwList

    def runSpider(self,kwmsg):
@@ -175,8 +166,7 @@ if __name__ == '__main__':
        try:
            codeids=[]
            # codeid='KW-20230727-0001'
-            codeids.append('KW-20230814-0001')
-            codeids.append('KW-20230814-0005')
+            codeids.append('KW-20230925-0002')
            for codeid in codeids:
                try:
                    # keymsg=baiduTaskJob.getkafka()

--- a/jrtt1news_comm/baseCore.py
+++ b/jrtt1news_comm/baseCore.py
@@ -215,7 +215,7 @@ class BaseCore:
        except :
            pass
    def __init__(self):
-        self.__cnx_proxy = pymysql.connect(host='114.115.159.144', user='caiji', password='zzsn9988', db='clb_project',
+        self.__cnx_proxy = pymysql.connect(host='114.115.159.144', user='caiji', password='zzsn9988', db='caiji',
                                           charset='utf8mb4')
        self.__cursor_proxy= self.__cnx_proxy.cursor()
        pass
@@ -310,27 +310,28 @@ class BaseCore:
            proxy_list.append(proxy)
        return proxy_list[random.randint(0, 3)]

-    def get_proxy(self):
-        ip_list = []
-        with self.__cursor_proxy as cursor:
-            sql_str = '''select PROXY from clb_proxy where id={} '''.format(random.randint(1, 12))
-            print(sql_str)
-            cursor.execute(sql_str)
-            rows = cursor.fetchall()
-            for row in tqdm(rows):
-                str_ip = row[0]
-                str_ip_list = str_ip.split('-')
-                proxyMeta = "http://%(host)s:%(port)s" % {
-                    "host": str_ip_list[0],
-                    "port": str_ip_list[1],
-                }
-                proxy = {
-                    "HTTP": proxyMeta,
-                    "HTTPS": proxyMeta
-                }
-                ip_list.append(proxy)
+    # def get_proxy(self):
+    #     ip_list = []
+    #     with self.__cursor_proxy as cursor:
+    #         sql_str = '''select PROXY from clb_proxy where id={} '''.format(random.randint(1, 12))
+    #         print(sql_str)
+    #         cursor.execute(sql_str)
+    #         rows = cursor.fetchall()
+    #         for row in tqdm(rows):
+    #             str_ip = row[0]
+    #             str_ip_list = str_ip.split('-')
+    #             proxyMeta = "http://%(host)s:%(port)s" % {
+    #                 "host": str_ip_list[0],
+    #                 "port": str_ip_list[1],
+    #             }
+    #             proxy = {
+    #                 "HTTP": proxyMeta,
+    #                 "HTTPS": proxyMeta
+    #             }
+    #             ip_list.append(proxy)
+    #
+    #     return  ip_list

-        return  ip_list
    def get_proxyIPPort(self):
        ip_list = []
        with self.__cursor_proxy as cursor:

--- a/jrtt1news_comm/jrttnewspider.py
+++ b/jrtt1news_comm/jrttnewspider.py
@@ -37,7 +37,7 @@ class JrttnewsSpider(object):
        self.config.read('config.ini')
        baseCore=BaseCore()
        self.logger=baseCore.getLogger()
-        self.url = 'https://www.sogou.com/'
+        self.url = 'https://www.toutiao.com/'
        self.r = redis.Redis(host=self.config.get('redis', 'host'),
                             port=self.config.get('redis', 'port'),
                             password=self.config.get('redis', 'pass'), db=0)
@@ -50,7 +50,7 @@ class JrttnewsSpider(object):
        self.wordsCode = wordsCode
        self.sid = sid

-    #将列表数据插入到表中 baidu_search_result
+    #将列表数据插入到表中 meta_search_result
    def itemInsertToTable(self,items):
        try:
            itemdata=[]
@@ -60,7 +60,7 @@ class JrttnewsSpider(object):
                data=(self.sid,self.wordsCode,item['title'],item['detailurl'],item['source'],item['publishtime'],item['content'],item['contentHtml'],'1',item['kword'],nowtime)
                itemdata.append(data)

-            sql ="INSERT into baidu_search_result (sid,wordsCode,title,detailurl,origin,publishdate,content,content_with_tag,state,keyword,create_time) VALUES (%s, %s,%s, %s, %s, %s, %s, %s, %s, %s, %s)"
+            sql ="INSERT into meta_search_result (sid,wordsCode,title,detailurl,origin,publishdate,content,content_with_tag,state,keyword,create_time) VALUES (%s, %s,%s, %s, %s, %s, %s, %s, %s, %s, %s)"
            cursorM.executemany(sql, itemdata)
            self.logger.info("数据插入数据库成功！")
            # 定义插入数据的SQL语句
@@ -231,24 +231,34 @@ class JrttnewsSpider(object):

    def reqHtml(self,url):
        headers={
-            'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
-            'Accept-Encoding':'gzip, deflate, br',
-            'Accept-Language':'zh-CN,zh;q=0.9',
-            'Cache-Control':'no-cache',
+            'Host':'search5-search-hl.toutiaoapi.com',
            'Connection':'keep-alive',
-            'Cookie':'tt_webid=7283314732298225163; _ga=GA1.1.1730036912.1695778874; _tea_utm_cache_4916=undefined; _S_DPR=1; _S_IPAD=0; s_v_web_id=verify_ln12yyu3_qeLMwQ8s_Offy_4w8b_9kv1_hMDj7V2H2wuE; msToken=7l75aR51vcmcW4LxtvP1cUt2trK37XA-oZdZRTD2Are065KuEBsofVz7vcQ7kFRXkKXY-I0ydJEkpNrx1_XWuurUFWTyIxMuf8Xg5dg-; _ga_QEHZPBE5HH=GS1.1.1695778874.1.1.1695778928.0.0.0; ttwid=1%7C13mqlyEtsSnqRlDNgTCNya74xNS4Azg1-cqxvZ2aJQs%7C1695778929%7C6462d58bd323e4560a0f5db0c443e767a3716878843c0f9a1dec190be930fa37; _S_WIN_WH=1366_353',
-            'Host':'so.toutiao.com',
-            'Pragma':'no-cache',
-            'Referer':'https://so.toutiao.com/search?dvpf=pc&source=pagination&keyword=%E6%B5%99%E6%B1%9F%E5%9B%BD%E6%9C%89%E8%B5%84%E6%9C%AC%E8%BF%90%E8%90%A5%E5%85%AC%E5%8F%B8&pd=information&action_type=pagination&page_num=1&search_id=202309270941439BB9AFF54062FE7CAC13&from=news&cur_tab_title=news',
-            'Sec-Fetch-Dest':'document',
-            'Sec-Fetch-Mode':'navigate',
-            'Sec-Fetch-Site':'same-origin',
-            'Sec-Fetch-User':'?1',
+            'Cookie':'store-region=cn-ha; store-region-src=did; install_id=715108030093040; ttreq=1$142a2ea8b4ded7e0dc5e4085a9e18b099c71e711; passport_csrf_token=5bd0ecb22a060f1f0c0932c735a2a13d; passport_csrf_token_default=5bd0ecb22a060f1f0c0932c735a2a13d; odin_tt=ea866ee07058546f522aa5a30b4982a8ee5e25749fc2c9f4fa9745619a3ce73aed8deda6ec675e308c99ac3721f4621c; WIN_WH=360_592; PIXIEL_RATIO=3; FRM=new',
+            'tt-tick-click':'1697767278469',
+            'tt-enable-js-ext':'true',
+            'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
+            'User-Agent':'Mozilla/5.0 (Linux; Android 7.1.2; VTR-AL00 Build/N2G47H; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/81.0.4044.117 Mobile Safari/537.36 JsSdk/2 NewsArticle/9.5.1 NetType/wifi',
            'Upgrade-Insecure-Requests':'1',
-            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36',
-            'sec-ch-ua':'"Chromium";v="116", "Not)A;Brand";v="24", "Google Chrome";v="116"',
-            'sec-ch-ua-mobile':'?0',
-            'sec-ch-ua-platform':'"Windows"'
+            'tt-flow-type':'1',
+            'X-SS-REQ-TICKET':'1697767278718',
+            'x-vc-bdturing-sdk-version':'3.5.0.cn',
+            'x-tt-dt':'AAAUR64HZMJ24BRNLGOI3WYF36IOAE3WDWW5RTNUGW5XMR3S24FLN5ILRURRCSIDIS5ENZ43J2K5OOQJJUJUVTDAZNEDCUCFLASISSXB4O5NU5B2MD3ISSH7UFPFIDIBW76O6PUCQY3GZ34CZF5J4YI',
+            'passport-sdk-version':'40650',
+            'sdk-version':'2',
+            'x-tt-request-tag':'n=1;n=1;s=-1;p=0',
+            'x-tt-store-region':'cn-ha',
+            'x-tt-store-region-src':'did',
+            'X-SS-DP':'13',
+            'x-tt-trace-id':'00-4ad0ca4309cdb953b3dd550a32f4000d-4ad0ca4309cdb953-01',
+            'Referer':'http://nativeapp.toutiao.com/',
+            'Accept-Encoding':'gzip, deflate',
+            'X-Argus':'KHZwJccO8RFUIqNJ/EX0ymUiPivSYbrByFwa1el1x3fzCwmdtvtfOOTb6JZDclXHMsIXUO7lZRbs9Pyo84vnORF7UT3f4hOCiiLjT+SCM8eETtX9pAmz+6sKw0h19OhZMAT5MhGyvvX2NObiv2Avnujt19g5oof8KWbgVMc4jJO1r+Di99IZ4MDJJm6OyLAC5U2eVV5KnplpMO5AtCt7+pCJqha+bNc3rFneU9S1njW155hdZ2wVoc6vg1HNt5VZcK3Qtj/3sKhV+gUXflyLw+rl',
+            'X-Gorgon':'8404a094000036a0eaee8b8c2540649078f55860dd5db65b55c5',
+            'X-Helios':'l2NKLtVosKrLBwQtg/ThpLjDrQIigxP6jwYKhbI2NAK7fK2k',
+            'X-Khronos':'1697767278',
+            'X-Ladon':'WOfdV44iiU/2w5WK+XsuKpHuhNVBuJPnL2o+9tZGMcAS37rn',
+            'X-Medusa':'bN8xZVizpAlbrWv+igssAKZnSEOd4poN/EvhkHRQPxmsXRwrXqOAPJs+fYDNdsfxcJEB34kVAFTm4hB+TxeLRRqwbKS8cfNVLcTHB26WUBYdz36455NMvA/5DIzOifTKJuxKP2E2i8BUX2JwkzEeIYzVRdzdEXDseszRvfWZTUpL1rnkS1+IoN8xQn7cmUEcKl2tn1zfECP5tp4x3v3c+tHVmiPGp9QhuhHT41C5DeavAgJANCuWd4gXV3PCyAtzGyv7AyxutplIntLWJRJySTh8POrHZbbG3x/CGPLkDdGC7pnXNc3aay3IilI4O85yktkYxbfU5yKWDz1zfds3bIIXH9tTE82U7pclJlBSYuPlGbOmqSSAIQHu+psHMDY+aH+hHOP8vvQww/vpxdPQLqhA4kLlJxc84ykQDieibhKDuCP711BdsOC2eLqsB1lsohv09kZp/ELW8W5AsWBK+jj1wlggPehpCaIlcAlGXk4Cm/X3flMO3u+VyrLSVfL1t6hYvPglcYR0Wg6yPgXOoJQHwXAeAkE3tsyZwK2tDOxa7LjnF3O+Pf1KRZohSN1sCxV3wQwUDw3wY/TqV+Rb/Cz2fcZXQfVTPDf8ZbhE/+UY/3quismg//wIDjOgT63lvt6gLPuJvjiuhmnHHIewJEb7YIG7InjTEJ2RSCkbqsTKj4U4cyhVG3oc66OywOuXAwglWmtmnZVlksbxEAHnGNfZqYHw+lRAdH5deKKAbFJmaTaIjahFGvkUbNpo7dSHetGae6IuqxNdbXI+P4WglVLCvjaTKJ6KQF/lbryau/lu3H/jmYQ5j4d+RmGrwxR9AoZhgShRddLvbG1n5og65drzo8PMijkUSbtr63LlCzoCcxW77pTSmrwDj5olu753p3kWZ3iq',
+            'x-common-params-v2':'ab_feature=102749%2C94563&ab_group=94567%2C102752&ab_version=668776%2C7284540%2C668774%2C7284539%2C662176%2C7284532%2C668779%2C7284545%2C662099%2C7284498%2C660830%2C7284548%2C1859937%2C668775%2C4413279%2C7284550%2C7339127%2C7379048%2C6378074%2C7032529%2C7208866%2C7308647%2C6154373&ac=wifi&aid=13&app_name=news_article&cdid=7e885618-b3d3-4522-a8a4-fb6ad143c4a9&channel=huawei_13_64&client_vid=6784077%2C3383553%2C2827921%2C3194525&device_brand=HUAWEI&device_id=55223597885&device_platform=android&device_type=VTR-AL00&dpi=480&dq_param=1&host_abi=arm64-v8a&iid=715108030093040&immerse_pool_type=-2&language=zh&manifest_version_code=9510&os=android&os_api=25&os_version=7.1.2&plugin=0&resolution=1080*1776&rom_version=25&ssmix=a&update_version_code=95108&version_code=951&version_name=9.5.1',
        }
        try:
            res=requests.get(url,headers=headers,verify=False,timeout=10)
@@ -273,6 +283,21 @@ class JrttnewsSpider(object):
            result=''
        return result

+    def get_reitemid(self,tmpurl):
+        try:
+            pattern='item_id=([\d]{1,})&search_id'
+            match = re.search(pattern, tmpurl)
+            # 判断是否匹配成功
+            if match:
+                # 获取匹配的结果
+                result = match.group(1)
+                result=unquote(result)
+            else:
+                result=''
+        except:
+            result=''
+        return result
+

    def getFormatedate(self,timestamp):
        date = datetime.datetime.fromtimestamp(timestamp)
@@ -282,33 +307,42 @@ class JrttnewsSpider(object):
    # 获取每一页数据, 开趴.
    def get_page_html(self):
        #设置采集列表页面和页数
-        totalnum=3
+        totalnum=1
        keyword=self.searchkw
        # keyword='浙江国有资本运营公司'
        for pagenum in range(0,totalnum):
-
-            url=f'https://so.toutiao.com/search?dvpf=pc&source=pagination&keyword={keyword}&pd=information&action_type=pagination&page_num={pagenum}&from=news&cur_tab_title=news'
+            self.logger.info(f"解析关键词{keyword}第{pagenum}页")
+            offset=pagenum*10
+            tmpurl='https://search5-search-hl.toutiaoapi.com/search/?source=search_subtab_switch&is_ttwebview=0&pass_through=default&action_type=input_keyword_search&is_incognito=0&api_param={"sug_session_id":"552235978851697767261639"}&inner_resolution=1080*1920&navbar_height=36&multi_container=1&gs_height=44&client_extra_params={"playparam":"codec_type:7,cdn_type:1,resolution:1080*1920,ttm_version:924000,enable_dash:0,unwatermark:1,v1_fitter_info:1,tt_net_energy:4,is_order_flow:-1,tt_device_score:7.1,tt_enable_adaptive:2"}&common_hashtags=default&_rticket=1697767236897&loadId=1&from_search_id=202310201001051EB17B3CBA66215D937D&isTTWebViewHeifSupport=0&has_gs=0&multi_container_type=1&forum=3&tt_font_size=m' \
+                   '&search_start_time=1697767265219&pd=information&cur_tab_title=search_tab&offset_height=108&openlive_plugin_status=0&fetch_by_ttnet=1&is_darkmode=0&from_pd=synthesis&plugin_enable=3&search_position=search_bar' \
+                   '&keyword=[keyword]&session_id=f1d0e9e4-cb15-4b60-b894-de729a76e6a9&switch_tab_type=click&appTheme=light&search_json={"__logExtra__":{"if_sar_recall":"0","from_category_name":"__all__","from_enter_from":"click_headline","from_channel_id":"0"}}' \
+                   '&from=search_tab&is_older=0&tt_daymode=1&search_sug=1&&runtime_tc=tt_search&browser_runtime_version=1720&format=json' \
+                   '&count=10&offset=[offset]&search_id=20231020120041F06F03C42D66A4AC5EC2&start_index=30&index_resource=&filter_vendor=&filter_period=&order_type=' \
+                   '&min_time=&max_time=&traffic_source='
+            url=tmpurl.replace('[keyword]',keyword).replace('[offset]',str(offset))
            lhtml=self.reqHtml(url)
-            soup = BeautifulSoup(lhtml, 'html.parser')
-            result_contents=soup.select('div[class="s-result-list"]')
-            for lists in result_contents:
-                doc=pq(str(lists))
-                listcontent=doc.find('div[class="result-content"]')
+            qqerhtml=json.loads(lhtml)
+            qqerhtml=qqerhtml['dom']
+            # self.logger.info(f'列表页面信息:{lhtml}')
+            soup = BeautifulSoup(qqerhtml, 'html.parser')
+            listcontent=soup.select('div[style="opacity: 1;"]')
            for litag in listcontent:
                try:
-                        lidoc=pq(litag)
-                        ahref=lidoc.find('a[class="text-ellipsis text-underline-hover"]').attr('href')
-                        durl=self.get_realurl(ahref)
-                        title=lidoc.find('a[class="text-ellipsis text-underline-hover"]').text().replace('\n','')
-                        source=lidoc.find('div[class="cs-view cs-view-flex align-items-center flex-row cs-source-content"]>span:nth-child(1)').text().replace('\n','')
-                        publishdate=lidoc.find('div[class="cs-view cs-view-flex align-items-center flex-row cs-source-content"]>span:last-child').text().replace('\n','')
+                    lidoc=pq(str(litag))
+                    ahref=lidoc.find('a[class="l-view block l-text line-clamp-2 color-darker font-medium l-header h3"]').attr('href')
+                    id=self.get_reitemid(ahref)
+                    durl=f'https://www.toutiao.com/article/{id}/?&source=m_redirect'
+                    title=lidoc.find('a[class="l-view block l-text line-clamp-2 color-darker font-medium l-header h3"]').text().replace('\n','')
+                    source=lidoc.find('div[class="l-source-text t3 l-source-min-width line-clamp-1 flex-shrink"]').text().replace('\n','')
+                    publishdate=lidoc.find('div[class="l-view block l-text-split flex-shrink-0 ml-8 color-default line-clamp-1 t3"]>span:last-child').text().replace('\n','')
                    publishdate=self.paserTime(publishdate)
                    if isinstance(publishdate, str):
                        pubdate=publishdate
                    else:
                        pubdate=publishdate.strftime("%Y-%m-%d %H:%M:%S")
-                        is_member = self.r.sismember('pysouhunews_'+self.wordsCode, durl)
+                    is_member = self.r.sismember('pyjrttnews_'+self.wordsCode, durl)
                    if is_member:
+                        self.logger.info(f"搜索列表的链接已经存在！")
                        continue
                    detailmsg={
                        'title':title,
@@ -318,7 +352,7 @@ class JrttnewsSpider(object):
                    }
                    self.detailList.put(detailmsg)
                except Exception as e:
-                        print(e)
+                    self.logger.info(f"搜索列表页异常{e}")
                    continue

    # 获取详情页
@@ -331,12 +365,13 @@ class JrttnewsSpider(object):
                    detailmsg=self.detailList.get()
                    title = detailmsg['title']
                    detailUrl = detailmsg['detailUrl']
-                    print("%s:%s\n" % (title, detailUrl))
+                    self.logger.info(f"解析详情页标题{title},对应地址{detailUrl}")
                    bdetail=self.getDetailmsg(detailmsg)
+                    self.logger.info(f"解析详情页标题{title},获取的内容长度:{len(bdetail['content'])}")
                    processitem=self.getProcessitem(bdetail)
                    try:
-                        self.sendkafka(processitem)
-                        self.r.sadd('pysouhunews_'+self.wordsCode, processitem['sourceAddress'])
+                        # self.sendkafka(processitem)
+                        self.r.sadd('pyjrttnews_'+self.wordsCode, processitem['sourceAddress'])
                    except Exception as e:
                        self.logger.info("放入kafka失败！")
                    #插入数据库
@@ -356,6 +391,32 @@ class JrttnewsSpider(object):
                break
                # time.sleep(5)

+    def detailHtml(self,url):
+        headers2={
+            'Host':'www.toutiao.com',
+            'Connection':'keep-alive',
+            'Cache-Control':'max-age=0',
+            'sec-ch-ua':'"Google Chrome";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
+            'sec-ch-ua-mobile':'?0',
+            'sec-ch-ua-platform':'"Windows"',
+            'Upgrade-Insecure-Requests':'1',
+            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36',
+            'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
+            'Sec-Fetch-Site':'none',
+            'Sec-Fetch-Mode':'navigate',
+            'Sec-Fetch-User':'?1',
+            'Sec-Fetch-Dest':'document',
+            'Accept-Encoding':'gzip, deflate, br',
+            'Accept-Language':'zh-CN,zh;q=0.9',
+            'Cookie':'__ac_signature=_02B4Z6wo00f01SuLBAAAAIDBq4n-Qe9gRVkrrwCAAC.IVicycONgbbW4Hp1evBuF5zqe.dnjQEugXgwVyd-cpabxdL3lcaGCSJLRLtoGOCkqQ0IbU0NO3fW-0TKePlzULR8k5X1DEdqOUpR012; tt_webid=7289060865588020770; s_v_web_id=verify_lnn7ht77_cdKDYvaS_cmN9_4yyG_9pi3_XnOkAu8OxJTm; _ga=GA1.1.630929221.1697116750; local_city_cache=%E5%8C%97%E4%BA%AC; csrftoken=5c57e5aabc31ec2be5f6e40f904c90e8; _S_DPR=1; _S_IPAD=0; _S_WIN_WH=1366_619; msToken=3FJcx4aa5PuT2voafEIRXy1cMYZxEt9zwG9eMGR8srNIU5JajUVx2Ll5tyXJ1_-4Bcm7AfxV2Poyu72Xs2sn8ddk2xZ_a9HTzBFbIzkH; tt_scid=6uvTSx1f1NpCUjG--J4lV.Zb84w.xGWpBCJ.Xv4l-CWWm.CEODd3KFqFKpTFh-Gzdcc9; _ga_QEHZPBE5HH=GS1.1.1697771671.3.1.1697773330.0.0.0; ttwid=1%7CLK33CgR861OZhj9FEIYSUw5rJFx_KIgSNeQ_Wh6AoEM%7C1697773332%7C7d366a710996bbdf03cc49708454c67f8c50ba7864dbb17b544a76a1e06e7c7c'
+        }
+        try:
+            res=requests.get(url,headers=headers2,verify=False,timeout=10)
+            res.encoding='utf-8'
+            text=res.text
+        except Exception as e:
+            text=''
+        return text
    #解析详情
    def getDetailmsg(self,detailmsg):
        try:
@@ -423,17 +484,37 @@ class JrttnewsSpider(object):
        lang=self.detect_language(title)
        sm=SmartExtractor(lang)
        try:
+            # raw_html=self.detailHtml(url)
+            # if raw_html:
+            #     self.logger.info(f"detailHtml请求的内容长度{len(raw_html)}")
+            #     self.logger.info(f"{raw_html}")
+            # else:
+            #     try:
+            #         driver=self.createDriver()
+            #         driver.get(url)
+            #         # 设置等待时间为10秒
+            #         wait = WebDriverWait(driver, 10)
+            #         # 等待元素加载完成
+            #         element = wait.until(EC.presence_of_element_located((By.CLASS_NAME, "article-meta")))
+            #         raw_html=driver.page_source
+            #     except Exception as e:
+            #         raw_html=''
+            try:
                driver=self.createDriver()
                driver.get(url)
                # 设置等待时间为10秒
                wait = WebDriverWait(driver, 10)
                # 等待元素加载完成
-            element = wait.until(EC.presence_of_element_located((By.TAG_NAME, "article")))
+                element = wait.until(EC.presence_of_element_located((By.CLASS_NAME, "article-meta")))
                raw_html=driver.page_source
+            except Exception as e:
+                raw_html=''
            if raw_html:
                try:
-                    soup=BeautifulSoup(raw_html,'html.parser')
-                    tdoc=soup.select('div[class="article-content"]>article')[0]
+                    soup = BeautifulSoup(raw_html, 'html.parser')
+                    # publishtime = soup.select('div[class="article-meta"]>span:nth-child(1)')[0].text
+                    # source = soup.select('div[class="article-meta"]>span:nth-child(3)')[0].text
+                    tdoc = soup.select('article')[0]
                    content=tdoc.text
                    contentWithTag=str(tdoc)
                except Exception as e:
@@ -443,6 +524,9 @@ class JrttnewsSpider(object):
                article=sm.extract_by_html(raw_html)
                content=article.cleaned_text
                contentWithTag=article.text
+
+
+
        except Exception as e:
            self.logger.info("抽取解析失败！")

@@ -492,7 +576,7 @@ class JrttnewsSpider(object):
        if content!='':
            processitem={
                "sid":self.sid,
-                "source":"5",
+                "source":"3",
                "title":bdetail['title'],
                "content":bdetail['content'],
                "contentWithtag":bdetail['contentHtml'],

--- a/jrtt1news_comm/jrttnewstaskJob_loc.py
+++ b/jrtt1news_comm/jrttnewstaskJob_loc.py
@@ -153,7 +153,36 @@ class JrttnewsTaskJob(object):
        try:
            jrttnewsSpider.get_page_html()
        except Exception as e:
-            logger.info('搜狗搜索异常'+searchkw)
+            logger.info('今日头条搜索异常'+searchkw)
+
+        if jrttnewsSpider.detailList.qsize() != 0:
+            try:
+                jrttnewsSpider.get_detail_html()
+            except Exception as e:
+                logger.info('详情解析异常'+searchkw)
+        logger.info("关键词采集结束！"+searchkw)
+
+    def lockwMsg(self):
+        kwList=[]
+        kwLstr='浙江银通典当有限责任公司|浙江省化工进出口有限公司|浙江省能源集团有限公司|浙江海港中奥能源有限责任公司|杭州香格里拉饭店有限公司|浙能集团新疆准东能源化工有限公司|温州衢化东南工贸有限公司|义乌产权交易所有限公司|温州机场集团有限公司|浙江浙能电力股份有限公司|浙江工程设计有限公司|浙江国信控股集团有限责任公司|浙江巨化集团进出口有限公司|上海盛东国际集装箱码头有限公司|衢州巨化房地产开发有限公司|浙江省空港融资租赁有限公司|浙江中旅商务会展有限公司|浙江海港集团财务有限公司|浙江浙能港口运营管理有限公司|浙江机场集团保安服务有限公司|新疆塔建三五九建工有限责任公司|浙江能源天然气集团有限公司|浙江华江科技股份有限公司|浙江浙能资产经营管理有限公司|浙江海港黄泽山油品储运有限公司|浙江浙旅投资有限责任公司|浙江海港海洋工程建设有限公司|浙江省能源集团财务有限责任公司|江西省赣浙能源有限公司|温州联合产权交易中心有限公司|浙江省通用航空产业发展有限公司|物产中大期货有限公司|浙江省富浙融资租赁有限公司|宁波机场集团有限公司|浙江省振兴乡村建设投资发展集团有限公司|浙江杭钢融资租赁有限公司|浙江国贸云商控股有限公司|浙江省农村实业发展有限公司|巨化控股有限公司|浙江省国际贸易集团有限公司|浙江机电职业技术学院|浙江头门港投资开发有限公司|伊犁新天煤化工有限责任公司|浙江省农村发展集团农产品有限公司|衢州巨化传媒有限公司|浙江机场投资有限责任公司|浙江中大元通融资租赁有限公司|巨化集团公司兴化实业有限公司|浙江新世纪期货有限公司|巨化集团有限公司|浙旅盛景资本投资有限公司|浙江省医疗健康集团有限公司|浙江歌瑞新材料有限公司|浙江省国贸集团资产经营有限公司|浙能资本控股有限公司|杭州萧山国际机场有限公司|浙江梅苑酒店管理有限公司|浙江国贸集团东方机电工程股份有限公司|上港集团平湖独山港码头有限公司|浙江巨化热电有限公司|浙江省粮食集团有限公司|宁波舟山港集团有限公司|浙江省纺织品进出口集团有限公司|浙江巨化物流有限公司|浙江建设技师学院|浙江杭州临空经济开发有限公司|浙江中大技术进出口集团有限公司|浙江省粮油食品进出口股份有限公司|浙江省石油股份有限公司|浙江空港培训服务咨询有限公司|浙江省机电集团有限公司|浙江省二轻集团有限责任公司|巨化集团上海融资租赁有限公司|浙江巨化股份有限公司|宁波航运交易所有限公司|浙江巨化投资有限公司|浙江省农村发展集团有限公司|浙江省国际贸易集团温州有限公司|浙江巨化化工矿业有限公司|浙江天虹物资贸易有限公司|浙江浙能兴源节能科技有限公司|浙江巨化装备工程集团有限公司|温州瑞平苍高速公路有限公司|上海巨化实业发展有限公司|浙能集团新疆准东煤业有限公司|浙江浙能煤运投资有限责任公司|浙江省新能源投资集团股份有限公司|浙江锦华新材料股份有限公司|浙旅湛景置业有限公司|浙江省交通投资集团财务有限责任公司|杭州钢铁集团有限公司|浙江巨化塑胶有限责任公司|浙江巨化信息技术有限公司|浙江新农都实业有限公司|浙江省万里教育集团|浙江长广（集团）有限责任公司|浙江海港资产管理有限公司|物产中大融资租赁集团有限公司|浙江浙能企业管理培训服务有限公司|浙江省海洋产业投资有限公司|浙江省交通投资集团有限公司|浙江轻工联非融资性担保有限公司|浙江省机场集团有限公司|浙江巨化汉正新材料有限公司|浙江海港内河港口发展有限公司|浙江外事旅游股份有限公司|浙江省浙商资产管理股份有限公司|浙江东方金融控股集团股份有限公司|浙江浙能技术研究院有限公司|浙江经济职业技术学院|浙江巨化清安检测科技有限公司|浙江省国有资本运营有限公司|浙江省土产畜产进出口集团有限公司|浙江巨化能源有限公司|浙江产权交易所有限公司|宁波海运集团有限公司|浙江省中国旅行社集团有限公司|杭州工商信托股份有限公司|浙江省衢州机场管理有限公司|浙江省旅游投资集团有限公司|巨化集团公司塑化厂|同煤浙能麻家梁煤业有限责任公司|浙江轻工联典当有限责任公司|浙江省海港投资运营集团有限公司|衢州衢化宾馆有限公司|舟山普陀山机场有限公司|深圳市巨化华南投资发展有限公司|浙江金华安邦护卫有限公司|浙江海港洋山投资开发有限公司|物产中大资本管理（浙江）有限公司|浙江南方工程咨询管理有限公司|黑龙江绿色农业发展集团有限公司|浙商财产保险股份有限公司|物产中大资产管理（浙江）有限公司|衢州氟硅技术研究院|招商局港口集团股份有限公司|浙江省台州机场管理有限公司|浙江省机电技师学院|巨化集团财务有限责任公司|浙江省电力建设有限公司|浙江省中医药健康产业集团有限公司|浙江巨化化工材料有限公司|浙江浙商金控有限公司|浙江富兴电力燃料有限公司|浙旅蝶来酒店集团有限公司|浙江英特集团股份有限公司|浙江省义乌机场管理有限公司|浙江省农都农产品有限公司|物产中大集团财务有限公司|宁波海运股份有限公司|浙江省建设投资集团股份有限公司|浙江菲达环保科技股份有限公司|浙江海正药业股份有限公司|物产中大集团股份有限公司|浙江运达风电股份有限公司|杭州钢铁股份有限公司|浙商中拓集团股份有限公司|勿忘农集团有限公司|浙江交通科技股份有限公司|巨化集团（香港）有限公司|香港泰纬国际贸易有限公司|浙江能源国际有限公司|常熟市国瑞科技股份有限公司|浙江镇洋发展股份有限公司|浙商银行股份有限公司|浙江物产环保能源股份有限公司|浙江诺和机电股份有限公司|浙江沪杭甬高速公路股份有限公司|宁波远洋运输股份有限公司|浙江大学控股集团有限公司|安邦护卫集团股份有限公司|浙江富建投资管理有限公司|浙江富浙科技有限公司|浙江富浙资产管理有限公司|浙江富浙资本管理有限公司|浙江富物资产管理有限公司|浙江省发展资产经营有限公司|浙江省环境科技有限公司|浙江省盐业集团有限公司|浙江省种业集团有限公司|浙江物产中大医药有限公司|浙江物产元通汽车集团有限公司|浙江物产实业控股（集团）有限公司|物产中大（浙江）产业投资有限公司|物产中大云商有限公司|物产中大元通实业集团有限公司|物产中大元通汽车有限公司|物产中大公用环境投资有限公司|物产中大化工集团有限公司|物产中大医疗健康投资有限公司|物产中大国际学院|物产中大数字科技有限公司|物产中大欧泰有限公司|物产中大物流投资集团有限公司|物产中大财智共享服务（浙江）有限公司|物产中大金属集团有限公司|物产中大金石集团有限公司|物产中大长乐林场有限公司|物产中大集团投资有限公司|南水北调（开化）水务有限公司|太仓中茵建设投资有限公司|安吉浙建投资有限公司|庆元县浙建项目管理有限公司|新昌县浙建投资管理有限公司|新疆阿拉尔上游水利水电工程有限责任公司|杭州财金未来社区股权投资合伙企业（有限合伙）|永嘉县浙建投资有限公司|浙建（兰溪）矿业有限公司|浙建项目管理（杭州）有限公司|浙江基建投资管理有限公司|浙江天台浙建环保科技有限公司|浙江建工建筑工程咨询有限公司|浙江建投创新科技有限公司|浙江建投发展房地产开发有限公司|浙江建投工程物资设备有限公司|浙江建投数字技术有限公司|浙江建投机械租赁有限公司|浙江建投环保工程有限公司|浙江建设商贸物流有限公司|浙江浙建云采贸易有限公司|浙江浙建实业发展有限公司|浙江浙建建筑设计有限公司|浙江浙建美丽乡村建设有限公司|浙江浙建钢结构有限公司|浙江省一建建设集团有限公司|浙江省二建建设集团有限公司|浙江省工业设备安装集团有限公司|浙江省建工集团有限责任公司|浙江省建投交通基础建设集团有限公司|浙江省建材集团有限公司|浙江省建设工程机械集团有限公司|浙江财金未来社区股权投资有限责任公司|衢州市衢江区浙建投资管理有限公司|长兴建图建设投资管理有限公司|长兴浙建投资有限公司|玉环市浙建城镇建设投资有限公司|绍兴市越城区浙建建设项目管理有限公司|绍兴市越城区浙建投资有限公司|苏州浙建地产发展有限公司|长兴浙建城镇建设有限公司|遂昌浙建投资有限公司|长兴浙永建设投资有限公司|阿拉尔浙建城市建设投资有限公司|浙江《机电工程》杂志社有限公司|浙江工匠培训有限公司|浙江康宁咨询服务有限公司|浙江新华体育器材制造有限公司|浙江机电华瑞航空投资有限公司|浙江机电集团投资有限公司|浙江新联民爆器材有限公司|浙江浙商金融服务有限公司|浙江省军工集团股份有限公司|浙江省工业矿产对外贸易有限责任公司|浙江省机电设计研究院有限公司|浙江蓝箭称重技术有限公司|浙江省机械设备进出口有限责任公司|浙江富浙投资有限公司|浙江海正集团有限公司|浙江五金矿产控股有限公司|浙江省医药保健品进出口有限责任公司|浙江省国兴进出口有限公司|浙江省国际贸易集团供应链有限公司|浙江省工艺品进出口有限公司|浙江经贸房地产公司|浙江英特药业有限责任公司|天台国大镕丰酒店管理有限公司|杭州千岛湖温馨岛娱乐旅游有限公司|杭州花港饭店|浙江《江南游报》社有限责任公司|浙江东菱酒店有限公司|杭州花港海航度假酒店有限公司|浙江国际大酒店有限公司|浙江旅游信息中心有限公司|浙江时代国际展览服务有限公司|浙江浙勤服务控股集团有限公司|浙江浙勤集团有限公司|浙江浙旅投数字科技有限公司|浙江省人才发展集团有限公司|浙江省古村落（传统村落）保护利用股权投资基金合伙企业（有限合伙）|浙江省国际投资服务中心有限公司|浙江省国际贸易展览有限公司|浙江省旅工贸有限责任公司|浙江雷迪森物业服务有限公司|浙江雷迪森酒店集团有限公司|舟山市普陀山银海饭店有限公司|雷迪森旅业集团有限公司|上海杭钢凯暄矿业投资有限公司|幸福之江资本运营有限公司|杭州杭钢合金钢铸造有限公司|杭州钢铁厂小型轧钢股份有限公司|浙江东菱商贸有限公司|浙江富春紫光环保股份有限公司|中杭监测技术研究院有限公司|杭州紫云能源综合利用开发有限公司|杭州紫元置业有限公司|浙江杭钢人力资源开发服务有限公司|浙江杭钢健康产业投资管理有限公司|浙江杭钢公管后勤服务有限公司|浙江杭钢动力有限公司|浙江杭钢商贸集团有限公司|浙江杭钢工贸有限公司|浙江杭钢数字科技有限公司|浙江杭钢智谷科技有限公司|浙江杭钢电炉炼钢有限公司|浙江杭钢职业教育集团有限公司|浙江杭钢高速线材有限公司|浙江省冶金研究院有限公司|浙江省工业设计研究院有限公司|浙江省环保集团有限公司|浙江省遂昌金矿有限公司|浙江紫汇资产管理有限公司|浙江紫臻物业管理服务有限公司|浙江钢联控股有限公司|温州杭钢水务有限公司|上海华山康健医疗有限公司|台州台信企业管理合伙企业（有限合伙）|浙江中天东方氟硅材料股份有限公司|浙江巨化环保科技有限公司|浙江巨柯私募基金管理有限公司|浙江巨荣石油化工销售有限公司|浙江晋巨化工有限公司|浙能巨化（浙江自贸区）股权投资基金合伙企业（有限合伙）|中核浙能能源有限公司|中海油绿能港浙江宁波能源有限公司|伊犁新矿煤业有限责任公司|内蒙古同煤鄂尔多斯矿业投资有限公司|国家管网集团浙江省天然气管网有限公司|浙江浙能产业研究院有限公司|浙江浙能物业发展有限公司|浙江浙能绿城体育文化发展有限公司|浙江省白马湖实验室有限公司|浙江职业足球俱乐部有限公司|嘉兴公路建设投资有限公司|嘉兴市嘉萧高速公路投资开发有限公司|德清县杭绕高速有限公司|杭州都市高速公路有限公司|浙商食品集团有限公司|浙江临金高速公路有限公司|浙江义东高速公路有限公司|浙江乐清湾高速公路有限公司|浙江交投交通建设管理有限公司|浙江交投太平交通基础设施股权投资基金（有限合伙）|浙江交投高速公路建设管理有限公司|浙江交投高速公路运营管理有限公司|浙江交通资源投资集团有限公司|浙江台州沈海高速公路有限公司|浙江台州甬台温高速公路有限公司|浙江宁波杭甬复线三期高速公路有限公司|浙江宁波甬台温高速公路有限公司|浙江数智交院科技股份有限公司|浙江景文高速公路有限公司|浙江杭宁高速公路有限责任公司|浙江杭宣高速公路有限公司|浙江杭新景高速公路有限公司|浙江杭海城际铁路有限公司|浙江杭温铁路有限公司|浙江杭甬复线宁波一期高速公路有限公司|浙江杭绍甬高速公路有限公司|浙江沪平盐铁路有限公司|浙江温州市域铁路一号线有限公司|浙江甬舟复线一期高速公路有限公司|浙江省交投控股集团有限公司|浙江省交通投资集团高速公路管理有限公司|浙江省商业集团有限公司|浙江省海运集团股份有限公司|浙江省经济建设投资有限公司|浙江省轨道交通建设管理集团有限公司|浙江省轨道交通运营管理集团有限公司|浙江省铁路发展控股集团有限责任公司|浙江省长三角投资有限公司|浙江舟山北向大通道有限公司|浙江衢丽铁路有限公司|浙江衢松铁路有限公司|浙江诸永高速公路有限公司|浙江路产城发展集团有限公司|浙江金华甬金衢上高速公路有限公司|浙江高信技术股份有限公司|浙江高速物流有限公司|温州市文泰高速公路有限公司|温州市瑞文高速公路有限公司|绍兴柯桥杭金衢联络线高速公路有限公司|金华市东永高速投资有限公司|东港投资发展集团有限公司|杭州农发原乡人农特产有限公司|杭州千岛湖鲟龙科技股份有限公司|浙江农发产业投资有限公司|浙江省现代农业研究会|芜湖信农硬科技投资合伙企业（有限合伙）|黑龙江亚欧牧业有限公司|浙江四港联动发展有限公司|浙江电子口岸有限公司|浙江空港商业经营管理有限责任公司|浙江空港数字科技有限公司|浙江空港资本控股有限公司|上海大宗商品仓单登记有限责任公司|宁波舟山港铁矿石储运有限公司|杭州港务集团有限公司|浙江中澳现代产业园有限公司|浙江义迪通供应链服务有限公司|浙江之迪控股有限公司|浙江海港国际联运有限公司|浙江海港大宗商品交易中心有限公司|浙江海港引航服务有限公司|浙江船舶交易市场有限公司|杭州富格企业管理合伙企业（有限合伙）|杭州松下马达有限公司|汇孚集团有限公司|浙江信联钢铁有限公司|浙江广杰投资管理有限公司|浙江建设融资租赁有限公司|浙江杰尚投资管理有限公司|浙江申达塑料机械有限公司|浙江申达机器制造股份有限公司|浙江省二轻供销总公司|浙江省二轻商业经营管理有限公司|浙江省二轻房地产开发有限公司|浙江省工美控股有限公司|浙江省工艺美术研究院有限公司|浙江省皮革塑料有限公司|浙江省艺创投资发展股份有限公司|浙江省艺创文旅发展有限公司|安邦护卫（浙江）公共安全智慧科技有限公司|浙江丽水安邦护卫有限公司|浙江台州安邦护卫有限公司|浙江嘉兴安邦护卫有限公司|浙江宁波安邦护卫有限公司|浙江安邦护卫安全服务有限公司|浙江安邦护卫科技服务有限公司|浙江杭州安邦护卫有限公司|浙江温州安邦护卫有限公司|浙江湖州安邦护卫有限公司|浙江绍兴安邦护卫有限公司|浙江舟山安邦护卫有限公司|浙江衢州安邦护卫有限公司|上海浙大科技发展有限公司|杭州启真未来创新股权投资合伙企业（有限合伙）|杭州浙大动物医院有限公司|杭州浙大文化创意发展有限公司|杭州紫金港未来创新投资合伙企业（有限合伙）|杭州网新信息控股有限公司|杭州西投启真脑机智能产业运营有限公司|浙江启真人才发展有限公司|浙江大学农业科技园有限公司|浙江大学创新技术研究院有限公司|浙江大学城乡规划设计研究院有限公司|浙江大学杭州国际科创中心发展有限公司|浙江大学科技园发展有限公司|浙江大学能源工程设计研究院有限公司|浙江浙大列车智能化工程技术研究中心有限公司|浙江浙大圆正科技创新服务有限公司|浙江浙大新宇物业集团有限公司|浙江浙大科创集团有限公司|浙江浙大西投脑机智能科技有限公司|浙江钱塘机器人及智能装备研究有限公司|丽水市廉合产权交易有限公司|北京中产智合咨询服务中心（有限合伙）|北京金马甲产权网络交易有限公司|台州市产权交易所有限公司|嘉兴市产权交易有限公司|湖州市联合产权交易有限公司|绍兴市产权交易有限公司|舟山市产权交易中心有限责任公司|衢州市产权交易中心有限公司|浙江省三建建设集团有限公司|'
+        kwL=kwLstr.split('|')
+        for kk in kwL:
+            kwmsg={
+                'kw':kk,
+                'wordsCode':'jrtt',
+                'sid':'1020'
+            }
+            kwList.append(kwmsg)
+        return kwList
+    def runLocSpider(self,kwmsg):
+        searchkw=kwmsg['kw']
+        wordsCode=kwmsg['wordsCode']
+        sid=kwmsg['sid']
+        jrttnewsSpider=JrttnewsSpider(searchkw,wordsCode,sid)
+        try:
+            jrttnewsSpider.get_page_html()
+        except Exception as e:
+            logger.info('今日头条搜索异常'+searchkw)

        if jrttnewsSpider.detailList.qsize() != 0:
            try:
@@ -166,8 +195,7 @@ if __name__ == '__main__':
    jrttnewsTaskJob=JrttnewsTaskJob()
    baseCore=BaseCore()
    logger=baseCore.getLogger()
-    # ss='(中国机床工具工业协会|中国内燃机工业协会|中国机电工业价格协会|中国机械电子兵器船舶工业档案学会|中国仪器仪表行业协会|中国工程机械工业协会|中国文化办公设备制造行业协会|中国机械工业金属切削刀具技术协会|中国机械工业教育协会|中国汽车工业协会|中国机械通用零部件工业协会|中国环保机械行业协会|中国模具工业协会|中国机械工业勘察设计协会|中国机械制造工艺协会|中国机械工业审计学会|中国轴承工业协会|中国机电一体化技术应用协会|中国机械工程学会|中国液压气动密封件工业协会|中国铸造协会|中国通用机械工业协会|中国锻压协会|中国制冷空调工业协会|中国热处理行业协会|中国电工技术学会|中国仪器仪表学会|中国石油和石油化工设备工业协会|中国表面工程协会|中国食品和包装机械工业协会|中国焊接协会|中国汽车工程学会|中国塑料机械工业协会|中国机械工业企业管理协会|中国印刷及设备器材工业协会|中国机械工业质量管理协会|中国电器工业协会|中国机械工业安全卫生协会|中国重型机械工业协会|中国机械工业标准化技术协会|中国机械工业职工思想政治工作研究会|中国农业机械工业协会|中国机电装备维修与改造技术协会 |机械工业信息研究院|机械工业教育发展中心|机械工业经济管理研究院|机械工业信息中心|机械工业人才开发服务中心|机械工业北京电工技术经济研究所|机械工业技术发展基金会|机械工业哈尔滨焊接技术培训中心|机械工业仪器仪表综合技术经济研究所)+(私收会费|私吞|肆意牟利|损失浪费|索贿|贪财|贪官污吏|贪污|违背组织原则|违法|违纪|为官不廉|为政擅权|窝案|舞弊|泄露国家机密|信鬼神|性关系|虚假信息|虚假招标|隐瞒不报|隐瞒真相|营私|鬻爵|主动投案|资产流失|钻空子|钻漏洞|被调查|被双开|不担当|不老实|不良影响|不正当|不作为|超标准建设|超标准装修|吃空饷|吃拿卡要|渎职|对党不忠诚|非法批地|腐败|腐虫|腐化堕落|公车私用|公费开销|公款吃喝|公款出境|公款旅游|勾结|官迷心窍|好色|回扣|贿赂|挤占挪用|纪律审查|监察调查|监守自盗|践踏法律|接受审查调查|截留克扣|开除党籍|开除公职|抗议|利欲熏心|敛财|乱摊派|乱作为|落马|落网|买官|买卖审批权限|卖官|谋取暴利|谋取私利|目无法纪|幕后交易|弄虚作假|挪用公款|骗取|钱色交易|潜规则|侵害权益|侵吞公款|侵占挪用|圈子文化|权利扭曲|权钱交易|权色交易|山头主义|涉案|生活糜烂|生活奢靡|失察|失管|收送|受贿|双规|双开|私分|私人会所|私设小金库|负面|下降|违规|不利|亏损|上诉|不法|不良名单|停职|公开谴责|公诉|内幕交易|刑事拘留|刑事责任|刑拘|判决|判刑|判赔|司法处置|合同纠纷|处分|处罚|强制执行|仲裁|伪造|伪造公章|投案|投诉|拘留|接受调查|控诉|查封|涉嫌|涉诉监察调查|纠纷|经营异常名录|缉捕|罚单|罚款|罚金|罪犯|自首|获刑|行贿|警示函|贪腐|违约金|追究刑责|造假|逮捕|非法|非法集资判决书|申诉|纠纷|通报|开除|留党察看|追债|逃债|资产负债率|情色交易|搞权钱|曝光|黑料|重罚|虚假报告|侵犯)'
-    # keymsglist=baiduTaskJob.getkeywords(ss)
+    # keymsglist=jrttnewsTaskJob.lockwMsg()
    # print(keymsglist)
    # 创建Redis连接

@@ -175,11 +203,13 @@ if __name__ == '__main__':
    while True:
        try:
            codeList=[]
-            codeList.append('KW-20220602-0003')
+            codeList.append('KW-20231013-0001')
+
            for codeid in codeList:
                try:
-                    keymsg=jrttnewsTaskJob.getkeyFromredis(codeid)
-                    kwList=jrttnewsTaskJob.paserKeyMsg(keymsg)
+                    # keymsg=jrttnewsTaskJob.getkeyFromredis(codeid)
+                    # kwList=jrttnewsTaskJob.paserKeyMsg(keymsg)
+                    kwList=jrttnewsTaskJob.lockwMsg()
                    if len(kwList)<1:
                        continue
                    logger.info(f"需要搜索的关键词:{kwList}")

--- a/jrtt1news_comm/jrtttest.py
+++ b/jrtt1news_comm/jrtttest.py
+import requests
+import json
+from openpyxl import Workbook
+import time
+import hashlib
+import os
+import datetime
+#可能不一样
+start_url = 'https://www.toutiao.com/api/pc/feed/?min_behot_time=0&category=news_hot&utm_source=toutiao&widen=1&max_behot_time='
+url = 'https://www.toutiao.com'
+
+headers={
+    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
+}
+cookies = {''} # 此处cookies可从浏览器中查找，为了避免被头条禁止爬虫
+
+max_behot_time = '0'   # 链接参数
+title = []       # 存储新闻标题
+source_url = []  # 存储新闻的链接
+s_url = []       # 存储新闻的完整链接
+source = []      # 存储发布新闻的公众号
+media_url = {}   # 存储公众号的完整链接
+
+
+def get_as_cp():  # 该函数主要是为了获取as和cp参数，程序参考今日头条中的加密js文件：home_4abea46.js
+    zz = {}
+    now = round(time.time())
+    print(now) # 获取当前计算机时间
+    e = hex(int(now)).upper()[2:] #hex()转换一个整数对象为16进制的字符串表示
+    print('e:', e)
+    a = hashlib.md5()  #hashlib.md5().hexdigest()创建hash对象并返回16进制结果
+    print('a:', a)
+    a.update(str(int(now)).encode('utf-8'))
+    i = a.hexdigest().upper()
+    print('i:', i)
+    if len(e)!=8:
+        zz = {'as':'479BB4B7254C150',
+              'cp':'7E0AC8874BB0985'}
+        return zz
+    n = i[:5]
+    a = i[-5:]
+    r = ''
+    s = ''
+    for i in range(5):
+        s= s+n[i]+e[i]
+    for j in range(5):
+        r = r+e[j+3]+a[j]
+    zz ={
+        'as':'A1'+s+e[-3:],
+        'cp':e[0:3]+r+'E1'
+    }
+    print('zz:', zz)
+    return zz
+
+
+def getdata(url, headers, cookies):  # 解析网页函数
+    r = requests.get(url, headers=headers, cookies=cookies)
+    print(url)
+    data = json.loads(r.text)
+    return data
+
+
+def savedata(title, s_url, source, media_url):  # 存储数据到文件
+    # 存储数据到xlxs文件
+    wb = Workbook()
+    if not os.path.isdir(os.getcwd()+'/result'):   # 判断文件夹是否存在
+        os.makedirs(os.getcwd()+'/result') # 新建存储文件夹
+    filename = os.getcwd()+'/result/result-'+datetime.datetime.now().strftime('%Y-%m-%d-%H-%m')+'.xlsx' # 新建存储结果的excel文件
+    ws = wb.active
+    ws.title = 'data'   # 更改工作表的标题
+    ws['A1'] = '标题'   # 对表格加入标题
+    ws['B1'] = '新闻链接'
+    ws['C1'] = '头条号'
+    ws['D1'] = '头条号链接'
+    for row in range(2, len(title)+2):   # 将数据写入表格
+        _= ws.cell(column=1, row=row, value=title[row-2])
+        _= ws.cell(column=2, row=row, value=s_url[row-2])
+        _= ws.cell(column=3, row=row, value=source[row-2])
+        _= ws.cell(column=4, row=row, value=media_url[source[row-2]])
+
+    wb.save(filename=filename)  # 保存文件
+
+
+
+def main(max_behot_time, title, source_url, s_url, source, media_url):   # 主函数
+    for i in range(3):   # 此处的数字类似于你刷新新闻的次数，正常情况下刷新一次会出现10条新闻，但夜存在少于10条的情况；所以最后的结果并不一定是10的倍数
+        ##--------------------------------------------
+        #这一部分就是url的组成部分肯定和今年不一样了，然后获取到的json文件的处理后面基本不难，就是分离出相应的参数
+        ascp = get_as_cp()    # 获取as和cp参数的函数
+        demo = getdata(start_url+max_behot_time+'&max_behot_time_tmp='+max_behot_time+'&tadrequire=true&as='+ascp['as']+'&cp='+ascp['cp'], headers, cookies)
+        ##------------------------------------------
+        print(demo)
+        # time.sleep(1)
+        for j in range(len(demo['data'])):
+            # print(demo['data'][j]['title'])
+            if demo['data'][j]['title'] not in title:
+                title.append(demo['data'][j]['title'])  # 获取新闻标题
+                source_url.append(demo['data'][j]['source_url'])  # 获取新闻链接
+                source.append(demo['data'][j]['source'])  # 获取发布新闻的公众号
+            if demo['data'][j]['source'] not in media_url:
+                media_url[demo['data'][j]['source']] = url+demo['data'][j]['media_url']  # 获取公众号链接
+        print(max_behot_time)
+        max_behot_time = str(demo['next']['max_behot_time'])  # 获取下一个链接的max_behot_time参数的值
+        for index in range(len(title)):
+            print('标题：', title[index])
+            if 'https' not in source_url[index]:
+                s_url.append(url+source_url[index])
+                print('新闻链接：', url+source_url[index])
+            else:
+                print('新闻链接：', source_url[index])
+                s_url.append(source_url[index])
+                # print('源链接：', url+source_url[index])
+            print('头条号：', source[index])
+            print(len(title))   # 获取的新闻数量
+
+if __name__ == '__main__':
+    main(max_behot_time, title, source_url, s_url, source, media_url)
+    savedata(title, s_url, source, media_url)
--- a/qqnews_comm/baseCore.py
+++ b/qqnews_comm/baseCore.py
@@ -215,7 +215,7 @@ class BaseCore:
        except :
            pass
    def __init__(self):
-        self.__cnx_proxy = pymysql.connect(host='114.115.159.144', user='caiji', password='zzsn9988', db='clb_project',
+        self.__cnx_proxy = pymysql.connect(host='114.115.159.144', user='caiji', password='zzsn9988', db='caiji',
                                           charset='utf8mb4')
        self.__cursor_proxy= self.__cnx_proxy.cursor()
        pass
@@ -310,27 +310,28 @@ class BaseCore:
            proxy_list.append(proxy)
        return proxy_list[random.randint(0, 3)]

-    def get_proxy(self):
-        ip_list = []
-        with self.__cursor_proxy as cursor:
-            sql_str = '''select PROXY from clb_proxy where id={} '''.format(random.randint(1, 12))
-            print(sql_str)
-            cursor.execute(sql_str)
-            rows = cursor.fetchall()
-            for row in tqdm(rows):
-                str_ip = row[0]
-                str_ip_list = str_ip.split('-')
-                proxyMeta = "http://%(host)s:%(port)s" % {
-                    "host": str_ip_list[0],
-                    "port": str_ip_list[1],
-                }
-                proxy = {
-                    "HTTP": proxyMeta,
-                    "HTTPS": proxyMeta
-                }
-                ip_list.append(proxy)
+    # def get_proxy(self):
+    #     ip_list = []
+    #     with self.__cursor_proxy as cursor:
+    #         sql_str = '''select PROXY from clb_proxy where id={} '''.format(random.randint(1, 12))
+    #         print(sql_str)
+    #         cursor.execute(sql_str)
+    #         rows = cursor.fetchall()
+    #         for row in tqdm(rows):
+    #             str_ip = row[0]
+    #             str_ip_list = str_ip.split('-')
+    #             proxyMeta = "http://%(host)s:%(port)s" % {
+    #                 "host": str_ip_list[0],
+    #                 "port": str_ip_list[1],
+    #             }
+    #             proxy = {
+    #                 "HTTP": proxyMeta,
+    #                 "HTTPS": proxyMeta
+    #             }
+    #             ip_list.append(proxy)
+    #
+    #     return  ip_list

-        return  ip_list
    def get_proxyIPPort(self):
        ip_list = []
        with self.__cursor_proxy as cursor:

--- a/qqnews_comm/qqnewspider.py
+++ b/qqnews_comm/qqnewspider.py
@@ -23,6 +23,9 @@ from smart_extractor import SmartExtractor
 from selenium.webdriver.chrome.service import Service
 from selenium import webdriver
 from urllib.parse import quote, unquote
+from requests.packages import urllib3
+import traceback
+urllib3.disable_warnings()

 class QQnewsSpider(object):

@@ -46,7 +49,7 @@ class QQnewsSpider(object):
        self.wordsCode = wordsCode
        self.sid = sid

-    #将列表数据插入到表中 baidu_search_result
+    #将列表数据插入到表中 meta_search_result
    def itemInsertToTable(self,items):
        try:
            itemdata=[]
@@ -56,7 +59,7 @@ class QQnewsSpider(object):
                data=(self.sid,self.wordsCode,item['title'],item['detailurl'],item['source'],item['publishtime'],item['content'],item['contentHtml'],'1',item['kword'],nowtime)
                itemdata.append(data)

-            sql ="INSERT into baidu_search_result (sid,wordsCode,title,detailurl,origin,publishdate,content,content_with_tag,state,keyword,create_time) VALUES (%s, %s,%s, %s, %s, %s, %s, %s, %s, %s, %s)"
+            sql ="INSERT into meta_search_result (sid,wordsCode,title,detailurl,origin,publishdate,content,content_with_tag,state,keyword,create_time) VALUES (%s, %s,%s, %s, %s, %s, %s, %s, %s, %s, %s)"
            cursorM.executemany(sql, itemdata)
            self.logger.info("数据插入数据库成功！")
            # 定义插入数据的SQL语句
@@ -257,6 +260,7 @@ class QQnewsSpider(object):
            res.encoding='utf-8'
            text=res.text
        except Exception as e:
+            traceback.print_exc()
            text=''
        return text

@@ -279,7 +283,7 @@ class QQnewsSpider(object):
    def get_page_html(self):
        #设置采集列表页面和页数
        url='https://i.news.qq.com/gw/pc_search/result'
-        totalnum=3
+        totalnum=5
        keyword=self.searchkw
        # keyword='浙江国有资本运营公司'
        for pagenum in range(0,totalnum):
@@ -318,7 +322,7 @@ class QQnewsSpider(object):
                    bdetail=self.getDetailmsg(detailmsg)
                    processitem=self.getProcessitem(bdetail)
                    try:
-                        self.sendkafka(processitem)
+                        # self.sendkafka(processitem)
                        self.r.sadd('pyqqnews_'+self.wordsCode, processitem['sourceAddress'])
                    except Exception as e:
                        self.logger.info("放入kafka失败！")
@@ -422,8 +426,7 @@ class QQnewsSpider(object):
        sm=SmartExtractor(lang)
        try:
            raw_html=self.reqHtml(url)
-
-
+            # raw_html=''
            if raw_html:
                try:
                    soup=BeautifulSoup(raw_html,'html.parser')
@@ -439,8 +442,10 @@ class QQnewsSpider(object):
                content=article.cleaned_text
                contentWithTag=article.text
            if content:
+                self.logger.info("req请求成功！")
                return  content,contentWithTag
            try:
+                self.logger.info("打开模拟浏览器")
                raw_html=self.webDriver(url)
                if raw_html:
                    try:
@@ -451,6 +456,7 @@ class QQnewsSpider(object):
                    except Exception as e:
                        self.logger.info("定位解析失败！")
                if content:
+                    self.logger.info("模拟浏览器抽取成功！")
                    return  content,contentWithTag

                sm=SmartExtractor(lang)

--- a/qqnews_comm/qqnewstaskJob_comm.py
+++ b/qqnews_comm/qqnewstaskJob_comm.py
@@ -168,7 +168,7 @@ class QQnewsTaskJob(object):
            try:
                qqnewsSpider.get_page_html()
            except Exception as e:
-                logger.info('搜狗搜索异常'+searchkw)
+                logger.info('腾讯新闻搜索异常'+searchkw)

        if qqnewsSpider.detailList.qsize() != 0:
            try:

--- a/qqnews_comm/qqnewstaskJob_loc.py
+++ b/qqnews_comm/qqnewstaskJob_loc.py
@@ -161,7 +161,35 @@ class QQnewsTaskJob(object):
            except Exception as e:
                logger.info('详情解析异常'+searchkw)
        logger.info("关键词采集结束！"+searchkw)
-import random
+
+    def lockwMsg(self):
+        kwList=[]
+        kwLstr='浙江银通典当有限责任公司|浙江省化工进出口有限公司|浙江省能源集团有限公司|浙江海港中奥能源有限责任公司|杭州香格里拉饭店有限公司|浙能集团新疆准东能源化工有限公司|温州衢化东南工贸有限公司|义乌产权交易所有限公司|温州机场集团有限公司|浙江浙能电力股份有限公司|浙江工程设计有限公司|浙江国信控股集团有限责任公司|浙江巨化集团进出口有限公司|上海盛东国际集装箱码头有限公司|衢州巨化房地产开发有限公司|浙江省空港融资租赁有限公司|浙江中旅商务会展有限公司|浙江海港集团财务有限公司|浙江浙能港口运营管理有限公司|浙江机场集团保安服务有限公司|新疆塔建三五九建工有限责任公司|浙江能源天然气集团有限公司|浙江华江科技股份有限公司|浙江浙能资产经营管理有限公司|浙江海港黄泽山油品储运有限公司|浙江浙旅投资有限责任公司|浙江海港海洋工程建设有限公司|浙江省能源集团财务有限责任公司|江西省赣浙能源有限公司|温州联合产权交易中心有限公司|浙江省通用航空产业发展有限公司|物产中大期货有限公司|浙江省富浙融资租赁有限公司|宁波机场集团有限公司|浙江省振兴乡村建设投资发展集团有限公司|浙江杭钢融资租赁有限公司|浙江国贸云商控股有限公司|浙江省农村实业发展有限公司|巨化控股有限公司|浙江省国际贸易集团有限公司|浙江机电职业技术学院|浙江头门港投资开发有限公司|伊犁新天煤化工有限责任公司|浙江省农村发展集团农产品有限公司|衢州巨化传媒有限公司|浙江机场投资有限责任公司|浙江中大元通融资租赁有限公司|巨化集团公司兴化实业有限公司|浙江新世纪期货有限公司|巨化集团有限公司|浙旅盛景资本投资有限公司|浙江省医疗健康集团有限公司|浙江歌瑞新材料有限公司|浙江省国贸集团资产经营有限公司|浙能资本控股有限公司|杭州萧山国际机场有限公司|浙江梅苑酒店管理有限公司|浙江国贸集团东方机电工程股份有限公司|上港集团平湖独山港码头有限公司|浙江巨化热电有限公司|浙江省粮食集团有限公司|宁波舟山港集团有限公司|浙江省纺织品进出口集团有限公司|浙江巨化物流有限公司|浙江建设技师学院|浙江杭州临空经济开发有限公司|浙江中大技术进出口集团有限公司|浙江省粮油食品进出口股份有限公司|浙江省石油股份有限公司|浙江空港培训服务咨询有限公司|浙江省机电集团有限公司|浙江省二轻集团有限责任公司|巨化集团上海融资租赁有限公司|浙江巨化股份有限公司|宁波航运交易所有限公司|浙江巨化投资有限公司|浙江省农村发展集团有限公司|浙江省国际贸易集团温州有限公司|浙江巨化化工矿业有限公司|浙江天虹物资贸易有限公司|浙江浙能兴源节能科技有限公司|浙江巨化装备工程集团有限公司|温州瑞平苍高速公路有限公司|上海巨化实业发展有限公司|浙能集团新疆准东煤业有限公司|浙江浙能煤运投资有限责任公司|浙江省新能源投资集团股份有限公司|浙江锦华新材料股份有限公司|浙旅湛景置业有限公司|浙江省交通投资集团财务有限责任公司|杭州钢铁集团有限公司|浙江巨化塑胶有限责任公司|浙江巨化信息技术有限公司|浙江新农都实业有限公司|浙江省万里教育集团|浙江长广（集团）有限责任公司|浙江海港资产管理有限公司|物产中大融资租赁集团有限公司|浙江浙能企业管理培训服务有限公司|浙江省海洋产业投资有限公司|浙江省交通投资集团有限公司|浙江轻工联非融资性担保有限公司|浙江省机场集团有限公司|浙江巨化汉正新材料有限公司|浙江海港内河港口发展有限公司|浙江外事旅游股份有限公司|浙江省浙商资产管理股份有限公司|浙江东方金融控股集团股份有限公司|浙江浙能技术研究院有限公司|浙江经济职业技术学院|浙江巨化清安检测科技有限公司|浙江省国有资本运营有限公司|浙江省土产畜产进出口集团有限公司|浙江巨化能源有限公司|浙江产权交易所有限公司|宁波海运集团有限公司|浙江省中国旅行社集团有限公司|杭州工商信托股份有限公司|浙江省衢州机场管理有限公司|浙江省旅游投资集团有限公司|巨化集团公司塑化厂|同煤浙能麻家梁煤业有限责任公司|浙江轻工联典当有限责任公司|浙江省海港投资运营集团有限公司|衢州衢化宾馆有限公司|舟山普陀山机场有限公司|深圳市巨化华南投资发展有限公司|浙江金华安邦护卫有限公司|浙江海港洋山投资开发有限公司|物产中大资本管理（浙江）有限公司|浙江南方工程咨询管理有限公司|黑龙江绿色农业发展集团有限公司|浙商财产保险股份有限公司|物产中大资产管理（浙江）有限公司|衢州氟硅技术研究院|招商局港口集团股份有限公司|浙江省台州机场管理有限公司|浙江省机电技师学院|巨化集团财务有限责任公司|浙江省电力建设有限公司|浙江省中医药健康产业集团有限公司|浙江巨化化工材料有限公司|浙江浙商金控有限公司|浙江富兴电力燃料有限公司|浙旅蝶来酒店集团有限公司|浙江英特集团股份有限公司|浙江省义乌机场管理有限公司|浙江省农都农产品有限公司|物产中大集团财务有限公司|宁波海运股份有限公司|浙江省建设投资集团股份有限公司|浙江菲达环保科技股份有限公司|浙江海正药业股份有限公司|物产中大集团股份有限公司|浙江运达风电股份有限公司|杭州钢铁股份有限公司|浙商中拓集团股份有限公司|勿忘农集团有限公司|浙江交通科技股份有限公司|巨化集团（香港）有限公司|香港泰纬国际贸易有限公司|浙江能源国际有限公司|常熟市国瑞科技股份有限公司|浙江镇洋发展股份有限公司|浙商银行股份有限公司|浙江物产环保能源股份有限公司|浙江诺和机电股份有限公司|浙江沪杭甬高速公路股份有限公司|宁波远洋运输股份有限公司|浙江大学控股集团有限公司|安邦护卫集团股份有限公司|浙江富建投资管理有限公司|浙江富浙科技有限公司|浙江富浙资产管理有限公司|浙江富浙资本管理有限公司|浙江富物资产管理有限公司|浙江省发展资产经营有限公司|浙江省环境科技有限公司|浙江省盐业集团有限公司|浙江省种业集团有限公司|浙江物产中大医药有限公司|浙江物产元通汽车集团有限公司|浙江物产实业控股（集团）有限公司|物产中大（浙江）产业投资有限公司|物产中大云商有限公司|物产中大元通实业集团有限公司|物产中大元通汽车有限公司|物产中大公用环境投资有限公司|物产中大化工集团有限公司|物产中大医疗健康投资有限公司|物产中大国际学院|物产中大数字科技有限公司|物产中大欧泰有限公司|物产中大物流投资集团有限公司|物产中大财智共享服务（浙江）有限公司|物产中大金属集团有限公司|物产中大金石集团有限公司|物产中大长乐林场有限公司|物产中大集团投资有限公司|南水北调（开化）水务有限公司|太仓中茵建设投资有限公司|安吉浙建投资有限公司|庆元县浙建项目管理有限公司|新昌县浙建投资管理有限公司|新疆阿拉尔上游水利水电工程有限责任公司|杭州财金未来社区股权投资合伙企业（有限合伙）|永嘉县浙建投资有限公司|浙建（兰溪）矿业有限公司|浙建项目管理（杭州）有限公司|浙江基建投资管理有限公司|浙江天台浙建环保科技有限公司|浙江建工建筑工程咨询有限公司|浙江建投创新科技有限公司|浙江建投发展房地产开发有限公司|浙江建投工程物资设备有限公司|浙江建投数字技术有限公司|浙江建投机械租赁有限公司|浙江建投环保工程有限公司|浙江建设商贸物流有限公司|浙江浙建云采贸易有限公司|浙江浙建实业发展有限公司|浙江浙建建筑设计有限公司|浙江浙建美丽乡村建设有限公司|浙江浙建钢结构有限公司|浙江省一建建设集团有限公司|浙江省二建建设集团有限公司|浙江省工业设备安装集团有限公司|浙江省建工集团有限责任公司|浙江省建投交通基础建设集团有限公司|浙江省建材集团有限公司|浙江省建设工程机械集团有限公司|浙江财金未来社区股权投资有限责任公司|衢州市衢江区浙建投资管理有限公司|长兴建图建设投资管理有限公司|长兴浙建投资有限公司|玉环市浙建城镇建设投资有限公司|绍兴市越城区浙建建设项目管理有限公司|绍兴市越城区浙建投资有限公司|苏州浙建地产发展有限公司|长兴浙建城镇建设有限公司|遂昌浙建投资有限公司|长兴浙永建设投资有限公司|阿拉尔浙建城市建设投资有限公司|浙江《机电工程》杂志社有限公司|浙江工匠培训有限公司|浙江康宁咨询服务有限公司|浙江新华体育器材制造有限公司|浙江机电华瑞航空投资有限公司|浙江机电集团投资有限公司|浙江新联民爆器材有限公司|浙江浙商金融服务有限公司|浙江省军工集团股份有限公司|浙江省工业矿产对外贸易有限责任公司|浙江省机电设计研究院有限公司|浙江蓝箭称重技术有限公司|浙江省机械设备进出口有限责任公司|浙江富浙投资有限公司|浙江海正集团有限公司|浙江五金矿产控股有限公司|浙江省医药保健品进出口有限责任公司|浙江省国兴进出口有限公司|浙江省国际贸易集团供应链有限公司|浙江省工艺品进出口有限公司|浙江经贸房地产公司|浙江英特药业有限责任公司|天台国大镕丰酒店管理有限公司|杭州千岛湖温馨岛娱乐旅游有限公司|杭州花港饭店|浙江《江南游报》社有限责任公司|浙江东菱酒店有限公司|杭州花港海航度假酒店有限公司|浙江国际大酒店有限公司|浙江旅游信息中心有限公司|浙江时代国际展览服务有限公司|浙江浙勤服务控股集团有限公司|浙江浙勤集团有限公司|浙江浙旅投数字科技有限公司|浙江省人才发展集团有限公司|浙江省古村落（传统村落）保护利用股权投资基金合伙企业（有限合伙）|浙江省国际投资服务中心有限公司|浙江省国际贸易展览有限公司|浙江省旅工贸有限责任公司|浙江雷迪森物业服务有限公司|浙江雷迪森酒店集团有限公司|舟山市普陀山银海饭店有限公司|雷迪森旅业集团有限公司|上海杭钢凯暄矿业投资有限公司|幸福之江资本运营有限公司|杭州杭钢合金钢铸造有限公司|杭州钢铁厂小型轧钢股份有限公司|浙江东菱商贸有限公司|浙江富春紫光环保股份有限公司|中杭监测技术研究院有限公司|杭州紫云能源综合利用开发有限公司|杭州紫元置业有限公司|浙江杭钢人力资源开发服务有限公司|浙江杭钢健康产业投资管理有限公司|浙江杭钢公管后勤服务有限公司|浙江杭钢动力有限公司|浙江杭钢商贸集团有限公司|浙江杭钢工贸有限公司|浙江杭钢数字科技有限公司|浙江杭钢智谷科技有限公司|浙江杭钢电炉炼钢有限公司|浙江杭钢职业教育集团有限公司|浙江杭钢高速线材有限公司|浙江省冶金研究院有限公司|浙江省工业设计研究院有限公司|浙江省环保集团有限公司|浙江省遂昌金矿有限公司|浙江紫汇资产管理有限公司|浙江紫臻物业管理服务有限公司|浙江钢联控股有限公司|温州杭钢水务有限公司|上海华山康健医疗有限公司|台州台信企业管理合伙企业（有限合伙）|浙江中天东方氟硅材料股份有限公司|浙江巨化环保科技有限公司|浙江巨柯私募基金管理有限公司|浙江巨荣石油化工销售有限公司|浙江晋巨化工有限公司|浙能巨化（浙江自贸区）股权投资基金合伙企业（有限合伙）|中核浙能能源有限公司|中海油绿能港浙江宁波能源有限公司|伊犁新矿煤业有限责任公司|内蒙古同煤鄂尔多斯矿业投资有限公司|国家管网集团浙江省天然气管网有限公司|浙江浙能产业研究院有限公司|浙江浙能物业发展有限公司|浙江浙能绿城体育文化发展有限公司|浙江省白马湖实验室有限公司|浙江职业足球俱乐部有限公司|嘉兴公路建设投资有限公司|嘉兴市嘉萧高速公路投资开发有限公司|德清县杭绕高速有限公司|杭州都市高速公路有限公司|浙商食品集团有限公司|浙江临金高速公路有限公司|浙江义东高速公路有限公司|浙江乐清湾高速公路有限公司|浙江交投交通建设管理有限公司|浙江交投太平交通基础设施股权投资基金（有限合伙）|浙江交投高速公路建设管理有限公司|浙江交投高速公路运营管理有限公司|浙江交通资源投资集团有限公司|浙江台州沈海高速公路有限公司|浙江台州甬台温高速公路有限公司|浙江宁波杭甬复线三期高速公路有限公司|浙江宁波甬台温高速公路有限公司|浙江数智交院科技股份有限公司|浙江景文高速公路有限公司|浙江杭宁高速公路有限责任公司|浙江杭宣高速公路有限公司|浙江杭新景高速公路有限公司|浙江杭海城际铁路有限公司|浙江杭温铁路有限公司|浙江杭甬复线宁波一期高速公路有限公司|浙江杭绍甬高速公路有限公司|浙江沪平盐铁路有限公司|浙江温州市域铁路一号线有限公司|浙江甬舟复线一期高速公路有限公司|浙江省交投控股集团有限公司|浙江省交通投资集团高速公路管理有限公司|浙江省商业集团有限公司|浙江省海运集团股份有限公司|浙江省经济建设投资有限公司|浙江省轨道交通建设管理集团有限公司|浙江省轨道交通运营管理集团有限公司|浙江省铁路发展控股集团有限责任公司|浙江省长三角投资有限公司|浙江舟山北向大通道有限公司|浙江衢丽铁路有限公司|浙江衢松铁路有限公司|浙江诸永高速公路有限公司|浙江路产城发展集团有限公司|浙江金华甬金衢上高速公路有限公司|浙江高信技术股份有限公司|浙江高速物流有限公司|温州市文泰高速公路有限公司|温州市瑞文高速公路有限公司|绍兴柯桥杭金衢联络线高速公路有限公司|金华市东永高速投资有限公司|东港投资发展集团有限公司|杭州农发原乡人农特产有限公司|杭州千岛湖鲟龙科技股份有限公司|浙江农发产业投资有限公司|浙江省现代农业研究会|芜湖信农硬科技投资合伙企业（有限合伙）|黑龙江亚欧牧业有限公司|浙江四港联动发展有限公司|浙江电子口岸有限公司|浙江空港商业经营管理有限责任公司|浙江空港数字科技有限公司|浙江空港资本控股有限公司|上海大宗商品仓单登记有限责任公司|宁波舟山港铁矿石储运有限公司|杭州港务集团有限公司|浙江中澳现代产业园有限公司|浙江义迪通供应链服务有限公司|浙江之迪控股有限公司|浙江海港国际联运有限公司|浙江海港大宗商品交易中心有限公司|浙江海港引航服务有限公司|浙江船舶交易市场有限公司|杭州富格企业管理合伙企业（有限合伙）|杭州松下马达有限公司|汇孚集团有限公司|浙江信联钢铁有限公司|浙江广杰投资管理有限公司|浙江建设融资租赁有限公司|浙江杰尚投资管理有限公司|浙江申达塑料机械有限公司|浙江申达机器制造股份有限公司|浙江省二轻供销总公司|浙江省二轻商业经营管理有限公司|浙江省二轻房地产开发有限公司|浙江省工美控股有限公司|浙江省工艺美术研究院有限公司|浙江省皮革塑料有限公司|浙江省艺创投资发展股份有限公司|浙江省艺创文旅发展有限公司|安邦护卫（浙江）公共安全智慧科技有限公司|浙江丽水安邦护卫有限公司|浙江台州安邦护卫有限公司|浙江嘉兴安邦护卫有限公司|浙江宁波安邦护卫有限公司|浙江安邦护卫安全服务有限公司|浙江安邦护卫科技服务有限公司|浙江杭州安邦护卫有限公司|浙江温州安邦护卫有限公司|浙江湖州安邦护卫有限公司|浙江绍兴安邦护卫有限公司|浙江舟山安邦护卫有限公司|浙江衢州安邦护卫有限公司|上海浙大科技发展有限公司|杭州启真未来创新股权投资合伙企业（有限合伙）|杭州浙大动物医院有限公司|杭州浙大文化创意发展有限公司|杭州紫金港未来创新投资合伙企业（有限合伙）|杭州网新信息控股有限公司|杭州西投启真脑机智能产业运营有限公司|浙江启真人才发展有限公司|浙江大学农业科技园有限公司|浙江大学创新技术研究院有限公司|浙江大学城乡规划设计研究院有限公司|浙江大学杭州国际科创中心发展有限公司|浙江大学科技园发展有限公司|浙江大学能源工程设计研究院有限公司|浙江浙大列车智能化工程技术研究中心有限公司|浙江浙大圆正科技创新服务有限公司|浙江浙大新宇物业集团有限公司|浙江浙大科创集团有限公司|浙江浙大西投脑机智能科技有限公司|浙江钱塘机器人及智能装备研究有限公司|丽水市廉合产权交易有限公司|北京中产智合咨询服务中心（有限合伙）|北京金马甲产权网络交易有限公司|台州市产权交易所有限公司|嘉兴市产权交易有限公司|湖州市联合产权交易有限公司|绍兴市产权交易有限公司|舟山市产权交易中心有限责任公司|衢州市产权交易中心有限公司|浙江省三建建设集团有限公司|'
+        kwL=kwLstr.split('|')
+        for kk in kwL:
+            kwmsg={
+                'kw':kk,
+                'wordsCode':'qqnews',
+                'sid':'102003'
+            }
+            kwList.append(kwmsg)
+        return kwList
+    def runLocSpider(self,kwmsg):
+        searchkw=kwmsg['kw']
+        wordsCode=kwmsg['wordsCode']
+        sid=kwmsg['sid']
+        jrttnewsSpider=QQnewsSpider(searchkw,wordsCode,sid)
+        try:
+            jrttnewsSpider.get_page_html()
+        except Exception as e:
+            logger.info('今日头条搜索异常'+searchkw)
+
+        if jrttnewsSpider.detailList.qsize() != 0:
+            try:
+                jrttnewsSpider.get_detail_html()
+            except Exception as e:
+                logger.info('详情解析异常'+searchkw)
+        logger.info("关键词采集结束！"+searchkw)
 if __name__ == '__main__':
    qqnewsTaskJob=QQnewsTaskJob()
    baseCore=BaseCore()
@@ -175,11 +203,12 @@ if __name__ == '__main__':
    while True:
        try:
            codeList=[]
-            codeList.append('KW-20220602-0003')
+            codeList.append('KW-20231013-0001')
            for codeid in codeList:
                try:
-                    keymsg=qqnewsTaskJob.getkeyFromredis(codeid)
-                    kwList=qqnewsTaskJob.paserKeyMsg(keymsg)
+                    # keymsg=qqnewsTaskJob.getkeyFromredis(codeid)
+                    # kwList=qqnewsTaskJob.paserKeyMsg(keymsg)
+                    kwList=qqnewsTaskJob.lockwMsg()
                    if len(kwList)<1:
                        continue
                    logger.info(f"需要搜索的关键词:{kwList}")

--- a/sougou_comm/sougouSpider.py
+++ b/sougou_comm/sougouSpider.py
@@ -3,6 +3,7 @@ from urllib.parse import urljoin

 import pymysql
 import requests
+import urllib3
 from bs4 import BeautifulSoup
 from gne import GeneralNewsExtractor
 from langid import langid
@@ -24,7 +25,7 @@ from kafka import KafkaProducer
 import json
 from baseCore import BaseCore
 import configparser
-
+urllib3.disable_warnings()
 from smart_extractor import SmartExtractor


@@ -54,6 +55,7 @@ class SougouSpider(object):
        self.searchkw = searchkw
        self.wordsCode = wordsCode
        self.sid = sid
+
    def createDriver(self):
        chrome_driver =self.config.get('selenium', 'chrome_driver')
        path =  Service(chrome_driver)
@@ -63,7 +65,7 @@ class SougouSpider(object):
        # proxy = "127.0.0.1:8080"  # 代理地址和端口
        # chrome_options.add_argument('--proxy-server=http://' + proxy)
        self.driver = webdriver.Chrome(service=path,chrome_options=chrome_options)
-    #将列表数据插入到表中 baidu_search_result
+    #将列表数据插入到表中 meta_search_result
    def itemInsertToTable(self,items):
        try:
            itemdata=[]
@@ -73,7 +75,7 @@ class SougouSpider(object):
                data=(self.sid,self.wordsCode,item['title'],item['detailurl'],item['source'],item['publishtime'],item['content'],item['contentHtml'],'1',item['kword'],nowtime)
                itemdata.append(data)

-            sql ="INSERT into baidu_search_result (sid,wordsCode,title,detailurl,origin,publishdate,content,content_with_tag,state,keyword,create_time) VALUES (%s, %s,%s, %s, %s, %s, %s, %s, %s, %s, %s)"
+            sql ="INSERT into meta_search_result (sid,wordsCode,title,detailurl,origin,publishdate,content,content_with_tag,state,keyword,create_time) VALUES (%s, %s,%s, %s, %s, %s, %s, %s, %s, %s, %s)"
            cursorM.executemany(sql, itemdata)
            self.logger.info("数据插入数据库成功！")
            # 定义插入数据的SQL语句
@@ -422,7 +424,7 @@ class SougouSpider(object):
                    bdetail=self.getDetailmsg(detailmsg)
                    processitem=self.getProcessitem(bdetail)
                    try:
-                        self.sendkafka(processitem)
+                        # self.sendkafka(processitem)
                        self.r.sadd('pysougou_'+self.wordsCode, processitem['sourceAddress'])
                    except Exception as e:
                        self.logger.info("放入kafka失败！")

--- a/sougou_comm/sougoutaskJob_loc.py
+++ b/sougou_comm/sougoutaskJob_loc.py
@@ -174,7 +174,37 @@ class SougouTaskJob(object):
            finally:
                sougouSpider.driver.quit()
        logger.info("关键词采集结束！"+searchkw)
-import random
+
+    def lockwMsg(self):
+        kwList=[]
+        kwLstr='浙江银通典当有限责任公司|浙江省化工进出口有限公司|浙江省能源集团有限公司|浙江海港中奥能源有限责任公司|杭州香格里拉饭店有限公司|浙能集团新疆准东能源化工有限公司|温州衢化东南工贸有限公司|义乌产权交易所有限公司|温州机场集团有限公司|浙江浙能电力股份有限公司|浙江工程设计有限公司|浙江国信控股集团有限责任公司|浙江巨化集团进出口有限公司|上海盛东国际集装箱码头有限公司|衢州巨化房地产开发有限公司|浙江省空港融资租赁有限公司|浙江中旅商务会展有限公司|浙江海港集团财务有限公司|浙江浙能港口运营管理有限公司|浙江机场集团保安服务有限公司|新疆塔建三五九建工有限责任公司|浙江能源天然气集团有限公司|浙江华江科技股份有限公司|浙江浙能资产经营管理有限公司|浙江海港黄泽山油品储运有限公司|浙江浙旅投资有限责任公司|浙江海港海洋工程建设有限公司|浙江省能源集团财务有限责任公司|江西省赣浙能源有限公司|温州联合产权交易中心有限公司|浙江省通用航空产业发展有限公司|物产中大期货有限公司|浙江省富浙融资租赁有限公司|宁波机场集团有限公司|浙江省振兴乡村建设投资发展集团有限公司|浙江杭钢融资租赁有限公司|浙江国贸云商控股有限公司|浙江省农村实业发展有限公司|巨化控股有限公司|浙江省国际贸易集团有限公司|浙江机电职业技术学院|浙江头门港投资开发有限公司|伊犁新天煤化工有限责任公司|浙江省农村发展集团农产品有限公司|衢州巨化传媒有限公司|浙江机场投资有限责任公司|浙江中大元通融资租赁有限公司|巨化集团公司兴化实业有限公司|浙江新世纪期货有限公司|巨化集团有限公司|浙旅盛景资本投资有限公司|浙江省医疗健康集团有限公司|浙江歌瑞新材料有限公司|浙江省国贸集团资产经营有限公司|浙能资本控股有限公司|杭州萧山国际机场有限公司|浙江梅苑酒店管理有限公司|浙江国贸集团东方机电工程股份有限公司|上港集团平湖独山港码头有限公司|浙江巨化热电有限公司|浙江省粮食集团有限公司|宁波舟山港集团有限公司|浙江省纺织品进出口集团有限公司|浙江巨化物流有限公司|浙江建设技师学院|浙江杭州临空经济开发有限公司|浙江中大技术进出口集团有限公司|浙江省粮油食品进出口股份有限公司|浙江省石油股份有限公司|浙江空港培训服务咨询有限公司|浙江省机电集团有限公司|浙江省二轻集团有限责任公司|巨化集团上海融资租赁有限公司|浙江巨化股份有限公司|宁波航运交易所有限公司|浙江巨化投资有限公司|浙江省农村发展集团有限公司|浙江省国际贸易集团温州有限公司|浙江巨化化工矿业有限公司|浙江天虹物资贸易有限公司|浙江浙能兴源节能科技有限公司|浙江巨化装备工程集团有限公司|温州瑞平苍高速公路有限公司|上海巨化实业发展有限公司|浙能集团新疆准东煤业有限公司|浙江浙能煤运投资有限责任公司|浙江省新能源投资集团股份有限公司|浙江锦华新材料股份有限公司|浙旅湛景置业有限公司|浙江省交通投资集团财务有限责任公司|杭州钢铁集团有限公司|浙江巨化塑胶有限责任公司|浙江巨化信息技术有限公司|浙江新农都实业有限公司|浙江省万里教育集团|浙江长广（集团）有限责任公司|浙江海港资产管理有限公司|物产中大融资租赁集团有限公司|浙江浙能企业管理培训服务有限公司|浙江省海洋产业投资有限公司|浙江省交通投资集团有限公司|浙江轻工联非融资性担保有限公司|浙江省机场集团有限公司|浙江巨化汉正新材料有限公司|浙江海港内河港口发展有限公司|浙江外事旅游股份有限公司|浙江省浙商资产管理股份有限公司|浙江东方金融控股集团股份有限公司|浙江浙能技术研究院有限公司|浙江经济职业技术学院|浙江巨化清安检测科技有限公司|浙江省国有资本运营有限公司|浙江省土产畜产进出口集团有限公司|浙江巨化能源有限公司|浙江产权交易所有限公司|宁波海运集团有限公司|浙江省中国旅行社集团有限公司|杭州工商信托股份有限公司|浙江省衢州机场管理有限公司|浙江省旅游投资集团有限公司|巨化集团公司塑化厂|同煤浙能麻家梁煤业有限责任公司|浙江轻工联典当有限责任公司|浙江省海港投资运营集团有限公司|衢州衢化宾馆有限公司|舟山普陀山机场有限公司|深圳市巨化华南投资发展有限公司|浙江金华安邦护卫有限公司|浙江海港洋山投资开发有限公司|物产中大资本管理（浙江）有限公司|浙江南方工程咨询管理有限公司|黑龙江绿色农业发展集团有限公司|浙商财产保险股份有限公司|物产中大资产管理（浙江）有限公司|衢州氟硅技术研究院|招商局港口集团股份有限公司|浙江省台州机场管理有限公司|浙江省机电技师学院|巨化集团财务有限责任公司|浙江省电力建设有限公司|浙江省中医药健康产业集团有限公司|浙江巨化化工材料有限公司|浙江浙商金控有限公司|浙江富兴电力燃料有限公司|浙旅蝶来酒店集团有限公司|浙江英特集团股份有限公司|浙江省义乌机场管理有限公司|浙江省农都农产品有限公司|物产中大集团财务有限公司|宁波海运股份有限公司|浙江省建设投资集团股份有限公司|浙江菲达环保科技股份有限公司|浙江海正药业股份有限公司|物产中大集团股份有限公司|浙江运达风电股份有限公司|杭州钢铁股份有限公司|浙商中拓集团股份有限公司|勿忘农集团有限公司|浙江交通科技股份有限公司|巨化集团（香港）有限公司|香港泰纬国际贸易有限公司|浙江能源国际有限公司|常熟市国瑞科技股份有限公司|浙江镇洋发展股份有限公司|浙商银行股份有限公司|浙江物产环保能源股份有限公司|浙江诺和机电股份有限公司|浙江沪杭甬高速公路股份有限公司|宁波远洋运输股份有限公司|浙江大学控股集团有限公司|安邦护卫集团股份有限公司|浙江富建投资管理有限公司|浙江富浙科技有限公司|浙江富浙资产管理有限公司|浙江富浙资本管理有限公司|浙江富物资产管理有限公司|浙江省发展资产经营有限公司|浙江省环境科技有限公司|浙江省盐业集团有限公司|浙江省种业集团有限公司|浙江物产中大医药有限公司|浙江物产元通汽车集团有限公司|浙江物产实业控股（集团）有限公司|物产中大（浙江）产业投资有限公司|物产中大云商有限公司|物产中大元通实业集团有限公司|物产中大元通汽车有限公司|物产中大公用环境投资有限公司|物产中大化工集团有限公司|物产中大医疗健康投资有限公司|物产中大国际学院|物产中大数字科技有限公司|物产中大欧泰有限公司|物产中大物流投资集团有限公司|物产中大财智共享服务（浙江）有限公司|物产中大金属集团有限公司|物产中大金石集团有限公司|物产中大长乐林场有限公司|物产中大集团投资有限公司|南水北调（开化）水务有限公司|太仓中茵建设投资有限公司|安吉浙建投资有限公司|庆元县浙建项目管理有限公司|新昌县浙建投资管理有限公司|新疆阿拉尔上游水利水电工程有限责任公司|杭州财金未来社区股权投资合伙企业（有限合伙）|永嘉县浙建投资有限公司|浙建（兰溪）矿业有限公司|浙建项目管理（杭州）有限公司|浙江基建投资管理有限公司|浙江天台浙建环保科技有限公司|浙江建工建筑工程咨询有限公司|浙江建投创新科技有限公司|浙江建投发展房地产开发有限公司|浙江建投工程物资设备有限公司|浙江建投数字技术有限公司|浙江建投机械租赁有限公司|浙江建投环保工程有限公司|浙江建设商贸物流有限公司|浙江浙建云采贸易有限公司|浙江浙建实业发展有限公司|浙江浙建建筑设计有限公司|浙江浙建美丽乡村建设有限公司|浙江浙建钢结构有限公司|浙江省一建建设集团有限公司|浙江省二建建设集团有限公司|浙江省工业设备安装集团有限公司|浙江省建工集团有限责任公司|浙江省建投交通基础建设集团有限公司|浙江省建材集团有限公司|浙江省建设工程机械集团有限公司|浙江财金未来社区股权投资有限责任公司|衢州市衢江区浙建投资管理有限公司|长兴建图建设投资管理有限公司|长兴浙建投资有限公司|玉环市浙建城镇建设投资有限公司|绍兴市越城区浙建建设项目管理有限公司|绍兴市越城区浙建投资有限公司|苏州浙建地产发展有限公司|长兴浙建城镇建设有限公司|遂昌浙建投资有限公司|长兴浙永建设投资有限公司|阿拉尔浙建城市建设投资有限公司|浙江《机电工程》杂志社有限公司|浙江工匠培训有限公司|浙江康宁咨询服务有限公司|浙江新华体育器材制造有限公司|浙江机电华瑞航空投资有限公司|浙江机电集团投资有限公司|浙江新联民爆器材有限公司|浙江浙商金融服务有限公司|浙江省军工集团股份有限公司|浙江省工业矿产对外贸易有限责任公司|浙江省机电设计研究院有限公司|浙江蓝箭称重技术有限公司|浙江省机械设备进出口有限责任公司|浙江富浙投资有限公司|浙江海正集团有限公司|浙江五金矿产控股有限公司|浙江省医药保健品进出口有限责任公司|浙江省国兴进出口有限公司|浙江省国际贸易集团供应链有限公司|浙江省工艺品进出口有限公司|浙江经贸房地产公司|浙江英特药业有限责任公司|天台国大镕丰酒店管理有限公司|杭州千岛湖温馨岛娱乐旅游有限公司|杭州花港饭店|浙江《江南游报》社有限责任公司|浙江东菱酒店有限公司|杭州花港海航度假酒店有限公司|浙江国际大酒店有限公司|浙江旅游信息中心有限公司|浙江时代国际展览服务有限公司|浙江浙勤服务控股集团有限公司|浙江浙勤集团有限公司|浙江浙旅投数字科技有限公司|浙江省人才发展集团有限公司|浙江省古村落（传统村落）保护利用股权投资基金合伙企业（有限合伙）|浙江省国际投资服务中心有限公司|浙江省国际贸易展览有限公司|浙江省旅工贸有限责任公司|浙江雷迪森物业服务有限公司|浙江雷迪森酒店集团有限公司|舟山市普陀山银海饭店有限公司|雷迪森旅业集团有限公司|上海杭钢凯暄矿业投资有限公司|幸福之江资本运营有限公司|杭州杭钢合金钢铸造有限公司|杭州钢铁厂小型轧钢股份有限公司|浙江东菱商贸有限公司|浙江富春紫光环保股份有限公司|中杭监测技术研究院有限公司|杭州紫云能源综合利用开发有限公司|杭州紫元置业有限公司|浙江杭钢人力资源开发服务有限公司|浙江杭钢健康产业投资管理有限公司|浙江杭钢公管后勤服务有限公司|浙江杭钢动力有限公司|浙江杭钢商贸集团有限公司|浙江杭钢工贸有限公司|浙江杭钢数字科技有限公司|浙江杭钢智谷科技有限公司|浙江杭钢电炉炼钢有限公司|浙江杭钢职业教育集团有限公司|浙江杭钢高速线材有限公司|浙江省冶金研究院有限公司|浙江省工业设计研究院有限公司|浙江省环保集团有限公司|浙江省遂昌金矿有限公司|浙江紫汇资产管理有限公司|浙江紫臻物业管理服务有限公司|浙江钢联控股有限公司|温州杭钢水务有限公司|上海华山康健医疗有限公司|台州台信企业管理合伙企业（有限合伙）|浙江中天东方氟硅材料股份有限公司|浙江巨化环保科技有限公司|浙江巨柯私募基金管理有限公司|浙江巨荣石油化工销售有限公司|浙江晋巨化工有限公司|浙能巨化（浙江自贸区）股权投资基金合伙企业（有限合伙）|中核浙能能源有限公司|中海油绿能港浙江宁波能源有限公司|伊犁新矿煤业有限责任公司|内蒙古同煤鄂尔多斯矿业投资有限公司|国家管网集团浙江省天然气管网有限公司|浙江浙能产业研究院有限公司|浙江浙能物业发展有限公司|浙江浙能绿城体育文化发展有限公司|浙江省白马湖实验室有限公司|浙江职业足球俱乐部有限公司|嘉兴公路建设投资有限公司|嘉兴市嘉萧高速公路投资开发有限公司|德清县杭绕高速有限公司|杭州都市高速公路有限公司|浙商食品集团有限公司|浙江临金高速公路有限公司|浙江义东高速公路有限公司|浙江乐清湾高速公路有限公司|浙江交投交通建设管理有限公司|浙江交投太平交通基础设施股权投资基金（有限合伙）|浙江交投高速公路建设管理有限公司|浙江交投高速公路运营管理有限公司|浙江交通资源投资集团有限公司|浙江台州沈海高速公路有限公司|浙江台州甬台温高速公路有限公司|浙江宁波杭甬复线三期高速公路有限公司|浙江宁波甬台温高速公路有限公司|浙江数智交院科技股份有限公司|浙江景文高速公路有限公司|浙江杭宁高速公路有限责任公司|浙江杭宣高速公路有限公司|浙江杭新景高速公路有限公司|浙江杭海城际铁路有限公司|浙江杭温铁路有限公司|浙江杭甬复线宁波一期高速公路有限公司|浙江杭绍甬高速公路有限公司|浙江沪平盐铁路有限公司|浙江温州市域铁路一号线有限公司|浙江甬舟复线一期高速公路有限公司|浙江省交投控股集团有限公司|浙江省交通投资集团高速公路管理有限公司|浙江省商业集团有限公司|浙江省海运集团股份有限公司|浙江省经济建设投资有限公司|浙江省轨道交通建设管理集团有限公司|浙江省轨道交通运营管理集团有限公司|浙江省铁路发展控股集团有限责任公司|浙江省长三角投资有限公司|浙江舟山北向大通道有限公司|浙江衢丽铁路有限公司|浙江衢松铁路有限公司|浙江诸永高速公路有限公司|浙江路产城发展集团有限公司|浙江金华甬金衢上高速公路有限公司|浙江高信技术股份有限公司|浙江高速物流有限公司|温州市文泰高速公路有限公司|温州市瑞文高速公路有限公司|绍兴柯桥杭金衢联络线高速公路有限公司|金华市东永高速投资有限公司|东港投资发展集团有限公司|杭州农发原乡人农特产有限公司|杭州千岛湖鲟龙科技股份有限公司|浙江农发产业投资有限公司|浙江省现代农业研究会|芜湖信农硬科技投资合伙企业（有限合伙）|黑龙江亚欧牧业有限公司|浙江四港联动发展有限公司|浙江电子口岸有限公司|浙江空港商业经营管理有限责任公司|浙江空港数字科技有限公司|浙江空港资本控股有限公司|上海大宗商品仓单登记有限责任公司|宁波舟山港铁矿石储运有限公司|杭州港务集团有限公司|浙江中澳现代产业园有限公司|浙江义迪通供应链服务有限公司|浙江之迪控股有限公司|浙江海港国际联运有限公司|浙江海港大宗商品交易中心有限公司|浙江海港引航服务有限公司|浙江船舶交易市场有限公司|杭州富格企业管理合伙企业（有限合伙）|杭州松下马达有限公司|汇孚集团有限公司|浙江信联钢铁有限公司|浙江广杰投资管理有限公司|浙江建设融资租赁有限公司|浙江杰尚投资管理有限公司|浙江申达塑料机械有限公司|浙江申达机器制造股份有限公司|浙江省二轻供销总公司|浙江省二轻商业经营管理有限公司|浙江省二轻房地产开发有限公司|浙江省工美控股有限公司|浙江省工艺美术研究院有限公司|浙江省皮革塑料有限公司|浙江省艺创投资发展股份有限公司|浙江省艺创文旅发展有限公司|安邦护卫（浙江）公共安全智慧科技有限公司|浙江丽水安邦护卫有限公司|浙江台州安邦护卫有限公司|浙江嘉兴安邦护卫有限公司|浙江宁波安邦护卫有限公司|浙江安邦护卫安全服务有限公司|浙江安邦护卫科技服务有限公司|浙江杭州安邦护卫有限公司|浙江温州安邦护卫有限公司|浙江湖州安邦护卫有限公司|浙江绍兴安邦护卫有限公司|浙江舟山安邦护卫有限公司|浙江衢州安邦护卫有限公司|上海浙大科技发展有限公司|杭州启真未来创新股权投资合伙企业（有限合伙）|杭州浙大动物医院有限公司|杭州浙大文化创意发展有限公司|杭州紫金港未来创新投资合伙企业（有限合伙）|杭州网新信息控股有限公司|杭州西投启真脑机智能产业运营有限公司|浙江启真人才发展有限公司|浙江大学农业科技园有限公司|浙江大学创新技术研究院有限公司|浙江大学城乡规划设计研究院有限公司|浙江大学杭州国际科创中心发展有限公司|浙江大学科技园发展有限公司|浙江大学能源工程设计研究院有限公司|浙江浙大列车智能化工程技术研究中心有限公司|浙江浙大圆正科技创新服务有限公司|浙江浙大新宇物业集团有限公司|浙江浙大科创集团有限公司|浙江浙大西投脑机智能科技有限公司|浙江钱塘机器人及智能装备研究有限公司|丽水市廉合产权交易有限公司|北京中产智合咨询服务中心（有限合伙）|北京金马甲产权网络交易有限公司|台州市产权交易所有限公司|嘉兴市产权交易有限公司|湖州市联合产权交易有限公司|绍兴市产权交易有限公司|舟山市产权交易中心有限责任公司|衢州市产权交易中心有限公司|浙江省三建建设集团有限公司|'
+        kwL=kwLstr.split('|')
+        for kk in kwL:
+            kwmsg={
+                'kw':kk,
+                'wordsCode':'sougou',
+                'sid':'102004'
+            }
+            kwList.append(kwmsg)
+        return kwList
+
+    def runLocSpider(self,kwmsg):
+        searchkw=kwmsg['kw']
+        wordsCode=kwmsg['wordsCode']
+        sid=kwmsg['sid']
+        jrttnewsSpider=SougouSpider(searchkw,wordsCode,sid)
+        try:
+            jrttnewsSpider.get_page_html()
+        except Exception as e:
+            logger.info('今日头条搜索异常'+searchkw)
+
+        if jrttnewsSpider.detailList.qsize() != 0:
+            try:
+                jrttnewsSpider.get_detail_html()
+            except Exception as e:
+                logger.info('详情解析异常'+searchkw)
+        logger.info("关键词采集结束！"+searchkw)
+
 if __name__ == '__main__':
    sougouTaskJob=SougouTaskJob()
    baseCore=BaseCore()
@@ -188,11 +218,12 @@ if __name__ == '__main__':
    while True:
        try:
            codeList=[]
-            codeList.append('KW-20220602-0003')
+            codeList.append('KW-20231013-0001')
            for codeid in codeList:
                try:
-                    keymsg=sougouTaskJob.getkeyFromredis(codeid)
-                    kwList=sougouTaskJob.paserKeyMsg(keymsg)
+                    # keymsg=sougouTaskJob.getkeyFromredis(codeid)
+                    # kwList=sougouTaskJob.paserKeyMsg(keymsg)
+                    kwList=sougouTaskJob.lockwMsg()
                    if len(kwList)<1:
                        continue
                    logger.info(f"需要搜索的关键词:{kwList}")

--- a/souhunews_comm/baseCore.py
+++ b/souhunews_comm/baseCore.py
@@ -215,7 +215,7 @@ class BaseCore:
        except :
            pass
    def __init__(self):
-        self.__cnx_proxy = pymysql.connect(host='114.115.159.144', user='caiji', password='zzsn9988', db='clb_project',
+        self.__cnx_proxy = pymysql.connect(host='114.115.159.144', user='caiji', password='zzsn9988', db='caiji',
                                           charset='utf8mb4')
        self.__cursor_proxy= self.__cnx_proxy.cursor()
        pass
@@ -310,27 +310,28 @@ class BaseCore:
            proxy_list.append(proxy)
        return proxy_list[random.randint(0, 3)]

-    def get_proxy(self):
-        ip_list = []
-        with self.__cursor_proxy as cursor:
-            sql_str = '''select PROXY from clb_proxy where id={} '''.format(random.randint(1, 12))
-            print(sql_str)
-            cursor.execute(sql_str)
-            rows = cursor.fetchall()
-            for row in tqdm(rows):
-                str_ip = row[0]
-                str_ip_list = str_ip.split('-')
-                proxyMeta = "http://%(host)s:%(port)s" % {
-                    "host": str_ip_list[0],
-                    "port": str_ip_list[1],
-                }
-                proxy = {
-                    "HTTP": proxyMeta,
-                    "HTTPS": proxyMeta
-                }
-                ip_list.append(proxy)
+    # def get_proxy(self):
+    #     ip_list = []
+    #     with self.__cursor_proxy as cursor:
+    #         sql_str = '''select PROXY from clb_proxy where id={} '''.format(random.randint(1, 12))
+    #         print(sql_str)
+    #         cursor.execute(sql_str)
+    #         rows = cursor.fetchall()
+    #         for row in tqdm(rows):
+    #             str_ip = row[0]
+    #             str_ip_list = str_ip.split('-')
+    #             proxyMeta = "http://%(host)s:%(port)s" % {
+    #                 "host": str_ip_list[0],
+    #                 "port": str_ip_list[1],
+    #             }
+    #             proxy = {
+    #                 "HTTP": proxyMeta,
+    #                 "HTTPS": proxyMeta
+    #             }
+    #             ip_list.append(proxy)
+    #
+    #     return  ip_list

-        return  ip_list
    def get_proxyIPPort(self):
        ip_list = []
        with self.__cursor_proxy as cursor:

--- a/souhunews_comm/souhunewspider.py
+++ b/souhunews_comm/souhunewspider.py
@@ -3,6 +3,7 @@ from urllib.parse import urljoin

 import pymysql
 import requests
+import urllib3
 from bs4 import BeautifulSoup
 from gne import GeneralNewsExtractor
 from langid import langid
@@ -23,7 +24,7 @@ from smart_extractor import SmartExtractor
 from selenium.webdriver.chrome.service import Service
 from selenium import webdriver
 from urllib.parse import quote, unquote
-
+urllib3.disable_warnings()
 class SouhunewsSpider(object):

    def __init__(self,searchkw,wordsCode,sid):
@@ -31,9 +32,9 @@ class SouhunewsSpider(object):
        self.config = configparser.ConfigParser()
        # 读取配置文件
        self.config.read('config.ini')
-        baseCore=BaseCore()
-        self.logger=baseCore.getLogger()
-        self.url = 'https://www.sogou.com/'
+        self.baseCore=BaseCore()
+        self.logger=self.baseCore.getLogger()
+        self.url = 'https://www.sohu.com/'
        self.r = redis.Redis(host=self.config.get('redis', 'host'),
                             port=self.config.get('redis', 'port'),
                             password=self.config.get('redis', 'pass'), db=0)
@@ -46,7 +47,7 @@ class SouhunewsSpider(object):
        self.wordsCode = wordsCode
        self.sid = sid

-    #将列表数据插入到表中 baidu_search_result
+    #将列表数据插入到表中 meta_search_result
    def itemInsertToTable(self,items):
        try:
            itemdata=[]
@@ -56,7 +57,7 @@ class SouhunewsSpider(object):
                data=(self.sid,self.wordsCode,item['title'],item['detailurl'],item['source'],item['publishtime'],item['content'],item['contentHtml'],'1',item['kword'],nowtime)
                itemdata.append(data)

-            sql ="INSERT into baidu_search_result (sid,wordsCode,title,detailurl,origin,publishdate,content,content_with_tag,state,keyword,create_time) VALUES (%s, %s,%s, %s, %s, %s, %s, %s, %s, %s, %s)"
+            sql ="INSERT into meta_search_result (sid,wordsCode,title,detailurl,origin,publishdate,content,content_with_tag,state,keyword,create_time) VALUES (%s, %s,%s, %s, %s, %s, %s, %s, %s, %s, %s)"
            cursorM.executemany(sql, itemdata)
            self.logger.info("数据插入数据库成功！")
            # 定义插入数据的SQL语句
@@ -241,7 +242,20 @@ class SouhunewsSpider(object):
            'Accept-Language':'zh-CN,zh;q=0.9',
            'Cookie':'SUV=1695794576771hvzq2n; clt=1695794576; cld=20230927140256; t=1695794594569; reqtype=pc; gidinf=x099980109ee17b02bbffd42800081cb2f516277b38e',
        }
-        proxy = {'https': 'http://127.0.0.1:1080', 'http': 'http://127.0.0.1:1080'}
+        # proxy = {'https': 'http://127.0.0.1:1080', 'http': 'http://127.0.0.1:1080'}
+        proxy =self.baseCore.get_proxy()
+        try:
+            res=requests.get(url,headers=headers,proxies=proxy,verify=False,timeout=10)
+            res.encoding='utf-8'
+            text=res.text
+        except Exception as e:
+            try:
+                res=requests.get(url,headers=headers,verify=False,timeout=10)
+                res.encoding='utf-8'
+                text=res.text
+            except Exception as e:
+                text=''
+        if text=='':
            try:
                res=requests.get(url,headers=headers,verify=False,timeout=10)
                res.encoding='utf-8'
@@ -272,7 +286,7 @@ class SouhunewsSpider(object):
    # 获取每一页数据, 开趴.
    def get_page_html(self):
        #设置采集列表页面和页数
-        totalnum=3
+        totalnum=5
        keyword=self.searchkw
        # keyword='浙江国有资本运营公司'
        for pagenum in range(0,totalnum):
@@ -319,7 +333,7 @@ class SouhunewsSpider(object):
                    bdetail=self.getDetailmsg(detailmsg)
                    processitem=self.getProcessitem(bdetail)
                    try:
-                        self.sendkafka(processitem)
+                        # self.sendkafka(processitem)
                        self.r.sadd('pysouhunews_'+self.wordsCode, processitem['sourceAddress'])
                    except Exception as e:
                        self.logger.info("放入kafka失败！")
@@ -418,8 +432,8 @@ class SouhunewsSpider(object):
    def extractorMsg(self,url,title):
        content=''
        contentWithTag=''
-        lang=''
-        lang=self.detect_language(title)
+        lang='zh'
+        # lang=self.detect_language(title)
        sm=SmartExtractor(lang)
        try:
            raw_html=self.reqSouhuHtml(url)
@@ -514,7 +528,7 @@ class SouhunewsSpider(object):
        if content!='':
            processitem={
                "sid":self.sid,
-                "source":"5",
+                "source":"3",
                "title":bdetail['title'],
                "content":bdetail['content'],
                "contentWithtag":bdetail['contentHtml'],

--- a/souhunews_comm/souhunewstaskJob_comm.py
+++ b/souhunews_comm/souhunewstaskJob_comm.py
@@ -168,7 +168,7 @@ class SouhunewsTaskJob(object):
            try:
                souhunewsSpider.get_page_html()
            except Exception as e:
-                logger.info('搜狗搜索异常'+searchkw)
+                logger.info('搜狐搜索异常'+searchkw)

        if souhunewsSpider.detailList.qsize() != 0:
            try:

--- a/souhunews_comm/souhunewstaskJob_loc.py
+++ b/souhunews_comm/souhunewstaskJob_loc.py
@@ -153,7 +153,7 @@ class SouhunewsTaskJob(object):
        try:
            qqnewsSpider.get_page_html()
        except Exception as e:
-            logger.info('搜狗搜索异常'+searchkw)
+            logger.info('搜狐搜索异常'+searchkw)

        if qqnewsSpider.detailList.qsize() != 0:
            try:
@@ -161,7 +161,35 @@ class SouhunewsTaskJob(object):
            except Exception as e:
                logger.info('详情解析异常'+searchkw)
        logger.info("关键词采集结束！"+searchkw)
-import random
+
+    def lockwMsg(self):
+        kwList=[]
+        kwLstr='浙江银通典当有限责任公司|浙江省化工进出口有限公司|浙江省能源集团有限公司|浙江海港中奥能源有限责任公司|杭州香格里拉饭店有限公司|浙能集团新疆准东能源化工有限公司|温州衢化东南工贸有限公司|义乌产权交易所有限公司|温州机场集团有限公司|浙江浙能电力股份有限公司|浙江工程设计有限公司|浙江国信控股集团有限责任公司|浙江巨化集团进出口有限公司|上海盛东国际集装箱码头有限公司|衢州巨化房地产开发有限公司|浙江省空港融资租赁有限公司|浙江中旅商务会展有限公司|浙江海港集团财务有限公司|浙江浙能港口运营管理有限公司|浙江机场集团保安服务有限公司|新疆塔建三五九建工有限责任公司|浙江能源天然气集团有限公司|浙江华江科技股份有限公司|浙江浙能资产经营管理有限公司|浙江海港黄泽山油品储运有限公司|浙江浙旅投资有限责任公司|浙江海港海洋工程建设有限公司|浙江省能源集团财务有限责任公司|江西省赣浙能源有限公司|温州联合产权交易中心有限公司|浙江省通用航空产业发展有限公司|物产中大期货有限公司|浙江省富浙融资租赁有限公司|宁波机场集团有限公司|浙江省振兴乡村建设投资发展集团有限公司|浙江杭钢融资租赁有限公司|浙江国贸云商控股有限公司|浙江省农村实业发展有限公司|巨化控股有限公司|浙江省国际贸易集团有限公司|浙江机电职业技术学院|浙江头门港投资开发有限公司|伊犁新天煤化工有限责任公司|浙江省农村发展集团农产品有限公司|衢州巨化传媒有限公司|浙江机场投资有限责任公司|浙江中大元通融资租赁有限公司|巨化集团公司兴化实业有限公司|浙江新世纪期货有限公司|巨化集团有限公司|浙旅盛景资本投资有限公司|浙江省医疗健康集团有限公司|浙江歌瑞新材料有限公司|浙江省国贸集团资产经营有限公司|浙能资本控股有限公司|杭州萧山国际机场有限公司|浙江梅苑酒店管理有限公司|浙江国贸集团东方机电工程股份有限公司|上港集团平湖独山港码头有限公司|浙江巨化热电有限公司|浙江省粮食集团有限公司|宁波舟山港集团有限公司|浙江省纺织品进出口集团有限公司|浙江巨化物流有限公司|浙江建设技师学院|浙江杭州临空经济开发有限公司|浙江中大技术进出口集团有限公司|浙江省粮油食品进出口股份有限公司|浙江省石油股份有限公司|浙江空港培训服务咨询有限公司|浙江省机电集团有限公司|浙江省二轻集团有限责任公司|巨化集团上海融资租赁有限公司|浙江巨化股份有限公司|宁波航运交易所有限公司|浙江巨化投资有限公司|浙江省农村发展集团有限公司|浙江省国际贸易集团温州有限公司|浙江巨化化工矿业有限公司|浙江天虹物资贸易有限公司|浙江浙能兴源节能科技有限公司|浙江巨化装备工程集团有限公司|温州瑞平苍高速公路有限公司|上海巨化实业发展有限公司|浙能集团新疆准东煤业有限公司|浙江浙能煤运投资有限责任公司|浙江省新能源投资集团股份有限公司|浙江锦华新材料股份有限公司|浙旅湛景置业有限公司|浙江省交通投资集团财务有限责任公司|杭州钢铁集团有限公司|浙江巨化塑胶有限责任公司|浙江巨化信息技术有限公司|浙江新农都实业有限公司|浙江省万里教育集团|浙江长广（集团）有限责任公司|浙江海港资产管理有限公司|物产中大融资租赁集团有限公司|浙江浙能企业管理培训服务有限公司|浙江省海洋产业投资有限公司|浙江省交通投资集团有限公司|浙江轻工联非融资性担保有限公司|浙江省机场集团有限公司|浙江巨化汉正新材料有限公司|浙江海港内河港口发展有限公司|浙江外事旅游股份有限公司|浙江省浙商资产管理股份有限公司|浙江东方金融控股集团股份有限公司|浙江浙能技术研究院有限公司|浙江经济职业技术学院|浙江巨化清安检测科技有限公司|浙江省国有资本运营有限公司|浙江省土产畜产进出口集团有限公司|浙江巨化能源有限公司|浙江产权交易所有限公司|宁波海运集团有限公司|浙江省中国旅行社集团有限公司|杭州工商信托股份有限公司|浙江省衢州机场管理有限公司|浙江省旅游投资集团有限公司|巨化集团公司塑化厂|同煤浙能麻家梁煤业有限责任公司|浙江轻工联典当有限责任公司|浙江省海港投资运营集团有限公司|衢州衢化宾馆有限公司|舟山普陀山机场有限公司|深圳市巨化华南投资发展有限公司|浙江金华安邦护卫有限公司|浙江海港洋山投资开发有限公司|物产中大资本管理（浙江）有限公司|浙江南方工程咨询管理有限公司|黑龙江绿色农业发展集团有限公司|浙商财产保险股份有限公司|物产中大资产管理（浙江）有限公司|衢州氟硅技术研究院|招商局港口集团股份有限公司|浙江省台州机场管理有限公司|浙江省机电技师学院|巨化集团财务有限责任公司|浙江省电力建设有限公司|浙江省中医药健康产业集团有限公司|浙江巨化化工材料有限公司|浙江浙商金控有限公司|浙江富兴电力燃料有限公司|浙旅蝶来酒店集团有限公司|浙江英特集团股份有限公司|浙江省义乌机场管理有限公司|浙江省农都农产品有限公司|物产中大集团财务有限公司|宁波海运股份有限公司|浙江省建设投资集团股份有限公司|浙江菲达环保科技股份有限公司|浙江海正药业股份有限公司|物产中大集团股份有限公司|浙江运达风电股份有限公司|杭州钢铁股份有限公司|浙商中拓集团股份有限公司|勿忘农集团有限公司|浙江交通科技股份有限公司|巨化集团（香港）有限公司|香港泰纬国际贸易有限公司|浙江能源国际有限公司|常熟市国瑞科技股份有限公司|浙江镇洋发展股份有限公司|浙商银行股份有限公司|浙江物产环保能源股份有限公司|浙江诺和机电股份有限公司|浙江沪杭甬高速公路股份有限公司|宁波远洋运输股份有限公司|浙江大学控股集团有限公司|安邦护卫集团股份有限公司|浙江富建投资管理有限公司|浙江富浙科技有限公司|浙江富浙资产管理有限公司|浙江富浙资本管理有限公司|浙江富物资产管理有限公司|浙江省发展资产经营有限公司|浙江省环境科技有限公司|浙江省盐业集团有限公司|浙江省种业集团有限公司|浙江物产中大医药有限公司|浙江物产元通汽车集团有限公司|浙江物产实业控股（集团）有限公司|物产中大（浙江）产业投资有限公司|物产中大云商有限公司|物产中大元通实业集团有限公司|物产中大元通汽车有限公司|物产中大公用环境投资有限公司|物产中大化工集团有限公司|物产中大医疗健康投资有限公司|物产中大国际学院|物产中大数字科技有限公司|物产中大欧泰有限公司|物产中大物流投资集团有限公司|物产中大财智共享服务（浙江）有限公司|物产中大金属集团有限公司|物产中大金石集团有限公司|物产中大长乐林场有限公司|物产中大集团投资有限公司|南水北调（开化）水务有限公司|太仓中茵建设投资有限公司|安吉浙建投资有限公司|庆元县浙建项目管理有限公司|新昌县浙建投资管理有限公司|新疆阿拉尔上游水利水电工程有限责任公司|杭州财金未来社区股权投资合伙企业（有限合伙）|永嘉县浙建投资有限公司|浙建（兰溪）矿业有限公司|浙建项目管理（杭州）有限公司|浙江基建投资管理有限公司|浙江天台浙建环保科技有限公司|浙江建工建筑工程咨询有限公司|浙江建投创新科技有限公司|浙江建投发展房地产开发有限公司|浙江建投工程物资设备有限公司|浙江建投数字技术有限公司|浙江建投机械租赁有限公司|浙江建投环保工程有限公司|浙江建设商贸物流有限公司|浙江浙建云采贸易有限公司|浙江浙建实业发展有限公司|浙江浙建建筑设计有限公司|浙江浙建美丽乡村建设有限公司|浙江浙建钢结构有限公司|浙江省一建建设集团有限公司|浙江省二建建设集团有限公司|浙江省工业设备安装集团有限公司|浙江省建工集团有限责任公司|浙江省建投交通基础建设集团有限公司|浙江省建材集团有限公司|浙江省建设工程机械集团有限公司|浙江财金未来社区股权投资有限责任公司|衢州市衢江区浙建投资管理有限公司|长兴建图建设投资管理有限公司|长兴浙建投资有限公司|玉环市浙建城镇建设投资有限公司|绍兴市越城区浙建建设项目管理有限公司|绍兴市越城区浙建投资有限公司|苏州浙建地产发展有限公司|长兴浙建城镇建设有限公司|遂昌浙建投资有限公司|长兴浙永建设投资有限公司|阿拉尔浙建城市建设投资有限公司|浙江《机电工程》杂志社有限公司|浙江工匠培训有限公司|浙江康宁咨询服务有限公司|浙江新华体育器材制造有限公司|浙江机电华瑞航空投资有限公司|浙江机电集团投资有限公司|浙江新联民爆器材有限公司|浙江浙商金融服务有限公司|浙江省军工集团股份有限公司|浙江省工业矿产对外贸易有限责任公司|浙江省机电设计研究院有限公司|浙江蓝箭称重技术有限公司|浙江省机械设备进出口有限责任公司|浙江富浙投资有限公司|浙江海正集团有限公司|浙江五金矿产控股有限公司|浙江省医药保健品进出口有限责任公司|浙江省国兴进出口有限公司|浙江省国际贸易集团供应链有限公司|浙江省工艺品进出口有限公司|浙江经贸房地产公司|浙江英特药业有限责任公司|天台国大镕丰酒店管理有限公司|杭州千岛湖温馨岛娱乐旅游有限公司|杭州花港饭店|浙江《江南游报》社有限责任公司|浙江东菱酒店有限公司|杭州花港海航度假酒店有限公司|浙江国际大酒店有限公司|浙江旅游信息中心有限公司|浙江时代国际展览服务有限公司|浙江浙勤服务控股集团有限公司|浙江浙勤集团有限公司|浙江浙旅投数字科技有限公司|浙江省人才发展集团有限公司|浙江省古村落（传统村落）保护利用股权投资基金合伙企业（有限合伙）|浙江省国际投资服务中心有限公司|浙江省国际贸易展览有限公司|浙江省旅工贸有限责任公司|浙江雷迪森物业服务有限公司|浙江雷迪森酒店集团有限公司|舟山市普陀山银海饭店有限公司|雷迪森旅业集团有限公司|上海杭钢凯暄矿业投资有限公司|幸福之江资本运营有限公司|杭州杭钢合金钢铸造有限公司|杭州钢铁厂小型轧钢股份有限公司|浙江东菱商贸有限公司|浙江富春紫光环保股份有限公司|中杭监测技术研究院有限公司|杭州紫云能源综合利用开发有限公司|杭州紫元置业有限公司|浙江杭钢人力资源开发服务有限公司|浙江杭钢健康产业投资管理有限公司|浙江杭钢公管后勤服务有限公司|浙江杭钢动力有限公司|浙江杭钢商贸集团有限公司|浙江杭钢工贸有限公司|浙江杭钢数字科技有限公司|浙江杭钢智谷科技有限公司|浙江杭钢电炉炼钢有限公司|浙江杭钢职业教育集团有限公司|浙江杭钢高速线材有限公司|浙江省冶金研究院有限公司|浙江省工业设计研究院有限公司|浙江省环保集团有限公司|浙江省遂昌金矿有限公司|浙江紫汇资产管理有限公司|浙江紫臻物业管理服务有限公司|浙江钢联控股有限公司|温州杭钢水务有限公司|上海华山康健医疗有限公司|台州台信企业管理合伙企业（有限合伙）|浙江中天东方氟硅材料股份有限公司|浙江巨化环保科技有限公司|浙江巨柯私募基金管理有限公司|浙江巨荣石油化工销售有限公司|浙江晋巨化工有限公司|浙能巨化（浙江自贸区）股权投资基金合伙企业（有限合伙）|中核浙能能源有限公司|中海油绿能港浙江宁波能源有限公司|伊犁新矿煤业有限责任公司|内蒙古同煤鄂尔多斯矿业投资有限公司|国家管网集团浙江省天然气管网有限公司|浙江浙能产业研究院有限公司|浙江浙能物业发展有限公司|浙江浙能绿城体育文化发展有限公司|浙江省白马湖实验室有限公司|浙江职业足球俱乐部有限公司|嘉兴公路建设投资有限公司|嘉兴市嘉萧高速公路投资开发有限公司|德清县杭绕高速有限公司|杭州都市高速公路有限公司|浙商食品集团有限公司|浙江临金高速公路有限公司|浙江义东高速公路有限公司|浙江乐清湾高速公路有限公司|浙江交投交通建设管理有限公司|浙江交投太平交通基础设施股权投资基金（有限合伙）|浙江交投高速公路建设管理有限公司|浙江交投高速公路运营管理有限公司|浙江交通资源投资集团有限公司|浙江台州沈海高速公路有限公司|浙江台州甬台温高速公路有限公司|浙江宁波杭甬复线三期高速公路有限公司|浙江宁波甬台温高速公路有限公司|浙江数智交院科技股份有限公司|浙江景文高速公路有限公司|浙江杭宁高速公路有限责任公司|浙江杭宣高速公路有限公司|浙江杭新景高速公路有限公司|浙江杭海城际铁路有限公司|浙江杭温铁路有限公司|浙江杭甬复线宁波一期高速公路有限公司|浙江杭绍甬高速公路有限公司|浙江沪平盐铁路有限公司|浙江温州市域铁路一号线有限公司|浙江甬舟复线一期高速公路有限公司|浙江省交投控股集团有限公司|浙江省交通投资集团高速公路管理有限公司|浙江省商业集团有限公司|浙江省海运集团股份有限公司|浙江省经济建设投资有限公司|浙江省轨道交通建设管理集团有限公司|浙江省轨道交通运营管理集团有限公司|浙江省铁路发展控股集团有限责任公司|浙江省长三角投资有限公司|浙江舟山北向大通道有限公司|浙江衢丽铁路有限公司|浙江衢松铁路有限公司|浙江诸永高速公路有限公司|浙江路产城发展集团有限公司|浙江金华甬金衢上高速公路有限公司|浙江高信技术股份有限公司|浙江高速物流有限公司|温州市文泰高速公路有限公司|温州市瑞文高速公路有限公司|绍兴柯桥杭金衢联络线高速公路有限公司|金华市东永高速投资有限公司|东港投资发展集团有限公司|杭州农发原乡人农特产有限公司|杭州千岛湖鲟龙科技股份有限公司|浙江农发产业投资有限公司|浙江省现代农业研究会|芜湖信农硬科技投资合伙企业（有限合伙）|黑龙江亚欧牧业有限公司|浙江四港联动发展有限公司|浙江电子口岸有限公司|浙江空港商业经营管理有限责任公司|浙江空港数字科技有限公司|浙江空港资本控股有限公司|上海大宗商品仓单登记有限责任公司|宁波舟山港铁矿石储运有限公司|杭州港务集团有限公司|浙江中澳现代产业园有限公司|浙江义迪通供应链服务有限公司|浙江之迪控股有限公司|浙江海港国际联运有限公司|浙江海港大宗商品交易中心有限公司|浙江海港引航服务有限公司|浙江船舶交易市场有限公司|杭州富格企业管理合伙企业（有限合伙）|杭州松下马达有限公司|汇孚集团有限公司|浙江信联钢铁有限公司|浙江广杰投资管理有限公司|浙江建设融资租赁有限公司|浙江杰尚投资管理有限公司|浙江申达塑料机械有限公司|浙江申达机器制造股份有限公司|浙江省二轻供销总公司|浙江省二轻商业经营管理有限公司|浙江省二轻房地产开发有限公司|浙江省工美控股有限公司|浙江省工艺美术研究院有限公司|浙江省皮革塑料有限公司|浙江省艺创投资发展股份有限公司|浙江省艺创文旅发展有限公司|安邦护卫（浙江）公共安全智慧科技有限公司|浙江丽水安邦护卫有限公司|浙江台州安邦护卫有限公司|浙江嘉兴安邦护卫有限公司|浙江宁波安邦护卫有限公司|浙江安邦护卫安全服务有限公司|浙江安邦护卫科技服务有限公司|浙江杭州安邦护卫有限公司|浙江温州安邦护卫有限公司|浙江湖州安邦护卫有限公司|浙江绍兴安邦护卫有限公司|浙江舟山安邦护卫有限公司|浙江衢州安邦护卫有限公司|上海浙大科技发展有限公司|杭州启真未来创新股权投资合伙企业（有限合伙）|杭州浙大动物医院有限公司|杭州浙大文化创意发展有限公司|杭州紫金港未来创新投资合伙企业（有限合伙）|杭州网新信息控股有限公司|杭州西投启真脑机智能产业运营有限公司|浙江启真人才发展有限公司|浙江大学农业科技园有限公司|浙江大学创新技术研究院有限公司|浙江大学城乡规划设计研究院有限公司|浙江大学杭州国际科创中心发展有限公司|浙江大学科技园发展有限公司|浙江大学能源工程设计研究院有限公司|浙江浙大列车智能化工程技术研究中心有限公司|浙江浙大圆正科技创新服务有限公司|浙江浙大新宇物业集团有限公司|浙江浙大科创集团有限公司|浙江浙大西投脑机智能科技有限公司|浙江钱塘机器人及智能装备研究有限公司|丽水市廉合产权交易有限公司|北京中产智合咨询服务中心（有限合伙）|北京金马甲产权网络交易有限公司|台州市产权交易所有限公司|嘉兴市产权交易有限公司|湖州市联合产权交易有限公司|绍兴市产权交易有限公司|舟山市产权交易中心有限责任公司|衢州市产权交易中心有限公司|浙江省三建建设集团有限公司|'
+        kwL=kwLstr.split('|')
+        for kk in kwL:
+            kwmsg={
+                'kw':kk,
+                'wordsCode':'souhu',
+                'sid':'102002'
+            }
+            kwList.append(kwmsg)
+        return kwList
+    def runLocSpider(self,kwmsg):
+        searchkw=kwmsg['kw']
+        wordsCode=kwmsg['wordsCode']
+        sid=kwmsg['sid']
+        jrttnewsSpider=SouhunewsSpider(searchkw,wordsCode,sid)
+        try:
+            jrttnewsSpider.get_page_html()
+        except Exception as e:
+            logger.info('今日头条搜索异常'+searchkw)
+
+        if jrttnewsSpider.detailList.qsize() != 0:
+            try:
+                jrttnewsSpider.get_detail_html()
+            except Exception as e:
+                logger.info('详情解析异常'+searchkw)
+        logger.info("关键词采集结束！"+searchkw)
 if __name__ == '__main__':
    souhunewsTaskJob=SouhunewsTaskJob()
    baseCore=BaseCore()
@@ -175,11 +203,12 @@ if __name__ == '__main__':
    while True:
        try:
            codeList=[]
-            codeList.append('KW-20220602-0003')
+            codeList.append('KW-20231013-0001')
            for codeid in codeList:
                try:
-                    keymsg=souhunewsTaskJob.getkeyFromredis(codeid)
-                    kwList=souhunewsTaskJob.paserKeyMsg(keymsg)
+                    # keymsg=souhunewsTaskJob.getkeyFromredis(codeid)
+                    # kwList=souhunewsTaskJob.paserKeyMsg(keymsg)
+                    kwList=souhunewsTaskJob.lockwMsg()
                    if len(kwList)<1:
                        continue
                    logger.info(f"需要搜索的关键词:{kwList}")

--- a/test/chrome_curl_cffi.py
+++ b/test/chrome_curl_cffi.py
+
+from curl_cffi import requests
+
+def test1():
+    # 注意这个 impersonate 参数，指定了模拟哪个浏览器
+    r = requests.get("https://tls.browserleaks.com/json", impersonate="chrome101")
+
+    print(r.json())
+
+def test2():
+    proxies={"http": "http://127.0.0.1:1080", "https": "http://127.0.0.1:1080"}
+    r = requests.get("http://baidu.com",
+                     proxies=proxies,
+                     allow_redirects=False,
+                     impersonate="chrome101"
+                     )
+    print(r.text)
+
+def test3():
+    headers = {
+        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36"
+    }
+    url = "http://baidu.com"
+    # 注意这个 impersonate 参数，指定了模拟哪个浏览器
+    response = requests.get(url, headers=headers, impersonate="chrome101")
+    print(response.text)
+
+test3()
+
+
--- a/test/client.conf
+++ b/test/client.conf
+
+# connect timeout in seconds
+# default value is 30s
+connect_timeout=300
+ 
+# network timeout in seconds
+# default value is 30s
+network_timeout=600
+ 
+# the base path to store log files
+#base_path=/home/tarena/django-project/cc_shop1/cc_shop1/logs
+ 
+# tracker_server can ocur more than once, and tracker_server format is
+#  "host:port", host can be hostname or ip address
+tracker_server=114.115.215.96:22122
+ 
+#standard log level as syslog, case insensitive, value list:
+### emerg for emergency
+### alert
+### crit for critical
+### error
+### warn for warning
+### notice
+### info
+### debug
+log_level=info
+ 
+# if use connection pool
+# default value is false
+# since V4.05
+use_connection_pool = false
+ 
+# connections whose the idle time exceeds this time will be closed
+# unit: second
+# default value is 3600
+# since V4.05
+connection_pool_max_idle_time = 3600
+ 
+# if load FastDFS parameters from tracker server
+# since V4.05
+# default value is false
+load_fdfs_parameters_from_tracker=false
+ 
+# if use storage ID instead of IP address
+# same as tracker.conf
+# valid only when load_fdfs_parameters_from_tracker is false
+# default value is false
+# since V4.05
+use_storage_id = false
+ 
+# specify storage ids filename, can use relative or absolute path
+# same as tracker.conf
+# valid only when load_fdfs_parameters_from_tracker is false
+# since V4.05
+storage_ids_filename = storage_ids.conf
+ 
+ 
+#HTTP settings
+http.tracker_server_port=80
+ 
+#use "#include" directive to include HTTP other settiongs
+##include http.conf
--- a/test/logT.py
+++ b/test/logT.py
+from loguru import logger
+logger.add('logs/z_project.log',
+           level='DEBUG',
+           format='{time:YYYY-MM-DD  :mm:ss} - {level} - {file} - {line} - {message}',
+           rotation="10 MB")
+logger.info('可以写日志了')
\ No newline at end of file
--- a/test/pdf识别.py
+++ b/test/pdf识别.py
+import pdfplumber
+import pdfplumber
+import re
+import os
+
+def re_text(bt, text):
+    m1 = re.search(bt, text)
+    if m1 is not None:
+        return re_block(m1[0])
+
+def re_block(text):
+    return text.replace(' ', '').replace('　', '').replace('）', '').replace(')', '').replace('：', ':')
+
+def get_pdf(dir_path):
+    pdf_file = []
+    for root, sub_dirs, file_names in os.walk(dir_path):
+        for name in file_names:
+            if name.endswith('.pdf'):
+                filepath = os.path.join(root, name)
+                pdf_file.append(filepath)
+    return pdf_file
+
+def read():
+    filenames = get_pdf(r'C:\Users\WIN10\Desktop\a')  # 修改为自己的文件目录
+    for filename in filenames:
+        print(filename)
+        with pdfplumber.open(filename) as pdf:
+            first_page = pdf.pages[0]
+            pdf_text = first_page.extract_text()
+            print(pdf_text)
+            if '发票' not in pdf_text:
+                continue
+            # print(pdf_text)
+            print('--------------------------------------------------------')
+            print(re_text(re.compile(r'[\u4e00-\u9fa5]+电子普通发票.*?'), pdf_text))
+            t2 = re_text(re.compile(r'[\u4e00-\u9fa5]+专用发票.*?'), pdf_text)
+            if t2:
+                print(t2)
+            # print(re_text(re.compile(r'发票代码(.*\d+)'), pdf_text))
+            print(re_text(re.compile(r'发票号码(.*\d+)'), pdf_text))
+            print(re_text(re.compile(r'开票日期(.*)'), pdf_text))
+            print(re_text(re.compile(r'名\s*称\s*[:：]\s*([\u4e00-\u9fa5]+)'), pdf_text))
+            print(re_text(re.compile(r'纳税人识别号\s*[:：]\s*([a-zA-Z0-9]+)'), pdf_text))
+            price = re_text(re.compile(r'小写.*(.*[0-9.]+)'), pdf_text)
+
+            print(price)
+            company = re.findall(re.compile(r'名.*称\s*[:：]\s*([\u4e00-\u9fa5]+)'), pdf_text)
+            if company:
+                print(re_block(company[len(company)-1]))
+            print('--------------------------------------------------------')
+
+read()
\ No newline at end of file
--- a/test/pipeiName.py
+++ b/test/pipeiName.py
@@ -7,7 +7,7 @@ import openpyxl
 from urllib.parse import urlparse

 # 打开Excel文件
-workbook = openpyxl.load_workbook('name.xlsx')
+workbook = openpyxl.load_workbook(r'C:\Users\WIN10\Desktop\aa\qiye.xlsx')

 # 获取工作表对象
 worksheet = workbook.active
@@ -17,14 +17,14 @@ qiyedatas=[]
 for row in worksheet.iter_rows(values_only=True):
      qiyemsg={
            'yname':row[0],
-            'name':row[1],
-            'url':row[2]
+            'name':row[0],
+            'url':row[1]
      }
      qiyedatas.append(qiyemsg)
      # 打印每行的数据
      # print(row)

-conn = pymysql.Connect(host='114.116.44.11', port=3306, user='root', passwd='f7s0&7qqtK', db='clb_project',
+conn = pymysql.Connect(host='114.116.44.11', port=3306, user='caiji', passwd='f7s0&7qqtK', db='clb_project',
                       charset='utf8')
 cursor = conn.cursor()
 sql1 = """select id, info_source_code, web_site_name, site_name , site_uri  from  info_source  WHERE web_site_name like '%[name]%' """