Merge remote-tracking branch 'origin/master'

41c6aaa2 · 薛凌堃 · 84e35107 · a5ca358d · 41c6aaa2 · 41c6aaa2
--- a/comData/haiguanData/amountVerify.py
+++ b/comData/haiguanData/amountVerify.py
+import configparser
+import os
+import glob
+
+#统计数据的路径信息
+def getTotalFileNamePath(path,year,startMonth,endMonth,field_name,iEType_name):
+
+    end_str = "{:02d}".format(endMonth)
+    if startMonth<endMonth:
+        filePathname=path+str(year)+'\\'+end_str+'\\累计\\'
+        # 202301-07--收发货地址--进口.csv
+        fileName=str(year)+'01-'+end_str+'--'+field_name+'--'+iEType_name+'.csv'
+    if startMonth==endMonth:
+        filePathname=path+str(year)+'\\'+end_str+'\\单月\\'
+        fileName=str(year)+end_str+'--'+field_name+'--'+iEType_name+'.csv'
+    fpathName = os.path.join(filePathname, fileName)
+    return fpathName
+
+#统计数据的详细数据信息
+def getFileNamePath(path,year,startMonth,endMonth,field_name,iEType_name):
+
+    end_str = "{:02d}".format(endMonth)
+    if startMonth<endMonth:
+        filePathname=path+str(year)+'\\'+end_str+'\\累计\\'+field_name+'\\'
+        # 202301-07--收发货地址--出口-11.csv
+        fileName=str(year)+'01-'+end_str+'--'+field_name+'--'+iEType_name+'-*.csv'
+    if startMonth==endMonth:
+        filePathname=path+str(year)+'\\'+end_str+'\\单月\\'+field_name+'\\'
+        # 202307--收发货地址--出口-11.csv
+        fileName=str(year)+end_str+'--'+field_name+'--'+iEType_name+'-*.csv'
+    inFileName = os.path.join(filePathname, fileName)
+    return inFileName
+
+import pandas as pd
+
+def readTotalCsv(path):
+    df = pd.read_csv(path, encoding='gbk',dtype=str)
+    df['美元'] = df['美元'].str.replace(',', '').astype(float)
+    return df
+
+def readDetailCsv(path):
+    ddf = pd.read_csv(path, encoding='gbk',dtype=str)
+    # 计算列的总和
+    column_sum = pd.to_numeric(ddf['美元'].str.replace(',', '').astype(float)).sum()
+    # row =pd.loc[pd[field_name+'编码']==codeId]
+    codeId=ddf.iloc[0, 0]
+    return codeId,column_sum
+
+
+
+
+def test():
+    path='D:\hg\\'
+    years='2022'
+    endMonths='12'
+    endMonths=int(endMonths)
+    startMonths=[1,endMonths]
+    field_names=['贸易伙伴','收发货地址','贸易方式']
+    iEType_names=['进口','进出口','出口']
+    errorFile=[]
+    conError=[]
+    for startMonth in startMonths:
+        for field_name in field_names:
+            for iEType_name in iEType_names:
+                fpathName=getTotalFileNamePath(path,years,startMonth,endMonths,field_name,iEType_name)
+                pdAll=readTotalCsv(fpathName)
+                inFileName=getFileNamePath(path,years,startMonth,endMonths,field_name,iEType_name)
+                listDetailFile = glob.glob(inFileName, recursive=True)
+                for detailFile in listDetailFile:
+                    try:
+                        codeId,column_sum=readDetailCsv(detailFile)
+                        try:
+                            if field_name=='收发货地址':
+                                row =pdAll.loc[pdAll['注册地编码']==codeId]
+                            else:
+                                row =pdAll.loc[pdAll[field_name+'编码']==codeId]
+                            try:
+                                usvalue = row.at[row.index[-1], '美元']
+                                if usvalue==column_sum:
+                                    continue
+                                else:
+                                    msgList=[detailFile,column_sum,usvalue]
+                                    errorFile.append(msgList)
+                            except Exception as e:
+                                print(f'错误原因e{e} {detailFile}')
+                        except Exception as e2 :
+                            print(f'错误原因e2{e2} {detailFile}')
+                    except Exception as e3 :
+                        # 下载的异常文件
+                        conError.append(detailFile)
+                        print(f'错误原因e2{e3} {detailFile}')
+    # 将列表转换为DataFrame
+    df = pd.DataFrame(errorFile, columns=['有问题的文件','计算的值','网站的值'])
+    # 将DataFrame保存为CSV文件
+    df.to_csv(years+str(endMonths)+'data.csv', index=False)
+    # 将列表转换为DataFrame
+    df = pd.DataFrame(conError, columns=['下载内容异常'])
+    # 将DataFrame保存为CSV文件
+    df.to_csv(years+str(endMonths)+'文件错误.csv', index=False)
+    return errorFile
+
+if __name__ == '__main__':
+    errorFileList=test()
+
+
+    # config = configparser.ConfigParser()
+    # config.read('config.ini')
+    # path=config.get('param', 'path')
+    # years=config.get('param', 'year')
+    # endMonths=config.get('param', 'endMonth')
+    # startMonths=['1',endMonths]
+    # field_names=['贸易伙伴','收发货地址','贸易方式']
+    # iEType_names=['进口','进出口','出口']
+    # for startMonth in startMonths:
+    #     for field_name in field_names:
+    #         for iEType_name in iEType_names:
+    #             getFileNamePath(path,years,startMonth,endMonths,field_name,iEType_name)
+
--- a/comData/haiguanData/hgDownFile2022单月.py
+++ b/comData/haiguanData/hgDownFile2022单月.py
-
+
@@ -10,7 +10,6 @@ import pandas as pd
 import redis
 import requests
 from datetime import datetime
-
 '''
 海关下载数据类型和参数分类组合
 CODE_TS #商品编码  ORIGIN_COUNTRY  #贸易伙伴 TRADE_MODE #贸易方式 TRADE_CO_PORT #收发货地址
@@ -44,6 +43,10 @@ d:/hg/2023/7/
 1）按照类型分组获取对应的每月的最新编码信息
 2）根据字段编码和商品进行对应统计信息的下载
 3）根据商品编码下载数据
+6.添加文件内容格式校验
+1）获取统计文件信息
+2）获取下载的文件数据
+3）计算对应的值，如果异常就删除
 '''

 class HgDownFile(object):
@@ -212,11 +215,20 @@ class HgDownFile(object):

    #单个字段的参数设置
    def setparam(self,iEType,currencyType,year,startMonth,endMonth,outerField1):
-        if year==2022 and endMonth==1:
-            selectTableState= 1  #202201前的数据为2 后的数据是1
+        # 2022年 1-1  202202 2   2022年 1月之前数据是 2
+        # 2022年 1-2  202202 3  2022年的累计数据是 3
+        # 2022年 2-2  202202 1  2022年 1月之后数据是 1
+        if year<2022:
+            selectTableState= 2  #202202前的数据为2 后的数据是1
        else:
-            selectTableState= 2  #202201前的数据为2 后的数据是1
-
+            s=int(startMonth)
+            e=int(endMonth)
+            if year==2022 and s<e: #2022年累计数据单独设置参数
+                selectTableState= 3
+            elif year==2022 and e==1:
+                selectTableState= 2
+            else:
+                selectTableState= 1  #202202前的数据为2 后的数据是1
        param={
            'pageSize': 10,
            'iEType': iEType,
@@ -238,17 +250,24 @@ class HgDownFile(object):
            'outerValue4':'',
            'orderType': 'CODE ASC DEFAULT',
            'selectTableState': selectTableState,  #202201前的数据为2 后的数据是1
-            'currentStartTime': '202201',
+            'currentStartTime': '202202',
        }
-
        return param

    #联合查询字段的参数设置
    def setcodesAndProductparam(self,iEType,currencyType,year,startMonth,endMonth,outerField1,filedCode):
-        if year==2022 and endMonth==1:
-            selectTableState= 1  #202201前的数据为2 后的数据是1
+
+        if year<2022:
+            selectTableState= 2  #202202前的数据为2 后的数据是1
        else:
-            selectTableState= 2  #202201前的数据为2 后的数据是1
+            s=int(startMonth)
+            e=int(endMonth)
+            if year==2022 and s<e: #2022年累计数据单独设置参数
+                selectTableState= 3
+            elif year==2022 and e==1:
+                selectTableState= 2
+            else:
+                selectTableState= 1  #202202前的数据为2 后的数据是1
        param={
            'pageSize': 10,
            'iEType': iEType,
@@ -270,7 +289,7 @@ class HgDownFile(object):
            'outerValue4':'',
            'orderType': 'CODE ASC DEFAULT',
            'selectTableState': selectTableState,
-            'currentStartTime': '202201',
+            'currentStartTime': '202202',
        }
        return param

@@ -314,12 +333,11 @@ class HgDownFile(object):
        outerFields=['CODE_TS','ORIGIN_COUNTRY','TRADE_MODE','TRADE_CO_PORT']
        # outerFields=['CODE_TS']
        currencyType='usd'
-        # endMonth=self.r.get('newMonth')
-        # endMonth=int(endMonth.decode('utf-8'))
-        # endMonth=int(self.config.get('param', 'endMonth'))
-        # if endMonth != (month-1):
-        #     return
-        startMonths=[endMonth]
+
+        if endMonth==1:
+            startMonths=[1]
+        else:
+            startMonths=[1,endMonth]
        for startMonth in startMonths:
            for iEType in iETypes:
                for outerField1 in outerFields:
@@ -346,19 +364,59 @@ class HgDownFile(object):
                print(f'文件已存在{filePathName}')
                codeFileList.append(filePathName)
                continue
+            #进行数据下载返回临时文件
            tmpfilename=self.reqDownFile(param)
-            saveFileName=self.tmpToFile(tmpfilename,filePathName)
-            print(saveFileName)
-            codeFileList.append(saveFileName)
+            #校验临时的金额是否跟统计文件中的对应
+            flagg=self.verifyFile(tmpfilename,year,startMonth,endMonth,outerField1,iEType,currencyType)
+            #将临时文件的数据复制到指定文件中
+            if flagg:
+                saveFileName=self.tmpToFile(tmpfilename,filePathName)
+                print(saveFileName)
+                codeFileList.append(saveFileName)
+            else:
+                os.remove(tmpfilename)
        return codeFileList

+    def verifyFile(self,tmpfilename,year,startMonth,endMonths,outerField1,iEType,currencyType):
+        flag=False
+        path='D:\\hg\\'
+        years=year
+        endMonths=endMonths
+        end_str=int(endMonths)
+        startMonths=startMonth
+        if startMonths<=end_str:
+            filePathName=self.filepath(iEType,currencyType,year,startMonth,end_str,outerField1)
+            try:
+                dfAll = pd.read_csv(filePathName, encoding='gbk',dtype=str)
+                dfAll['美元'] = dfAll['美元'].str.replace(',', '').astype(float)
+                ddf = pd.read_csv(tmpfilename, encoding='gbk',dtype=str)
+                column_sum = pd.to_numeric(ddf['美元'].str.replace(',', '').astype(float)).sum()
+                codeId=ddf.iloc[0, 0]
+                fieldNm=''
+                if 'ORIGIN_COUNTRY' in outerField1:
+                    fieldNm='贸易伙伴'
+                if 'TRADE_MODE' in outerField1:
+                    fieldNm='贸易方式'
+                if 'TRADE_CO_PORT' in outerField1:
+                    fieldNm='收发货地址'
+                if fieldNm=='收发货地址':
+                    row =dfAll.loc[dfAll['注册地编码']==codeId]
+                else:
+                    row =dfAll.loc[dfAll[fieldNm+'编码']==codeId]
+                try:
+                    usvalue = row.at[row.index[-1], '美元']
+                    if usvalue==column_sum:
+                        flag=True
+                except Exception as e:
+                    print(e)
+            except Exception as e22:
+                print(e22)
+        return flag
+
    def codeFieldDown(self,fieldFileList,year,endMonth):
        current_date = datetime.now()
        # year = current_date.year
        year = int(year)
-        # endMonth=self.r.get('newMonth')
-        # endMonth=int(endMonth.decode('utf-8'))
-        # endMonth=int(self.config.get('param', 'endMonth'))
        for fieldFile in fieldFileList:
            #['CODE_TS','ORIGIN_COUNTRY','TRADE_MODE','TRADE_CO_PORT']
            try:
@@ -411,7 +469,11 @@ if __name__ == '__main__':
                    fieldFileList=hgDownFile.field1Down(year,endMonth)
                    if len(fieldFileList)>= 12:
                        break
-
+            else:
+                while len(fieldFileList)< 24:
+                    fieldFileList=hgDownFile.field1Down(year,endMonth)
+                    if len(fieldFileList)>= 24:
+                        break
            for i in range(1,3):
                print('_______________')
                hgDownFile.codeFieldDown(fieldFileList,year,endMonth)
--- a/comData/haiguanData/hgProductDownFile.py
+++ b/comData/haiguanData/hgProductDownFile.py
@@ -11,6 +11,8 @@ import redis
 import requests
 from datetime import datetime
 from logRecord import LogRecord
+import traceback
+
 '''
 海关商品详情下载流程
 1.下载商品编码
@@ -225,10 +227,18 @@ class HgDownFile(object):

    #单个字段的参数设置
    def setparam(self,iEType,currencyType,year,startMonth,endMonth,outerField1):
-        if year>2021:
-            selectTableState= 1  #202201前的数据为2 后的数据是1
+        if year<2022:
+            selectTableState= 2  #202202前的数据为2 后的数据是1
        else:
-            selectTableState= 2  #202201前的数据为2 后的数据是1
+            s=int(startMonth)
+            e=int(endMonth)
+            if year==2022 and s<e: #2022年累计数据单独设置参数
+                selectTableState= 3
+            elif year==2022 and e==1:
+                selectTableState= 2
+            else:
+                selectTableState= 1  #202202前的数据为2 后的数据是1
+        outerValue1='87036011,87036012,87036013,87036019,87036021,87036022,87036023,87036029,87036031,87036032,87036033,87036039,87036041,87036042,87036043,87036049,87036051,87036052,87036053,87036059,87036061,87036062,87036063,87036069,87036071,87036072,87036073,87036079,87037011,87037012,87037013,87037019,87037021,87037022,87037023,87037029,87037031,87037032,87037033,87037039,87037041,87037042,87037043,87037049,87037051,87037052,87037053,87037059,87037061,87037062,87037063,87037069,87037071,87037072,87037073,87037079,40111000,40112000,40121100,40121200,40122010,40129020,40131000,70071190,70072190,70091000,85229091,85269110,85272100,85272900,85392130,85392930,94019910,28046117,28046119,38180011,38180019,85044030,85414200,85414300,84723090,84729040,85258120,85258220,85258320,85258921,85258922,85258923,85258929,85286210,85286220,85286290,85286910,85286990,90065310,90065390,90065930,90065941,90065949'
        param={
            'pageSize': 10,
            'iEType': iEType,
@@ -244,22 +254,29 @@ class HgDownFile(object):
            'outerField2':'',
            'outerField3':'',
            'outerField4':'',
-            'outerValue1':'',
+            'outerValue1':outerValue1,
            'outerValue2':'',
            'outerValue3':'',
            'outerValue4':'',
            'orderType': 'CODE ASC DEFAULT',
            'selectTableState': selectTableState,  #202201前的数据为2 后的数据是1
-            'currentStartTime': '202201', #2022年1月数据需要单独处理
+            'currentStartTime': '202202', #2022年1月数据需要单独处理
        }
        return param

    #联合查询字段的参数设置
    def setcodesAndProductparam(self,iEType,currencyType,year,startMonth,endMonth,outerField1,filedCode):
-        if year>2021:
-            selectTableState= 1  #202201前的数据为2 后的数据是1
+        if year<2022:
+            selectTableState= 2  #202202前的数据为2 后的数据是1
        else:
-            selectTableState= 2  #202201前的数据为2 后的数据是1
+            s=int(startMonth)
+            e=int(endMonth)
+            if year==2022 and s<e: #2022年累计数据单独设置参数
+                selectTableState= 3
+            elif year==2022 and e==1:
+                selectTableState= 2
+            else:
+                selectTableState= 1  #202202前的数据为2 后的数据是1
        param={
            'pageSize': 10,
            'iEType': iEType,
@@ -281,7 +298,7 @@ class HgDownFile(object):
            'outerValue4':'',
            'orderType': 'CODE ASC DEFAULT',
            'selectTableState': selectTableState,
-            'currentStartTime': '202201',
+            'currentStartTime': '202202',
        }
        return param

@@ -302,6 +319,20 @@ class HgDownFile(object):
            os.remove(tmpfilename)

        return   filePathName
+    #将临时文件放复制到目录中
+    def tmpFileLength(self,tmpfilename):
+        flag=True
+        # 打开csv文件
+        with open(tmpfilename, 'r') as file:
+            # 创建csv阅读器
+            csv_reader = csv.reader(file)
+            # 使用len()函数获取行数
+            line_count = len(list(csv_reader))
+        if line_count > 9990:
+            print('csv文件行数过大需要对编码进行拆分')
+            flag=False
+
+        return  flag

    def readcsv(self,filePath):
        codes=[]
@@ -369,8 +400,19 @@ class HgDownFile(object):
                codeFileList.append(codeFileMsg)
                continue
            tmpfilename=self.reqDownFile(param)
-            #将下载的临时文件复制到规定的文件中
-            saveFileName=self.tmpToFile(tmpfilename,filePathName)
+            fflag=self.tmpFileLength(tmpfilename)
+            #判断文件行数是否接近1万
+            if fflag: #小于1万保存数据
+                #校验临时的金额是否跟统计文件中的对应
+                flagg=self.verifyFile(tmpfilename,year,startMonth,endMonth,outerField1,iEType,currencyType)
+                #将临时文件的数据复制到指定文件中
+                if flagg:
+                    #将下载的临时文件复制到规定的文件中
+                    saveFileName=self.tmpToFile(tmpfilename,filePathName)
+                else:
+                    saveFileName=''
+            else:
+                saveFileName=''
            #文件行数超过接近1万时需要对编码进行拆分进行重新下载
            if saveFileName=='':
                cds=code.split(',')
@@ -380,6 +422,7 @@ class HgDownFile(object):
                    #拼接参数
                    param=self.setcodesAndProductparam(iEType,currencyType,year,startMonth,endMonth,outerField1,code)
                    #生成参数对应的文件路径
+
                    filePathName=self.codeFilepath(iEType,currencyType,year,startMonth,endMonth,outerField1,filecodes)
                    if os.path.exists(filePathName):
                        print(f'文件已存在{filePathName}')
@@ -390,14 +433,54 @@ class HgDownFile(object):
                        codeFileList.append(codeFileMsg)
                        continue
                    tmpfilename=self.reqDownFile(param)
-                    #将下载的临时文件复制到规定的文件中
-                    saveFileName=self.tmpToFile(tmpfilename,filePathName)
+                    #校验临时的金额是否跟统计文件中的对应
+                    flagg=self.verifyFile(tmpfilename,year,startMonth,endMonth,outerField1,iEType,currencyType)
+                    #将临时文件的数据复制到指定文件中
+                    if flagg:
+                        #将下载的临时文件复制到规定的文件中
+                        saveFileName=self.tmpToFile(tmpfilename,filePathName)
+                    # #将下载的临时文件复制到规定的文件中
+                    # saveFileName=self.tmpToFile(tmpfilename,filePathName)

            print(saveFileName)
            codeFileList.append(saveFileName)
            filemsg=self.codeFilepathMsg(iEType,currencyType,year,startMonth,endMonth,outerField1)
        return codeFileList,filemsg

+
+    def verifyFile(self,tmpfilename,year,startMonth,endMonths,outerField1,iEType,currencyType):
+        flag=False
+        path='D:\\hg\\'
+        years=year
+        endMonths=endMonths
+        end_str=int(endMonths)
+        startMonths=startMonth
+        if startMonths<=end_str:
+            try:
+                filePathName=self.filepath(iEType,currencyType,year,startMonth,endMonth,outerField1)
+            except :
+                traceback.print_exc()
+            try:
+                dfAll = pd.read_csv(filePathName, encoding='gbk',dtype=str)
+                dfAll['美元'] = dfAll['美元'].str.replace(',', '').astype(float)
+                ddf = pd.read_csv(tmpfilename, encoding='gbk',dtype=str)
+                ddf['美元']=pd.to_numeric(ddf['美元'].str.replace(',', '').astype(float))
+                column_sum = ddf.groupby('商品编码')['美元'].sum()
+                sumList=column_sum.reset_index().values.tolist()
+                for codesum in sumList:
+                    codeId=codesum[0]
+                    cvalue=codesum[1]
+                    row =dfAll.loc[dfAll['商品编码']==codeId]
+                    try:
+                        usvalue = row.at[row.index[-1], '美元']
+                        if usvalue==cvalue:
+                            flag=True
+                    except Exception as e:
+                        print(e)
+            except Exception as e22:
+                print(e22)
+        return flag
+
    #详情商品信息参数拼接
    def codeFieldDown(self,fieldFileList,year,endMonth):
        current_date = datetime.now()
@@ -427,7 +510,8 @@ class HgDownFile(object):
                codeFileList,filemsg=hgDownFile.fieldCodeDown(iEType,currencyType,year,startMonth,endMonth,outerField1,codes)

            except Exception as e:
-                print(e)
+                # print(e)
+                traceback.print_exc()
                continue

        return codeFileList,filemsg
@@ -486,6 +570,3 @@ if __name__ == '__main__':



-
-
-
--- a/comData/haiguanData/hgDownFile2022累计.py
+++ b/comData/haiguanData/hgDownFile2022累计.py
-
+
@@ -10,8 +10,21 @@ import pandas as pd
 import redis
 import requests
 from datetime import datetime
+from logRecord import LogRecord
+import traceback

 '''
+海关商品详情下载流程
+1.下载商品编码
+2.对商品编码进行分组 
+3.对商品编码进行重命名
+4.拼接路径和创建文件名
+5.进行数据的下载
+6.去重文件中的 \r换行
+7.进行文件的保存
+
+
+
 海关下载数据类型和参数分类组合
 CODE_TS #商品编码  ORIGIN_COUNTRY  #贸易伙伴 TRADE_MODE #贸易方式 TRADE_CO_PORT #收发货地址
 1.设置进出口类型 （默认进口，出口，进出口都进行下载）采用遍历的方式
@@ -46,6 +59,7 @@ d:/hg/2023/7/
 3）根据商品编码下载数据
 '''

+log=LogRecord()
 class HgDownFile(object):

    def __init__(self):
@@ -71,26 +85,10 @@ class HgDownFile(object):
        return cookie
    #请求下载文件
    def reqDownFile(self,data):
-        header={
-            'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
-            'Accept-Encoding':'gzip, deflate',
-            'Accept-Language':'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
-            'Cache-Control':'max-age=0',
-            'Content-Type':'application/x-www-form-urlencoded',
-            'Host':'stats.customs.gov.cn',
-            'Origin':'http://stats.customs.gov.cn',
-            'Proxy-Connection':'keep-alive',
-            'Upgrade-Insecure-Requests':'1',
-            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.64',
-            'Cookie': self.getcookie()
-        }
        data=data
-        proxy={}
-        # response=requests.post(url=self.downUrl,data=data,headers=header,verify=False,timeout=20)
        statuscode=410
        filename='数据文件.csv'
        while statuscode != 200:
-            # time.sleep(5)
            try:
                header={
                    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
@@ -113,7 +111,7 @@ class HgDownFile(object):
                    try:
                        csv_content = response.text
                        count = csv_content.count("\n")
-                        csv_content=csv_content.replace('\0', '')
+                        csv_content=csv_content.replace('\0', '').replace('\r','')
                        print(count)
                        # filename='数据文件.csv'
                        tmppath='D:\\hg\\tmp'
@@ -127,7 +125,6 @@ class HgDownFile(object):
                    except Exception as e:
                        print(e)
                        statuscode=411
-
                else:
                    print('CSV文件下载保存失败！')

@@ -140,7 +137,7 @@ class HgDownFile(object):
        return filename
    #统计数据的文件路径设置单个字段
    def filepath(self,iEType,currencyType,year,startMonth,endMonth,outerField1):
-        path='D:\\hg\\'
+        path=self.config.get('param', 'path')
        field_name=self.getfieldName(outerField1)
        iEType_name=self.getiETypeName(iEType)
        if startMonth<endMonth:
@@ -164,25 +161,43 @@ class HgDownFile(object):

    #统计数据的文件路径设置单个字段
    def codeFilepath(self,iEType,currencyType,year,startMonth,endMonth,outerField1,code):
-        path='D:\\hg\\'
+        path=self.config.get('param', 'path')
        field_name=self.getfieldName(outerField1)
        iEType_name=self.getiETypeName(iEType)
        if startMonth<endMonth:
            start_str = '01'
            end_str = "{:02d}".format(endMonth)
-            filename=str(year)+start_str+'-'+end_str+'--'+field_name+'--'+iEType_name+'-'+str(code)+'.csv'
+            filename=str(year)+"年--"+start_str+"月-"+end_str+"月--"+iEType_name+"--商品-贸易伙伴-贸易方式-注册地--"+str(code)+".csv";
            filepath=path+str(year)+'\\'+end_str+'\\累计\\'+field_name+'\\'
        else:
            end_str = "{:02d}".format(endMonth)
-            filename=str(year)+end_str+'--'+field_name+'--'+iEType_name+'-'+str(code)+'.csv'
+            filename=str(year)+"年--"+end_str+"月--"+iEType_name+"--商品-贸易伙伴-贸易方式-注册地--"+str(code)+".csv";
            filepath=path+str(year)+'\\'+end_str+'\\单月\\'+field_name+'\\'
-
        save_dir = os.path.dirname(filepath)
        os.makedirs(save_dir, exist_ok=True)
        filename = os.path.join(save_dir, filename)
-
        return filename

+    #统计数据的文件路径设置单个字段
+    def codeFilepathMsg(self,iEType,currencyType,year,startMonth,endMonth,outerField1):
+        path=self.config.get('param', 'path')
+        field_name=self.getfieldName(outerField1)
+        iEType_name=self.getiETypeName(iEType)
+        if startMonth<endMonth:
+            start_str = '01'
+            end_str = "{:02d}".format(endMonth)
+            fn=str(year)+"年--"+start_str+"月-"+end_str+"月--"+iEType_name+"_文件统计.csv";
+            filepath=path+str(year)+'\\'+end_str+'\\'
+        else:
+            end_str = "{:02d}".format(endMonth)
+            fn=str(year)+"年--"+end_str+"月--"+iEType_name+"_文件统计.csv";
+            filepath=path+str(year)+'\\'+end_str+'\\'
+
+        save_dir = os.path.dirname(filepath)
+        os.makedirs(save_dir, exist_ok=True)
+        filemsg = os.path.join(save_dir, fn)
+        return filemsg
+
    def getfieldName(self,outerField1):
        field_name=''
        if 'CODE_TS' in outerField1:
@@ -212,11 +227,18 @@ class HgDownFile(object):

    #单个字段的参数设置
    def setparam(self,iEType,currencyType,year,startMonth,endMonth,outerField1):
-        # if year>2021:
-        #     selectTableState= 1  #202201前的数据为2 后的数据是1
-        # else:
-        #     selectTableState= 2  #202201前的数据为2 后的数据是1
-        selectTableState= 3
+        if year<2022:
+            selectTableState= 2  #202202前的数据为2 后的数据是1
+        else:
+            s=int(startMonth)
+            e=int(endMonth)
+            if year==2022 and s<e: #2022年累计数据单独设置参数
+                selectTableState= 3
+            elif year==2022 and e==1:
+                selectTableState= 2
+            else:
+                selectTableState= 1  #202202前的数据为2 后的数据是1
+        # outerValue1='87036011,87036012,87036013,87036019,87036021,87036022,87036023,87036029,87036031,87036032,87036033,87036039,87036041,87036042,87036043,87036049,87036051,87036052,87036053,87036059,87036061,87036062,87036063,87036069,87036071,87036072,87036073,87036079,87037011,87037012,87037013,87037019,87037021,87037022,87037023,87037029,87037031,87037032,87037033,87037039,87037041,87037042,87037043,87037049,87037051,87037052,87037053,87037059,87037061,87037062,87037063,87037069,87037071,87037072,87037073,87037079,40111000,40112000,40121100,40121200,40122010,40129020,40131000,70071190,70072190,70091000,85229091,85269110,85272100,85272900,85392130,85392930,94019910,28046117,28046119,38180011,38180019,85044030,85414200,85414300,84723090,84729040,85258120,85258220,85258320,85258921,85258922,85258923,85258929,85286210,85286220,85286290,85286910,85286990,90065310,90065390,90065930,90065941,90065949'
        param={
            'pageSize': 10,
            'iEType': iEType,
@@ -238,17 +260,23 @@ class HgDownFile(object):
            'outerValue4':'',
            'orderType': 'CODE ASC DEFAULT',
            'selectTableState': selectTableState,  #202201前的数据为2 后的数据是1
-            'currentStartTime': '202201',
+            'currentStartTime': '202202', #2022年1月数据需要单独处理
        }
        return param

    #联合查询字段的参数设置
    def setcodesAndProductparam(self,iEType,currencyType,year,startMonth,endMonth,outerField1,filedCode):
-        # if year>2021:
-        #     selectTableState= 1  #202201前的数据为2 后的数据是1
-        # else:
-        #     selectTableState= 2  #202201前的数据为2 后的数据是1
-        selectTableState= 3
+        if year<2022:
+            selectTableState= 2  #202202前的数据为2 后的数据是1
+        else:
+            s=int(startMonth)
+            e=int(endMonth)
+            if year==2022 and s<e: #2022年累计数据单独设置参数
+                selectTableState= 3
+            elif year==2022 and e==1:
+                selectTableState= 2
+            else:
+                selectTableState= 1  #202202前的数据为2 后的数据是1
        param={
            'pageSize': 10,
            'iEType': iEType,
@@ -260,17 +288,17 @@ class HgDownFile(object):
            'unitFlag': False,
            'unitFlag1': False,
            'codeLength': '8',
-            'outerField1': outerField1,
-            'outerField2':'CODE_TS',
-            'outerField3':'',
-            'outerField4':'',
+            'outerField1': 'CODE_TS',
+            'outerField2':'ORIGIN_COUNTRY',
+            'outerField3':'TRADE_MODE',
+            'outerField4':'TRADE_CO_PORT',
            'outerValue1': filedCode,
            'outerValue2':'',
            'outerValue3':'',
            'outerValue4':'',
            'orderType': 'CODE ASC DEFAULT',
            'selectTableState': selectTableState,
-            'currentStartTime': '202201',
+            'currentStartTime': '202202',
        }
        return param

@@ -282,15 +310,29 @@ class HgDownFile(object):
            csv_reader = csv.reader(file)
            # 使用len()函数获取行数
            line_count = len(list(csv_reader))
-        if line_count > 9995:
+        if line_count > 9990:
            print('csv文件行数过大需要对编码进行拆分')
            os.remove(tmpfilename)
            return ''
        else:
            shutil.copy(tmpfilename, filePathName)
-
            os.remove(tmpfilename)
+
        return   filePathName
+    #将临时文件放复制到目录中
+    def tmpFileLength(self,tmpfilename):
+        flag=True
+        # 打开csv文件
+        with open(tmpfilename, 'r') as file:
+            # 创建csv阅读器
+            csv_reader = csv.reader(file)
+            # 使用len()函数获取行数
+            line_count = len(list(csv_reader))
+        if line_count > 9990:
+            print('csv文件行数过大需要对编码进行拆分')
+            flag=False
+
+        return  flag

    def readcsv(self,filePath):
        codes=[]
@@ -300,7 +342,7 @@ class HgDownFile(object):
            next(reader)
            for row in reader:
                # print(row[0])
-                codes.append(row[0])
+                codes.append(str(row[0]))
        return codes
    #下载获取字段的编码信息
    def field1Down(self,year,endMonth):
@@ -311,7 +353,7 @@ class HgDownFile(object):
        year = int(year)
        month = current_date.month
        iETypes=[0,1,10]
-        outerFields=['CODE_TS','ORIGIN_COUNTRY','TRADE_MODE','TRADE_CO_PORT']
+        outerFields=['CODE_TS']
        # outerFields=['CODE_TS']
        currencyType='usd'
        # endMonth=self.r.get('newMonth')
@@ -319,7 +361,10 @@ class HgDownFile(object):
        # endMonth=int(self.config.get('param', 'endMonth'))
        # if endMonth != (month-1):
        #     return
-        startMonths=[1]
+        if endMonth==1:
+            startMonths=[1]
+        else:
+            startMonths=[1,endMonth]
        for startMonth in startMonths:
            for iEType in iETypes:
                for outerField1 in outerFields:
@@ -333,25 +378,109 @@ class HgDownFile(object):
                    print(saveFileName)

        return fieldFileList
-    #下载贸易方式商品，贸易伙伴商品，注册地商品 的统计信息
-    #1.从单个统计文件中获取对应的贸易编码，
-    #2.对每个贸易编码进行文件下载
-    #3.对下载的文件进行合并清洗重命名
+
+    #下载商品编码的内容信息
    def fieldCodeDown(self,iEType,currencyType,year,startMonth,endMonth,outerField1,codes):
        codeFileList=[]
-        for code in codes:
+        #对数据进行变量分组
+        codeList=self.group_elements(codes)
+        for k in range(0,len(codeList)):
+            code=codeList[k]
+            filecodes='cc'+str(k)
+            #拼接参数
            param=self.setcodesAndProductparam(iEType,currencyType,year,startMonth,endMonth,outerField1,code)
-            filePathName=self.codeFilepath(iEType,currencyType,year,startMonth,endMonth,outerField1,code)
+            #生成参数对应的文件路径
+            filePathName=self.codeFilepath(iEType,currencyType,year,startMonth,endMonth,outerField1,filecodes)
            if os.path.exists(filePathName):
                print(f'文件已存在{filePathName}')
-                codeFileList.append(filePathName)
+                codeFileMsg={
+                    '文件名':filePathName,
+                    '商品编码':code,
+                }
+                codeFileList.append(codeFileMsg)
                continue
            tmpfilename=self.reqDownFile(param)
-            saveFileName=self.tmpToFile(tmpfilename,filePathName)
+            fflag=self.tmpFileLength(tmpfilename)
+            #判断文件行数是否接近1万
+            if fflag: #小于1万保存数据
+                #校验临时的金额是否跟统计文件中的对应
+                flagg=self.verifyFile(tmpfilename,year,startMonth,endMonth,outerField1,iEType,currencyType)
+                #将临时文件的数据复制到指定文件中
+                if flagg:
+                    #将下载的临时文件复制到规定的文件中
+                    saveFileName=self.tmpToFile(tmpfilename,filePathName)
+                else:
+                    saveFileName=''
+            else:
+                saveFileName=''
+            #文件行数超过接近1万时需要对编码进行拆分进行重新下载
+            if saveFileName=='':
+                cds=code.split(',')
+                for j in range(0,len(cds)):
+                    code=cds[j]
+                    filecodes='cc'+str(k)+'_'+str(j)
+                    #拼接参数
+                    param=self.setcodesAndProductparam(iEType,currencyType,year,startMonth,endMonth,outerField1,code)
+                    #生成参数对应的文件路径
+                    filePathName=self.codeFilepath(iEType,currencyType,year,startMonth,endMonth,outerField1,filecodes)
+                    if os.path.exists(filePathName):
+                        print(f'文件已存在{filePathName}')
+                        codeFileMsg={
+                            '文件名':filePathName,
+                            '商品编码':code,
+                        }
+                        codeFileList.append(codeFileMsg)
+                        continue
+                    tmpfilename=self.reqDownFile(param)
+                    #校验临时的金额是否跟统计文件中的对应
+                    flagg=self.verifyFile(tmpfilename,year,startMonth,endMonth,outerField1,iEType,currencyType)
+                    #将临时文件的数据复制到指定文件中
+                    if flagg:
+                        #将下载的临时文件复制到规定的文件中
+                        saveFileName=self.tmpToFile(tmpfilename,filePathName)
+                    # #将下载的临时文件复制到规定的文件中
+                    # saveFileName=self.tmpToFile(tmpfilename,filePathName)
+
            print(saveFileName)
            codeFileList.append(saveFileName)
-        return codeFileList
+            filemsg=self.codeFilepathMsg(iEType,currencyType,year,startMonth,endMonth,outerField1)
+        return codeFileList,filemsg

+
+    def verifyFile(self,tmpfilename,year,startMonth,endMonths,outerField1,iEType,currencyType):
+        flag=False
+        path='D:\\hg\\'
+        years=year
+        endMonths=endMonths
+        end_str=int(endMonths)
+        startMonths=startMonth
+        if startMonths<=end_str:
+            try:
+                filePathName=self.filepath(iEType,currencyType,year,startMonth,endMonth,outerField1)
+            except :
+                traceback.print_exc()
+            try:
+                dfAll = pd.read_csv(filePathName, encoding='gbk',dtype=str)
+                dfAll['美元'] = dfAll['美元'].str.replace(',', '').astype(float)
+                ddf = pd.read_csv(tmpfilename, encoding='gbk',dtype=str)
+                ddf['美元']=pd.to_numeric(ddf['美元'].str.replace(',', '').astype(float))
+                column_sum = ddf.groupby('商品编码')['美元'].sum()
+                sumList=column_sum.reset_index().values.tolist()
+                for codesum in sumList:
+                    codeId=codesum[0]
+                    cvalue=codesum[1]
+                    row =dfAll.loc[dfAll['商品编码']==codeId]
+                    try:
+                        usvalue = row.at[row.index[-1], '美元']
+                        if usvalue==cvalue:
+                            flag=True
+                    except Exception as e:
+                        print(e)
+            except Exception as e22:
+                print(e22)
+        return flag
+
+    #详情商品信息参数拼接
    def codeFieldDown(self,fieldFileList,year,endMonth):
        current_date = datetime.now()
        # year = current_date.year
@@ -359,17 +488,11 @@ class HgDownFile(object):
        # endMonth=self.r.get('newMonth')
        # endMonth=int(endMonth.decode('utf-8'))
        # endMonth=int(self.config.get('param', 'endMonth'))
+        codeFileList=[]
        for fieldFile in fieldFileList:
            #['CODE_TS','ORIGIN_COUNTRY','TRADE_MODE','TRADE_CO_PORT']
            try:
-                if '商品' in fieldFile:
-                    continue
-                if '贸易伙伴' in fieldFile:
-                    outerField1=['ORIGIN_COUNTRY']
-                if '贸易方式' in fieldFile:
-                    outerField1=['TRADE_MODE']
-                if '收发货地址' in fieldFile:
-                    outerField1=['TRADE_CO_PORT']
+                outerField1=['CODE_TS']
                if '单月' in fieldFile:
                    startMonth=endMonth
                if '累计' in fieldFile:
@@ -381,37 +504,70 @@ class HgDownFile(object):
                if '--进出口' in fieldFile:
                    iEType=10
                currencyType='usd'
-                codes=hgDownFile.readcsv(fieldFile)
-                codeFileList=hgDownFile.fieldCodeDown(iEType,currencyType,year,startMonth,endMonth,outerField1,codes)
-                print(f'codes:{len(codeFileList)}')
-                print(len(codeFileList))
-                while len(codes)!= len(codeFileList):
-                    print('+++++++++++++')
-                    codeFileList=hgDownFile.fieldCodeDown(iEType,currencyType,year,startMonth,endMonth,outerField1,codes)
+                codes=hgDownFile.readcsv(fieldFile) #获取商品编码
+                # 进行下载
+                codeFileList,filemsg=hgDownFile.fieldCodeDown(iEType,currencyType,year,startMonth,endMonth,outerField1,codes)

            except Exception as e:
-                print(e)
+                # print(e)
+                traceback.print_exc()
+                continue
+
+        return codeFileList,filemsg
+    def group_elements(self,codes):
+        groups = [codes[i:i+8] for i in range(0, len(codes), 8)]
+        result = [','.join(group) for group in groups]
+        return result

+    def outfilemsg(self,codeFileList,filemsg):
+        # 输出字典数据到CSV文件
+        with open(filemsg, 'w', newline='') as file:
+            fieldnames = ['文件名', '商品编码']
+            writer = csv.DictWriter(file, fieldnames=fieldnames)
+            writer.writeheader()
+            writer.writerows(codeFileList)

 if __name__ == '__main__':
    hgDownFile=HgDownFile()
-    # hgDownFile.fileNameleiji()
-    # hgDownFile.fileNamedanyue()
-    # hgDownFile.tmpToFile(tmpfilename,filePathName)

-    ss=hgDownFile.config.get('param', 'endMonth')
    yss=hgDownFile.config.get('param', 'year')
-    for ye in yss.split(','):
-        year=int(ye)
-        for s in ss.split(','):
-            endMonth=int(s)
-            fieldFileList=hgDownFile.field1Down(year,endMonth)
-            if endMonth==1:
-                while len(fieldFileList)< 12:
+    ss=hgDownFile.config.get('param', 'endMonth')
+
+    # newMonth = hgDownFile.r.get("newMonth").decode('utf-8')
+    # ms = "{:02d}".format(int(ss))
+    #设置采集中
+    # hgDownFile.r.set("newhgdatastatus"+yss+"_"+ms,1)
+    try:
+        for ye in yss.split(','):
+            year=int(ye)
+            for s in ss.split(','):
+                endMonth=int(s)
+                print(f'year:{year} end:{endMonth}')
+                try:
                    fieldFileList=hgDownFile.field1Down(year,endMonth)
-                    if len(fieldFileList)>= 12:
-                        break
+                    if endMonth==1:
+                        while len(fieldFileList)< 3:
+                            fieldFileList=hgDownFile.field1Down(year,endMonth)
+                            if len(fieldFileList)>= 3:
+                                break
+                    else:
+                        while len(fieldFileList)< 6:
+                            fieldFileList=hgDownFile.field1Down(year,endMonth)
+                            if len(fieldFileList)>= 6:
+                                break
+                    for i in range(1,3):
+                        codeFileList,filemsg=hgDownFile.codeFieldDown(fieldFileList,year,endMonth)
+                    #输出文件和商品编码对应到文件中
+                    hgDownFile.outfilemsg(codeFileList,filemsg)
+                except Exception as ee:
+                    print(ee)
+    except  Exception as e:
+        print(e)
+        # hgDownFile.r.set("newhgdatastatus"+yss+"_"+ms,3)
+    #设置采集结束
+    # hgDownFile.r.set("newhgdatastatus"+yss+"_"+ms,2)
+
+
+
+

-            for i in range(1,3):
-                print('_______________')
-                hgDownFile.codeFieldDown(fieldFileList,year,endMonth)
--- a/comData/haiguanData/logMsg.py
+++ b/comData/haiguanData/logMsg.py
+# !/usr/bin/env python
+# -*- coding:utf-8 -*-
+
+import logging
+import getpass
+import sys
+
+class MyLog(object):
+    
+    def __init__(self):
+        """这个类用于创建一个自用的log"""
+        user=getpass.getuser()
+        self.logger=logging.getLogger(user)
+        self.logger.setLevel(logging.DEBUG)
+        logFile=sys.argv[0][0:-3]+'.log' #日志文件名
+        formatter=logging.Formatter('%(asctime)-12s %(levelname)-8s %(name)-10s %(message)-12s')
+
+        """日志显示到屏幕上并输出到日志文件夹内"""
+        logHand=logging.FileHandler(logFile)
+        logHand.setFormatter(formatter)
+        logHand.setLevel(logging.ERROR) #只有错误才会被记录到logfile中
+
+        logHandSt=logging.StreamHandler()
+        logHandSt.setFormatter(formatter)
+
+        self.logger.addHandler(logHand)
+        self.logger.addHandler(logHandSt)
+
+    """日志的5个级别对应以下的5个函数"""
+    def debug(self,msg):
+        self.logger.debug(msg)
+
+    def info(self,msg):
+        self.logger.info(msg)
+
+    def warn(self,msg):
+        self.logger.warn(msg)
+
+    def error(self,msg):
+        self.logger.error(msg)
+
+    def critical(self,msg):
+        self.logger.critical(msg)
+
+
+if __name__ == '__main__':
+    mylog=MyLog()
+    mylog.debug("我是一个debug")
+    mylog.info("我是一个info")
+    mylog.warn("我是一个warn")
+    mylog.error("我是一个error")
+    mylog.critical("我是一个critical")
--- a/comData/policylaw/policy.py
+++ b/comData/policylaw/policy.py
 # _*_ coding:utf-8 _*_

 """数据全量跑一遍，不做判重逻辑"""
-import datetime
 import json
-import os
 import re
 import time
-
+import datetime
 import fitz
 import pymongo
 import requests
+from bs4 import BeautifulSoup
 from kafka import KafkaProducer
 from pyquery import PyQuery as pq
 from requests.packages import urllib3
-from requests.adapters import HTTPAdapter
+from urllib.parse import urljoin
 from BaseCore import BaseCore
-
 baseCore = BaseCore()

 urllib3.disable_warnings()
@@ -24,8 +22,8 @@ from selenium.webdriver.chrome.service import Service
 from selenium.webdriver.common.by import By
 from lxml import etree
 from random import choice
-from bs4 import BeautifulSoup
-from urllib.parse import urljoin
+from requests.adapters import HTTPAdapter
+
 log = baseCore.getLogger()
 taskType = '政策法规'

@@ -36,11 +34,10 @@ taskType = '政策法规'
 各地方国资委
 """

-db_storage = pymongo.MongoClient('mongodb://114.115.221.202:27017', username='admin', password='zzsn@9988').caiji[
-    '国务院_国资委_copy1']
+db_storage = pymongo.MongoClient('mongodb://114.115.221.202:27017', username='admin', password='zzsn@9988').caiji['国务院_国资委_copy1']

-driver_path = r'F:\spider\cmd100\chromedriver.exe'
-chromr_bin = r'F:\spider\Google\Chrome\Application\chrome.exe'
+driver_path=  r'D:\cmd100\chromedriver.exe'
+chromr_bin=   r'D:\Google\Chrome\Application\chrome.exe'

 headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
@@ -64,9 +61,10 @@ def paserUrl(html, listurl):
 def getDriver():
    service = Service(driver_path)
    chrome_options = webdriver.ChromeOptions()
-    chrome_options.add_argument('--headless')
+    # chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')
    # chrome_options.add_argument('--no-sandbox')
+    chrome_options.add_argument('log-level=3')
    chrome_options.add_argument('--disable-dev-shm-usage')
    chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])  # 屏蔽chrome自动化受控提示
    chrome_options.add_argument("--disable-blink-features=AutomationControlled")  # 禁用启用Blink运行时的功能去掉webdriver痕迹
@@ -77,6 +75,12 @@ def getDriver():
        'user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36')
    # bro = webdriver.Chrome(chrome_options=chrome_options, service=service)
    bro = webdriver.Chrome(chrome_options=chrome_options, executable_path=driver_path)
+    # with open('stealth.min.js') as f:
+    #     js = f.read()
+    #
+    # bro.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
+    #     "source": js
+    # })
    return bro

 def save_data(dic_news):
@@ -203,109 +207,111 @@ def get_content1():
        s.keep_alive = False
        pcodeJiguan = a_list[0]
        try:
-            pageCount = getPageConunt(a_list, url, headers, s)
-            for pageNo in range(1, pageCount + 1):
+            #pageCount = getPageConunt(a_list, url, headers, s)
+            #for pageNo in range(1, pageCount + 1):
+            pageNo = 1
+            try:
                try:
+                    page_list = getList(a_list, url, headers, pageNo, s)
+                except:
+                    s.close()
+                    page_list = getList(a_list, url, headers, pageNo, s)
+                for page in page_list:
+                    id_list = []
+                    # 获取所需信息
+                    title = page['maintitle']  # 标题
+                    pub_time1 = page['publish_time']  # 发布时间
+                    pub_time2 = page['cwrq']  # 成文时间
+                    pub_code = page['fwzh']  # 发文字号
+                    href = page['pub_url']  # 网址
+                    # 判断是否已经爬取过
+                    is_href = db_storage.find_one({'网址': href})
+                    if is_href:
+                        num+=1
+                        log.info('已采集----------跳过')
+                        time.sleep(0.5)
+                        continue
                    try:
-                        page_list = getList(a_list, url, headers, pageNo, s)
-                    except:
-                        s.close()
-                        page_list = getList(a_list, url, headers, pageNo, s)
-                    for page in page_list:
-                        id_list = []
-                        # 获取所需信息
-                        title = page['maintitle']  # 标题
-                        pub_time1 = page['publish_time']  # 发布时间
-                        pub_time2 = page['cwrq']  # 成文时间
-                        pub_code = page['fwzh']  # 发文字号
-                        href = page['pub_url']  # 网址
-                        # 判断是否已经爬取过
-                        is_href = db_storage.find_one({'网址': href})
-                        if is_href:
-                            num+=1
-                            log.info('已采集----------跳过')
+                        resp_href = requests.get(url=href, headers=headers_, verify=False)
+                        resp_href.encoding = resp_href.apparent_encoding
+                        i_html = resp_href.text
+                        if '您访问的页面不存在或已删除' in i_html:
+                            # log.error(f'{title}...{href}...页面不存在或已删除')
                            continue
-                        try:
-                            resp_href = requests.get(url=href, headers=headers_, verify=False)
-                            resp_href.encoding = resp_href.apparent_encoding
-                            i_html = resp_href.text
-                            if '您访问的页面不存在或已删除' in i_html:
-                                # log.error(f'{title}...{href}...页面不存在或已删除')
+                        i_soup = BeautifulSoup(i_html, 'html.parser')
+                        i_soup = paserUrl(i_soup, href)
+                        source = str(i_soup.find_all('tbody')[0])
+                        pub_org = source.split('<td><b>发文机关：</b></td>')[1].split('<td>')[1].split('</td>')[
+                            0]  # 发文机关
+                        child_type = source.split('<td class="w340 zcwj_ztfl">')[1].split('</td>')[0]  # 主题分类
+                        contentWithTag = i_soup.find('div',class_='wrap mxxgkwrap mxxgkwrap_gwywj').find('table',class_='border-table noneBorder pages_content')
+                        # 去除扫一扫
+                        contentWithTag.find('div', attrs={'id': 'div_div'}).decompose()
+                        content = contentWithTag.text  # 不带标签正文
+                        fu_jian_soup = contentWithTag.find_all('a')
+                        time.sleep(0.5)
+                        for file in fu_jian_soup:
+                            try:
+                                file_href = file['href']
+                            except Exception as e:
+                                log.info(f'---{href}--------{e}-------')
                                continue
-                            i_soup = BeautifulSoup(i_html, 'html.parser')
-                            i_soup = paserUrl(i_soup, href)
-                            source = str(i_soup.find_all('tbody')[0])
-                            pub_org = source.split('<td><b>发文机关：</b></td>')[1].split('<td>')[1].split('</td>')[
-                                0]  # 发文机关
-                            child_type = source.split('<td class="w340 zcwj_ztfl">')[1].split('</td>')[0]  # 主题分类
-                            contentWithTag = i_soup.find('div',class_='wrap mxxgkwrap mxxgkwrap_gwywj').find('table',class_='border-table noneBorder pages_content')
-                            # 去除扫一扫
-                            contentWithTag.find('div', attrs={'id': 'div_div'}).decompose()
-                            content = contentWithTag.text  # 不带标签正文
-                            fu_jian_soup = contentWithTag.find_all('a')
-                            time.sleep(0.5)
-                            for file in fu_jian_soup:
-                                try:
-                                    file_href = file['href']
-                                except Exception as e:
-                                    log.info(f'---{href}--------{e}-------')
+                            if '.pdf' in file_href or '.docx' in file_href or '.doc' in file_href or 'xls' in file_href or '.zip' in file_href \
+                                    or '.rar' in file_href or '.ppt' in file_href or '.PDF' in file_href or '.DOC' in file_href \
+                                    or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
+                                file_name = file.text.strip()
+                                category = os.path.splitext(file_href)[1]
+                                if category not in file_name:
+                                    file_name = file_name + category
+                                retData = baseCore.uptoOBS(file_href,'1766',file_name)
+                                if retData['state']:
+                                    pass
+                                else:
                                    continue
-                                if '.pdf' in file_href or '.docx' in file_href or '.doc' in file_href or 'xls' in file_href or '.zip' in file_href \
-                                        or '.rar' in file_href or '.ppt' in file_href or '.PDF' in file_href or '.DOC' in file_href \
-                                        or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
-                                    file_name = file.text.strip()
-                                    category = os.path.splitext(file_href)[1]
-                                    if category not in file_name:
-                                        file_name = file_name + category
-                                    retData = baseCore.uptoOBS(file_href,'1766',file_name)
-                                    if retData['state']:
-                                        pass
-                                    else:
-                                        continue
-                                    att_id,full_path = baseCore.tableUpdate(retData,'国务院文件',file_name,num,pub_time1)
-                                    id_list.append(att_id)
+                                att_id,full_path = baseCore.tableUpdate(retData,'国务院文件',file_name,num,pub_time1)
+                                id_list.append(att_id)

-                                    #todo:将返回的地址更新到soup
-                                    file['href'] = full_path
-                        except:
-                            log.error(f'{title}...{href}...获取内容失败')
-                            continue
-                        #todo:替换完成之后，将附件上传至文件服务器
-                        time_now = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
-                        #todo:传kafka字段
-                        dic_news = {
-                            'attachmentIds': id_list,                     #附件id
-                            'author': '',                                 #作者
-                            'content': content,                           #正文不带标签
-                            'contentWithTag': str(contentWithTag),        #正文带标签
-                            'createDate': time_now,                       #创建时间
-                            'deleteFlag': 0,                              #是否删除(0为默认，1为删除)
-                            'id': '',                                     #
-                            'labels': [{'relationId': "1766", 'relationName': "国务院文件", 'labelMark': "policy"}],   #关联标签id  关联标签名称  关联标签标识
-                            'origin': '',                                 #政策发布机关
-                            'organ': pub_org,                             #政策发文机关
-                            'topicClassification': child_type,            #政策文件分类
-                            'issuedNumber': pub_code,                     #发文字号
-                            'publishDate': pub_time1,                     #发布时间
-                            'writtenDate': pub_time2,                     #成文时间
-                            'sid': '1697458829758697473',                 #信息源id
-                            'sourceAddress': href,                     #原文链接
-                            'summary': '',                                #摘要
-                            'title': title                                #标题
-                        }
-                        # print(dic_news)
-                        flag = sendKafka(dic_news)
-                        if flag:
-                            save_data(dic_news)
-                        num += 1
-                except:
-                    log.error(f'{pcodeJiguan}...第{pageNo}页获取列表失败')
-                    continue
+                                #todo:将返回的地址更新到soup
+                                file['href'] = full_path
+                    except:
+                        log.error(f'{title}...{href}...获取内容失败')
+                        continue
+                    #todo:替换完成之后，将附件上传至文件服务器
+                    time_now = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
+                    #todo:传kafka字段
+                    dic_news = {
+                        'attachmentIds': id_list,                     #附件id
+                        'author': '',                                 #作者
+                        'content': content,                           #正文不带标签
+                        'contentWithTag': str(contentWithTag),        #正文带标签
+                        'createDate': time_now,                       #创建时间
+                        'deleteFlag': 0,                              #是否删除(0为默认，1为删除)
+                        'id': '',                                     #
+                        'labels': [{'relationId': "1766", 'relationName': "国务院文件", 'labelMark': "policy"}],   #关联标签id  关联标签名称  关联标签标识
+                        'origin': '',                                 #政策发布机关
+                        'organ': pub_org,                             #政策发文机关
+                        'topicClassification': child_type,            #政策文件分类
+                        'issuedNumber': pub_code,                     #发文字号
+                        'publishDate': pub_time1,                     #发布时间
+                        'writtenDate': pub_time2,                     #成文时间
+                        'sid': '1697458829758697473',                 #信息源id
+                        'sourceAddress': href,                     #原文链接
+                        'summary': '',                                #摘要
+                        'title': title                                #标题
+                    }
+                    # print(dic_news)
+                    flag = sendKafka(dic_news)
+                    if flag:
+                        save_data(dic_news)
+                    num += 1
+            except:
+                log.error(f'{pcodeJiguan}...第{pageNo}页获取列表失败')
+                continue
        except:
            log.error(f'{pcodeJiguan}...获取总数失败')
            continue
-        end_time = time.time()
-        log.info(f'共抓取国务院文件{num}条数据，共耗时{start_time - end_time}')
+    end_time = time.time()
+    log.info(f'共抓取国务院文件{num}条数据，共耗时{end_time-start_time}')

 # 国务院部门文件
 def get_content2():
@@ -355,114 +361,117 @@ def get_content2():
                   '国家知识产权局', '国家档案局', '国家保密局', '国家密码管理局', '国家宗教事务局', '国务院台湾事务办公室', '国家乡村振兴局', '国家电影局']

    for bmfl in result_list:
+        #try:
+        #totalpage = getTotalpage(bmfl,headers,session)
+        #for pageNo in range(1,totalpage+1):
+        #for pageNo in range(1,6):
+        pageNo = 1
        try:
-            totalpage = getTotalpage(bmfl,headers,session)
-            for pageNo in range(1,totalpage+1):
+            try:
+                content_list = getContentList(bmfl,pageNo,headers,session)
+            except:
+                session.close()
+                content_list = getContentList(bmfl,pageNo,headers,session)
+            for content_dict in content_list:
+                id_list = []
+                href = content_dict['url']  # 详情页
+                title = content_dict['title']  # 标题
+                pub_code = content_dict['pcode']  # 发文字号
                try:
-                    try:
-                        content_list = getContentList(bmfl,pageNo,headers,session)
-                    except:
-                        session.close()
-                        content_list = getContentList(bmfl,pageNo,headers,session)
-                    for content_dict in content_list:
-                        id_list = []
-                        href = content_dict['url']  # 详情页
-                        title = content_dict['title']  # 标题
-                        pub_code = content_dict['pcode']  # 发文字号
-                        try:
-                            pub_time = int(content_dict['pubtime'] / 1000)  # 发布时间
-                            pub_time1 = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(pub_time))
-                        except:
-                            pub_time1 = ''
-                        try:
-                            p_time = int(content_dict['ptime'] / 1000)  # 成文时间
-                            pub_time2 = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(p_time))
-                        except:
-                            pub_time2 = ''
-                        pub_org = content_dict['puborg']  # 发文机关
+                    pub_time = int(content_dict['pubtime'] / 1000)  # 发布时间
+                    pub_time1 = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(pub_time))
+                except:
+                    pub_time1 = None
+                try:
+                    p_time = int(content_dict['ptime'] / 1000)  # 成文时间
+                    pub_time2 = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(p_time))
+                except:
+                    pub_time2 = None
+                pub_org = content_dict['puborg']  # 发文机关
+                try:
+                    child_type = content_dict['childtype']  # 主题分类
+                except:
+                    child_type = ''
+                # # 判断是否已经爬取过
+                is_href = db_storage.find_one({'网址': href})
+                if is_href:
+                    num+=1
+                    log.info('已采集----------跳过')
+                    time.sleep(0.5)
+                    continue
+                try:
+                    resp = requests.get(url=href, headers=headers, verify=False)
+                    resp.encoding = resp.apparent_encoding
+                    resp_text = resp.text
+                    soup = BeautifulSoup(resp_text, 'html.parser')
+                    soup = paserUrl(soup,href)
+                    time.sleep(0.5)
+                    contentWithTag = soup.find('div', attrs={'class': 'pages_content mhide'})
+                    content = contentWithTag.text
+                    if content == '' or content == 'None':
+                        log.info(f'----{href}---{title}---内容为空---')
+                        continue
+                    fu_jian_soup = contentWithTag.find_all('a')
+                    for file in fu_jian_soup:
                        try:
-                            child_type = content_dict['childtype']  # 主题分类
-                        except:
-                            child_type = ''
-                        # # 判断是否已经爬取过
-                        is_href = db_storage.find_one({'网址': href})
-                        if is_href:
-                            num+=1
-                            log.info('已采集----------跳过')
+                            file_href = file['href']
+                        except Exception as e:
+                            log.info(f'---{href}--------{e}-------')
                            continue
-                        try:
-                            resp = requests.get(url=href, headers=headers, verify=False)
-                            resp.encoding = resp.apparent_encoding
-                            resp_text = resp.text
-                            soup = BeautifulSoup(resp_text, 'html.parser')
-                            soup = paserUrl(soup,href)
-                            time.sleep(0.5)
-                            contentWithTag = soup.find('div', attrs={'class': 'pages_content mhide'})
-                            content = contentWithTag.text
-                            if content == '' or content == 'None':
-                                log.info(f'----{href}---{title}---内容为空---')
+                        if '.pdf' in file_href or '.docx' in file_href or '.doc' in file_href or 'xls' in file_href or '.zip' in file_href \
+                                or '.rar' in file_href or '.ppt' in file_href or '.PDF' in file_href or '.DOC' in file_href \
+                                or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
+                            file_name = file.text.strip()
+                            category = os.path.splitext(file_href)[1]
+                            if category not in file_name:
+                                file_name = file_name + category
+                            retData = baseCore.uptoOBS(file_href,'1699',file_name)
+                            if retData['state']:
+                                pass
+                            else:
                                continue
-                            fu_jian_soup = contentWithTag.find_all('a')
-                            for file in fu_jian_soup:
-                                try:
-                                    file_href = file['href']
-                                except Exception as e:
-                                    log.info(f'---{href}--------{e}-------')
-                                    continue
-                                if '.pdf' in file_href or '.docx' in file_href or '.doc' in file_href or 'xls' in file_href or '.zip' in file_href \
-                                        or '.rar' in file_href or '.ppt' in file_href or '.PDF' in file_href or '.DOC' in file_href \
-                                        or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
-                                    file_name = file.text.strip()
-                                    category = os.path.splitext(file_href)[1]
-                                    if category not in file_name:
-                                        file_name = file_name + category
-                                    retData = baseCore.uptoOBS(file_href,'1699',file_name)
-                                    if retData['state']:
-                                        pass
-                                    else:
-                                        continue
-                                    att_id,full_path = baseCore.tableUpdate(retData,'国务院文件',file_name,num,pub_time1)
-                                    id_list.append(att_id)
+                            att_id,full_path = baseCore.tableUpdate(retData,'国务院文件',file_name,num,pub_time1)
+                            id_list.append(att_id)

-                                    #todo:将返回的地址更新到soup
-                                    file['href'] = full_path
-                        except:
-                            log.error(f'{title}...{href}获取内容失败')
-                            continue
-                        time_now = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
-                        #todo:传kafka字段
-                        dic_news = {
-                            'attachmentIds': id_list,                     #附件id
-                            'author': '',                                 #作者
-                            'content': content,                           #正文不带标签
-                            'contentWithTag': str(contentWithTag),        #正文带标签
-                            'createDate': time_now,                       #创建时间
-                            'deleteFlag': 0,                              #是否删除(0为默认，1为删除)
-                            'id': '',                                     #
-                            'labels': [{'relationId': "1699", 'relationName': "国务院各部委文件", 'labelMark': "policy"}],   #关联标签id  关联标签名称  关联标签标识
-                            'origin': '',                                 #政策发布机关
-                            'organ': pub_org,                             #政策发文机关
-                            'topicClassification': child_type,            #政策文件分类
-                            'issuedNumber': pub_code,                     #发文字号
-                            'publishDate': pub_time1,                     #发布时间
-                            'writtenDate': pub_time2,                     #成文时间
-                            'sid': '1697458829758697473',                 #信息源id
-                            'sourceAddress': href,                     #原文链接
-                            'summary': '',                                #摘要
-                            'title': title                                #标题
-                        }
-                        # print(dic_news)
-                        flag = sendKafka(dic_news)
-                        if flag:
-                            save_data(dic_news)
-                        count += 1
-                        num += 1
+                            #todo:将返回的地址更新到soup
+                            file['href'] = full_path
                except:
-                    log.error(f'{bmfl}...第{pageNo}页获取信息列表失败')
+                    log.error(f'{title}...{href}获取内容失败')
                    continue
+                time_now = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
+                #todo:传kafka字段
+                dic_news = {
+                    'attachmentIds': id_list,                     #附件id
+                    'author': '',                                 #作者
+                    'content': content,                           #正文不带标签
+                    'contentWithTag': str(contentWithTag),        #正文带标签
+                    'createDate': time_now,                       #创建时间
+                    'deleteFlag': 0,                              #是否删除(0为默认，1为删除)
+                    'id': '',                                     #
+                    'labels': [{'relationId': "1699", 'relationName': "国务院各部委文件", 'labelMark': "policy"}],   #关联标签id  关联标签名称  关联标签标识
+                    'origin': '',                                 #政策发布机关
+                    'organ': pub_org,                             #政策发文机关
+                    'topicClassification': child_type,            #政策文件分类
+                    'issuedNumber': pub_code,                     #发文字号
+                    'publishDate': pub_time1,                     #发布时间
+                    'writtenDate': pub_time2,                     #成文时间
+                    'sid': '1697458829758697473',                 #信息源id
+                    'sourceAddress': href,                     #原文链接
+                    'summary': '',                                #摘要
+                    'title': title                                #标题
+                }
+                # print(dic_news)
+                flag = sendKafka(dic_news)
+                if flag:
+                    save_data(dic_news)
+                count += 1
+                num += 1
        except:
-            log.error(f'{bmfl}...获取页数失败')
+            log.error(f'{bmfl}...第{pageNo}页获取信息列表失败')
            continue
+        #except:
+        #    log.error(f'{bmfl}...获取页数失败')
+        #    continue
    end_time = time.time()
    log.info(f'共抓取国务院部门文件{count}条数据，耗时{end_time - start_time}')

@@ -553,7 +562,7 @@ def get_content3():
            'topicClassification': '',            #政策文件分类
            'issuedNumber': pub_hao,                     #发文字号
            'publishDate': pub_time,                     #发布时间
-            'writtenDate': '',                     #成文时间
+            'writtenDate': None,                     #成文时间
            'sid': '1697458829758697473',                 #信息源id
            'sourceAddress': href,                     #原文链接
            'summary': '',                                #摘要
@@ -744,7 +753,7 @@ def bei_jing():
                        or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                    file_name = file.text.strip()
                    category = os.path.splitext(file_href)[1]
-                    if category not in file_name:
+                    if category not in file_name :
                        file_name = file_name + category
                    retData = baseCore.uptoOBS(file_href, '1667',pathType,file_name)
                    if retData['state']:
@@ -870,7 +879,7 @@ def nei_meng_gu():
                            fu_jian_re = str(real_href).split('/t')[0] + '/' + str(fu_jian_re).split('./')[1]
                            fu_jian_href = fu_jian_re
                            category = os.path.splitext(fu_jian_href)[1]
-                            if category not in title:
+                            if category not in title :
                                file_name = title + category
                            # print(fu_jian_href)
                            # todo:附件上传至文件服务器
@@ -918,7 +927,7 @@ def nei_meng_gu():
        pass

    end = time.time()
-    print('共', num, '条', '...........', '共耗时', end - start, '秒')
+    log.info('共', num, '条', '...........', '共耗时', end - start, '秒')

 # 吉林
 def ji_lin():
@@ -982,7 +991,7 @@ def ji_lin():
                        # print(pub_come)
                i_content = soup.find(class_='zsy_comain')
                if i_content:
-                    print(real_href)
+                    #print(real_href)
                    # 去掉扫一扫
                    try:
                        soup.find('div', id='qr_container').decompose()
@@ -1020,7 +1029,7 @@ def ji_lin():
                                    or '.XLS' in fu_jian_href or '.ZIP' in fu_jian_href or '.RAR' in fu_jian_href:
                                file_name = fu_jian_href.text.strip()
                                category = os.path.splitext(fu_jian_href)[1]
-                                if category not in file_name:
+                                if category not in file_name :
                                    file_name = file_name + category
                                # print(fu_jian_href)
                                retData = baseCore.uptoOBS(fu_jian_href, '1670',pathType,file_name)
@@ -1065,7 +1074,7 @@ def ji_lin():
                                or '.XLS' in fj_href or '.ZIP' in fj_href or '.RAR' in fj_href:
                            # print(fj_href)
                            category = os.path.splitext(fj_href)[1]
-                            if category not in file_name:
+                            if category not in file_name :
                                file_name = file_name + category
                            retData = baseCore.uptoOBS(fj_href, '1670',pathType,file_name)
                            if retData['state']:
@@ -1104,7 +1113,7 @@ def ji_lin():
                    'topicClassification': '',
                    'issuedNumber': '',
                    'publishDate': pub_time,
-                    'writtenDate': '',
+                    'writtenDate': None,
                    'sid': '1697458829758697473',
                    'sourceAddress': real_href,
                    'summary': '',
@@ -1126,7 +1135,7 @@ def ji_lin():
    except:
        pass
    end = time.time()
-    print('共', count, '条', '...........', '共耗时', end - start, '秒')
+    log.info('共', count, '条', '...........', '共耗时', end - start, '秒')

 # 上海
 def shang_hai():
@@ -1219,7 +1228,7 @@ def shang_hai():
                                or '.rar' in fu_jian_href or '.ppt' in fu_jian_href or '.PDF' in fu_jian_href or '.DOC' in fu_jian_href \
                                or '.XLS' in fu_jian_href or '.ZIP' in fu_jian_href or '.RAR' in fu_jian_href:
                            category = os.path.splitext(fu_jian_href)[1]
-                            if category not in file_name:
+                            if category not in file_name :
                                file_name = file_name + category
                            retData = baseCore.uptoOBS(fu_jian_href, '1671',pathType,file_name)
                            if retData['state']:
@@ -1252,7 +1261,7 @@ def shang_hai():
                        'topicClassification': '',
                        'issuedNumber': pub_hao,
                        'publishDate': pub_time,
-                        'writtenDate': '',
+                        'writtenDate': None,
                        'sid': '1697458829758697473',
                        'sourceAddress': href,
                        'summary': '',
@@ -1268,7 +1277,7 @@ def shang_hai():
        except:
            pass
    end = time.time()
-    print('共', count, '条', '...........', '共耗时', end - start, '秒')
+    log.info('共', count, '条', '...........', '共耗时', end - start, '秒')

 # 浙江
 def zhe_jiang():
@@ -1376,7 +1385,7 @@ def zhe_jiang():
                    'topicClassification': '',
                    'issuedNumber': pub_hao,
                    'publishDate': pub_time,
-                    'writtenDate': '',
+                    'writtenDate': None,
                    'sid': '1697458829758697473',
                    'sourceAddress': href,
                    'summary': '',
@@ -1393,7 +1402,7 @@ def zhe_jiang():
    except:
        pass
    end = time.time()
-    print('共', count, '条', '...........', '共耗时', end - start, '秒')
+    log.info('共', count, '条', '...........', '共耗时', end - start, '秒')

 # 福建
 def fu_jian():
@@ -1445,7 +1454,7 @@ def fu_jian():
                        i_soup = BeautifulSoup(i_html, 'html.parser')
                real_href = href
                # real_href = 'http://gzw.fujian.gov.cn/zwgk/zcfg/201806/t20180619_3065065.htm'
-                print(real_href)
+                #print(real_href)
                is_href = db_storage.find_one({'网址': real_href})
                if is_href:
                    num+=1
@@ -1460,7 +1469,7 @@ def fu_jian():
                        content = baseCore.pdf_content(resp_content)
                        contentwithtag = ''
                        category = os.path.splitext(real_href)[1]
-                        if category not in title:
+                        if category not in title :
                            file_name = title + category
                        # 文件上传至服务器
                        retData = baseCore.uptoOBS(real_href, '1673',pathType,file_name)
@@ -1471,7 +1480,7 @@ def fu_jian():
                        att_id, full_path = baseCore.tableUpdate(retData, '福建省国资委', file_name, num,'')
                        id_list.append(att_id)
                        pub_hao = ''
-                        pub_time = ''
+                        pub_time = None
                        pub_source = ''

                    else:
@@ -1508,7 +1517,7 @@ def fu_jian():
                                        or '.rar' in fj_href or '.ppt' in fj_href or '.PDF' in fj_href or '.DOC' in fj_href \
                                        or '.XLS' in fj_href or '.ZIP' in fj_href or '.RAR' in fj_href:
                                    category = os.path.splitext(fj_href)[1]
-                                    if category not in file_name:
+                                    if category not in file_name :
                                        file_name = file_name + category
                                    print(fj_href)
                                    # 找到附件后 上传至文件服务器
@@ -1524,7 +1533,7 @@ def fu_jian():

                        except:
                            pub_source = ''
-                            pub_time = ''
+                            pub_time = None
                            contentwithtag = i_soup.find('tabs tab_base_01 rules_con1')
                            content = contentwithtag.text.strip()
                            if content == '' or content == None:
@@ -1548,7 +1557,7 @@ def fu_jian():
                        'topicClassification': '',
                        'issuedNumber': pub_hao,
                        'publishDate': pub_time,
-                        'writtenDate': '',
+                        'writtenDate': None,
                        'sid': '1697458829758697473',
                        'sourceAddress': real_href,
                        'summary': '',
@@ -1566,7 +1575,7 @@ def fu_jian():
    except:
        pass
    end_time = time.time()
-    print(f'共抓取{count}条数据，共耗时{end_time - start_time}')
+    log.info(f'共抓取{count}条数据，共耗时{end_time - start_time}')

 # 山东
 def shan_dong():
@@ -1633,7 +1642,7 @@ def shan_dong():
                            for h1 in h1_list:
                                title = title + str(h1.text)
                            title.strip().lstrip()
-                        pub_time = ''
+                        pub_time = None
                        span_list = source.find_all('span')
                        i = 0
                        for span in span_list:
@@ -1683,7 +1692,7 @@ def shan_dong():
        except:
            pass
    end = time.time()
-    print('共', count, '条', '...........', '共耗时', end - start, '秒')
+    log.info('共', count, '条', '...........', '共耗时', end - start, '秒')

 # 广东
 def guang_dong():
@@ -1745,7 +1754,7 @@ def guang_dong():
                                or '.rar' in fj_href or '.ppt' in fj_href or '.PDF' in fj_href or '.DOC' in fj_href \
                                or '.xlsx' in fj_href or '.ZIP' in fj_href or '.RAR' in fj_href:
                            category = os.path.splitext(fj_href)[1]
-                            if category not in file_name:
+                            if category not in file_name :
                                file_name = file_name + category
                            # 附件上传至文件服务器
                            retData = baseCore.uptoOBS(fj_href, '1676',pathType,file_name)
@@ -1774,7 +1783,7 @@ def guang_dong():
                        'topicClassification': '',
                        'issuedNumber': '',
                        'publishDate': pub_time,
-                        'writtenDate': '',
+                        'writtenDate': None,
                        'sid': '1697458829758697473',
                        'sourceAddress': href,
                        'summary': '',
@@ -1792,7 +1801,7 @@ def guang_dong():
    except:
        pass
    end = time.time()
-    print('共', count, '条', '...........', '共耗时', end - start, '秒')
+    log.info('共', count, '条', '...........', '共耗时', end - start, '秒')

 # 海南
 def hai_nan():
@@ -1869,7 +1878,7 @@ def hai_nan():
                                        or '.rar' in fu_jian_href or '.ppt' in fu_jian_href or '.PDF' in fu_jian_href or '.DOC' in fu_jian_href \
                                        or '.XLS' in fu_jian_href or '.ZIP' in fu_jian_href or '.RAR' in fu_jian_href:
                                    category = os.path.splitext(fu_jian_href)[1]
-                                    if category not in file_name:
+                                    if category not in file_name :
                                        file_name = file_name + category
                                    # 上传至文件服务器
                                    retData = baseCore.uptoOBS(fu_jian_href, '1677',pathType,file_name)
@@ -1916,7 +1925,7 @@ def hai_nan():
                                                or '.rar' in fu_jian_href or '.ppt' in fu_jian_href or '.PDF' in fu_jian_href or '.DOC' in fu_jian_href \
                                                or '.XLS' in fu_jian_href or '.ZIP' in fu_jian_href or '.RAR' in fu_jian_href:
                                            category = os.path.splitext(fu_jian_href)[1]
-                                            if category not in file_name:
+                                            if category not in file_name :
                                                file_name = file_name + category
                                            # print(f'----附件：{fu_jian_href}-----filename:{file_name}')
                                            # 附件上传至文件服务器
@@ -1995,7 +2004,7 @@ def hai_nan():
            except:
                pass
        end_time = time.time()
-        print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+        log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

    def hai_nan2():
        def hai_nan_sw(page_href):
@@ -2126,7 +2135,7 @@ def hai_nan():
                        pub_source = ''
                        pub_time = str(pub_result.text).split('来源：')[0].lstrip().strip()
                        pub_hao = ''
-                        writtenDate = ''
+                        writtenDate = None,
                        contentWithTag = doc_href.find('div', attrs={'class': 'xxgk_content_content'})
                        content = contentWithTag.text
                        if content == '' or content == None:
@@ -2143,7 +2152,7 @@ def hai_nan():
                                or '.rar' in fu_jian_href or '.ppt' in fu_jian_href or '.PDF' in fu_jian_href or '.DOC' in fu_jian_href \
                                or '.XLS' in fu_jian_href or '.ZIP' in fu_jian_href or '.RAR' in fu_jian_href:
                            category = os.path.splitext(fu_jian_href)[1]
-                            if category not in file_name:
+                            if category not in file_name :
                                file_name = file_name + category
                            # 上传至文件服务器
                            retData = baseCore.uptoOBS(fu_jian_href, '1677',pathType,file_name)
@@ -2241,7 +2250,7 @@ def hai_nan():
                        pub_time = str(pub_result.text).split('来源：')[0].lstrip().strip()
                        pub_hao = ''
                        pub_source = ''
-                        writtenDate = ''
+                        writtenDate = None,
                        contentWithTag = doc_href.find('div', attrs={'class': 'xxgk_content_content'})
                        content = contentWithTag.text
                        if content == '' or content == None:
@@ -2259,7 +2268,7 @@ def hai_nan():
                                    or '.rar' in fu_jian_href or '.ppt' in fu_jian_href or '.PDF' in fu_jian_href or '.DOC' in fu_jian_href \
                                    or '.XLS' in fu_jian_href or '.ZIP' in fu_jian_href or '.RAR' in fu_jian_href:
                                category = os.path.splitext(fu_jian_href)[1]
-                                if category not in file_name:
+                                if category not in file_name :
                                    file_name = file_name + category
                                # 上传至文件服务器
                                retData = baseCore.uptoOBS(fu_jian_href, '1677',pathType,file_name)
@@ -2360,7 +2369,7 @@ def hai_nan():
                                0].strip()
                        except:
                            pub_source = ''
-                            pub_time = ''
+                            pub_time = None
                        pub_hao = ''
                        contentWithTag = doc_href.find(class_='pages_content')
                        content = contentWithTag.text
@@ -2383,7 +2392,7 @@ def hai_nan():
                        'topicClassification': '',
                        'issuedNumber': pub_hao,
                        'publishDate': pub_time,
-                        'writtenDate': '',
+                        'writtenDate': None,
                        'sid': '1697458829758697473',
                        'sourceAddress': i_href,
                        'summary': '',
@@ -2479,7 +2488,7 @@ def hai_nan():
            except:
                pass
            end_time = time.time()
-            print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+            log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

        start()
    hai_nan1()
@@ -2538,7 +2547,7 @@ def si_chuan():
                                or '.rar' in fu_jian_href or '.ppt' in fu_jian_href or '.PDF' in fu_jian_href or '.DOC' in fu_jian_href \
                                or '.XLS' in fu_jian_href or '.ZIP' in fu_jian_href or '.RAR' in fu_jian_href:
                            category = os.path.splitext(fu_jian_href)[1]
-                            if category not in file_name:
+                            if category not in file_name :
                                file_name = file_name + category
                            # 对附件上传至文件服务器
                            retData = baseCore.uptoOBS(fu_jian_href, '1678',pathType,file_name)
@@ -2567,7 +2576,7 @@ def si_chuan():
                        'topicClassification': '',
                        'issuedNumber': '',
                        'publishDate': pub_time,
-                        'writtenDate': '',
+                        'writtenDate': None,
                        'sid': '1697458829758697473',
                        'sourceAddress': href,
                        'summary': '',
@@ -2585,7 +2594,7 @@ def si_chuan():
        except:
            pass
    end_time = time.time()
-    print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+    log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

 # 广西
 def guang_xi():
@@ -2671,7 +2680,7 @@ def guang_xi():
                                    or '.rar' in fu_jian_href or '.ppt' in fu_jian_href or '.PDF' in fu_jian_href or '.DOC' in fu_jian_href \
                                    or '.XLS' in fu_jian_href or '.ZIP' in fu_jian_href or '.RAR' in fu_jian_href:
                                category = os.path.splitext(fu_jian_href)[1]
-                                if category not in file_name:
+                                if category not in file_name :
                                    file_name = file_name + category
                                # 附件上传至文件服务器
                                retData = baseCore.uptoOBS(fu_jian_href, '1692',pathType,file_name)
@@ -2701,7 +2710,7 @@ def guang_xi():
                            'topicClassification': '',
                            'issuedNumber': pub_hao,
                            'publishDate': pub_time,
-                            'writtenDate': '',
+                            'writtenDate': None,
                            'sid': '1697458829758697473',
                            'sourceAddress': href,
                            'summary': '',
@@ -2718,7 +2727,7 @@ def guang_xi():
            except:
                pass
    end_time = time.time()
-    print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+    log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

 # 贵州
 def gui_zhou():
@@ -2788,7 +2797,7 @@ def gui_zhou():
                                or '.rar' in fu_jian_href or '.ppt' in fu_jian_href or '.PDF' in fu_jian_href or '.DOC' in fu_jian_href \
                                or '.XLS' in fu_jian_href or '.ZIP' in fu_jian_href or '.RAR' in fu_jian_href:
                            category = os.path.splitext(fu_jian_href)[1]
-                            if category not in file_name:
+                            if category not in file_name :
                                file_name = file_name + category
                            # 附件上传至文件服务器
                            retData = baseCore.uptoOBS(fu_jian_href, '1694',pathType,file_name)
@@ -2818,7 +2827,7 @@ def gui_zhou():
                        'topicClassification': '',
                        'issuedNumber': pub_hao,
                        'publishDate': pub_time,
-                        'writtenDate': '',
+                        'writtenDate': None,
                        'sid': '1697458829758697473',
                        'sourceAddress': href,
                        'summary': '',
@@ -2836,7 +2845,7 @@ def gui_zhou():
        except:
            pass
    end_time = time.time()
-    print(f'共抓取{num}条数据,共耗时{end_time - start_time}')
+    log.info(f'共抓取{num}条数据,共耗时{end_time - start_time}')

 # 云南
 def yun_nan():
@@ -2870,7 +2879,7 @@ def yun_nan():
                        continue
                    try:
                        fu_jian_href_list = []
-                        print(href)
+                        #print(href)
                        if '.shtml' in href:
                            href_resp = requests.get(url=href, headers=headers, verify=False)
                            href_resp.encoding = href_resp.apparent_encoding
@@ -2901,7 +2910,7 @@ def yun_nan():
                                        or '.XLS' in fu_jian_href or '.ZIP' in fu_jian_href or '.RAR' in fu_jian_href:
                                    try:
                                        category = os.path.splitext(fu_jian_href)[1]
-                                        if category not in file_name:
+                                        if category not in file_name :
                                            file_name = file_name + category
                                        # 附件上传至文件服务器
                                        retData = baseCore.uptoOBS(fu_jian_href, '1679',pathType,file_name)
@@ -2939,8 +2948,8 @@ def yun_nan():
                            'organ': '',
                            'topicClassification': '',
                            'issuedNumber': pub_hao,
-                            'publishDate': '',
-                            'writtenDate': '',
+                            'publishDate': None,
+                            'writtenDate': None,
                            'sid': '1697458829758697473',
                            'sourceAddress': href,
                            'summary': '',
@@ -2959,7 +2968,7 @@ def yun_nan():
            except:
                pass
        end_time = time.time()
-        print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+        log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

    def yun_nan2():
        num = 0
@@ -3022,7 +3031,7 @@ def yun_nan():
                                    # print(fu_jian_href)
                                    try:
                                        category = os.path.splitext(fu_jian_href)[1]
-                                        if category not in file_name:
+                                        if category not in file_name :
                                            file_name = file_name + category
                                        # 附件上传至文件服务器
                                        retData = baseCore.uptoOBS(fu_jian_href, '1679',pathType,file_name)
@@ -3060,7 +3069,7 @@ def yun_nan():
                            'topicClassification': '',
                            'issuedNumber': pub_hao,
                            'publishDate': pub_time,
-                            'writtenDate': '',
+                            'writtenDate': None,
                            'sid': '1697458829758697473',
                            'sourceAddress': href,
                            'summary': '',
@@ -3079,7 +3088,7 @@ def yun_nan():
            except:
                pass
        end_time = time.time()
-        print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+        log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

    yun_nan1()
    yun_nan2()
@@ -3148,8 +3157,8 @@ def chong_qing():
                        except:
                            origin = ''
                            topicClassification = ''
-                            pub_time = ''
-                            writtenDate = ''
+                            pub_time = None
+                            writtenDate = None
                            pub_hao = ''
                            contentWithTag = doc_href.find('div', class_='zwxl-content')
                            content = contentWithTag.text
@@ -3169,7 +3178,7 @@ def chong_qing():
                                    or '.XLS' in fu_jian_href or '.ZIP' in fu_jian_href or '.RAR' in fu_jian_href:
                                try:
                                    category = os.path.splitext(fu_jian_href)[1]
-                                    if category not in file_name:
+                                    if category not in file_name :
                                        file_name = file_name + category
                                    # 附件上传至文件服务器
                                    retData = baseCore.uptoOBS(fu_jian_href, '1693',pathType,file_name)
@@ -3219,7 +3228,7 @@ def chong_qing():
        except:
            pass
    end_time = time.time()
-    print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+    log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

 # 天津
 def tian_jin():
@@ -3282,7 +3291,7 @@ def tian_jin():
                            rmtag2.remove()
                            contentWithTag = doc_href('div[id="zoom"]')
                        if len(writtenDate) < 1:
-                            writtenDate = ''
+                            writtenDate = None
                        if len(publishDate) < 1:
                            publishDate = doc_href('meta[name="PubDate"]').attr('content')
                        soup = paserUrl(str(contentWithTag), href)
@@ -3298,7 +3307,7 @@ def tian_jin():
                                    or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                                file_name = file.text.strip()
                                category = os.path.splitext(file_href)[1]
-                                if category not in file_name:
+                                if category not in file_name :
                                    file_name = file_name + category
                                retData = baseCore.uptoOBS(file_href, '1683',pathType,file_name)
                                if retData['state']:
@@ -3351,7 +3360,7 @@ def tian_jin():
            except:
                pass
        end_time = time.time()
-        print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+        log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

    def tian_jin2():
        """
@@ -3413,7 +3422,7 @@ def tian_jin():
                            rmtag2.remove()
                            contentWithTag = doc_href('div[id="zoom"]')
                        if len(writtenDate) < 1:
-                            writtenDate = ''
+                            writtenDate = None
                        if len(publishDate) < 1:
                            publishDate = doc_href('meta[name="PubDate"]').attr('content')
                        soup = paserUrl(str(contentWithTag), href)
@@ -3429,7 +3438,7 @@ def tian_jin():
                                    or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                                file_name = file.text.strip()
                                category = os.path.splitext(file_href)[1]
-                                if category not in file_name:
+                                if category not in file_name :
                                    file_name = file_name + category
                                retData = baseCore.uptoOBS(file_href, '1683',pathType,file_name)
                                if retData['state']:
@@ -3482,7 +3491,7 @@ def tian_jin():
            except:
                pass
        end_time = time.time()
-        print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+        log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

    def tian_jin3():
        num = 0
@@ -3507,7 +3516,7 @@ def tian_jin():
                    try:
                        publishDate = li.find('div', attrs={'class': 'other'}).text
                    except:
-                        publishDate = ''
+                        publishDate = None
                    if 'http' not in href:
                        if '../../../' in href:
                            href = href.replace('../../../', 'https://sasac.tj.gov.cn/')
@@ -3548,7 +3557,7 @@ def tian_jin():
                            rmtag2.remove()
                            contentWithTag = doc_href('div[id="zoom"]')
                        if len(writtenDate) < 1:
-                            writtenDate = ''
+                            writtenDate = None
                        if len(publishDate) < 1:
                            publishDate = doc_href('meta[name="PubDate"]').attr('content')
                        soup = paserUrl(str(contentWithTag), href)
@@ -3564,7 +3573,7 @@ def tian_jin():
                                    or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                                file_name = file.text.strip()
                                category = os.path.splitext(file_href)[1]
-                                if category not in file_name:
+                                if category not in file_name :
                                    file_name = file_name + category
                                retData = baseCore.uptoOBS(file_href, '1683',pathType,file_name)
                                if retData['state']:
@@ -3617,7 +3626,7 @@ def tian_jin():
            except:
                pass
        end_time = time.time()
-        print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+        log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

    tian_jin1()
    tian_jin2()
@@ -3673,7 +3682,7 @@ def xin_jiang():
                                    or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                                file_name = file.text.strip()
                                category = os.path.splitext(file_href)[1]
-                                if category not in file_name:
+                                if category not in file_name :
                                    file_name = file_name + category
                                retData = baseCore.uptoOBS(file_href, '1682',pathType,file_name)
                                if retData['state']:
@@ -3717,7 +3726,7 @@ def xin_jiang():
                            'topicClassification': "",
                            'issuedNumber': issuedNumber,
                            'publishDate': publishDate,
-                            'writtenDate': "",
+                            'writtenDate': None,
                            'sid': '1697458829758697473',
                            'sourceAddress': href,
                            'summary': '',
@@ -3734,7 +3743,7 @@ def xin_jiang():
            except:
                pass
        end_time = time.time()
-        print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+        log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

    def xin_jiang_jsbt():
        num = 0
@@ -3780,7 +3789,7 @@ def xin_jiang():
                                    or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                                file_name = file.text.strip()
                                category = os.path.splitext(file_href)[1]
-                                if category not in file_name:
+                                if category not in file_name :
                                    file_name = file_name + category
                                retData = baseCore.uptoOBS(file_href, '1682',pathType,file_name)
                                if retData['state']:
@@ -3824,7 +3833,7 @@ def xin_jiang():
                            'topicClassification': "",
                            'issuedNumber': issuedNumber,
                            'publishDate': publishDate,
-                            'writtenDate': "",
+                            'writtenDate': None,
                            'sid': '1697458829758697473',
                            'sourceAddress': href,
                            'summary': '',
@@ -3843,7 +3852,7 @@ def xin_jiang():
            except:
                pass
        end_time = time.time()
-        print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+        log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

    xin_jiang1()
    xin_jiang_jsbt()
@@ -3881,7 +3890,7 @@ def shan_xi():
                try:
                    if ".pdf" in href:
                        content = ''
-                        publishDate = ''
+                        publishDate = None
                        origin = ''
                        fu_jian_soup = [href]
                        contentWithTag = ''
@@ -3908,7 +3917,7 @@ def shan_xi():
                                or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                            file_name = file.text.strip()
                            category = os.path.splitext(file_href)[1]
-                            if category not in file_name:
+                            if category not in file_name :
                                file_name = file_name + category
                            retData = baseCore.uptoOBS(file_href, '1684',pathType,file_name)
                            if retData['state']:
@@ -3952,7 +3961,7 @@ def shan_xi():
                        'topicClassification': "",
                        'issuedNumber': issuedNumber,
                        'publishDate': publishDate,
-                        'writtenDate': "",
+                        'writtenDate': None,
                        'sid': '1697458829758697473',
                        'sourceAddress': href,
                        'summary': '',
@@ -3969,7 +3978,7 @@ def shan_xi():
        except:
            pass
    end_time = time.time()
-    print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+    log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

 # 辽宁
 def liao_ning():
@@ -4028,7 +4037,7 @@ def liao_ning():
                                or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                            file_name = file.text.strip()
                            category = os.path.splitext(file_href)[1]
-                            if category not in file_name:
+                            if category not in file_name :
                                file_name = file_name + category
                            retData = baseCore.uptoOBS(file_href, '1685',pathType,file_name)
                            if retData['state']:
@@ -4071,7 +4080,7 @@ def liao_ning():
                        'topicClassification': "",
                        'issuedNumber': issuedNumber,
                        'publishDate': publishDate,
-                        'writtenDate': "",
+                        'writtenDate': None,
                        'sid': '1697458829758697473',
                        'sourceAddress': href,
                        'summary': '',
@@ -4088,7 +4097,7 @@ def liao_ning():
        except:
            pass
    end_time = time.time()
-    print(f'共抓取{num}条数据,共耗时{end_time - start_time}')
+    log.info(f'共抓取{num}条数据,共耗时{end_time - start_time}')

 # 黑龙江
 def hei_long_jiang():
@@ -4141,7 +4150,7 @@ def hei_long_jiang():
                                    or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                                file_name = file.text.strip()
                                category = os.path.splitext(file_href)[1]
-                                if category not in file_name:
+                                if category not in file_name :
                                    file_name = file_name + category
                                retData = baseCore.uptoOBS(file_href, '1687',pathType,file_name)
                                if retData['state']:
@@ -4174,7 +4183,7 @@ def hei_long_jiang():
                            'topicClassification': '',
                            'issuedNumber': pub_hao,
                            'publishDate': publishDate,
-                            'writtenDate': '',
+                            'writtenDate': None,
                            'sid': '1697458829758697473',
                            'sourceAddress': href,
                            'summary': '',
@@ -4193,7 +4202,7 @@ def hei_long_jiang():
        except:
            pass
    end_time = time.time()
-    print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+    log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

 # 江苏
 def jiang_su():
@@ -4257,7 +4266,7 @@ def jiang_su():
                                or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                            file_name = file.text.strip()
                            category = os.path.splitext(file_href)[1]
-                            if category not in file_name:
+                            if category not in file_name :
                                file_name = file_name + category
                            retData = baseCore.uptoOBS(file_href, '1687',pathType,file_name)
                            if retData['state']:
@@ -4314,7 +4323,7 @@ def jiang_su():
        except:
            pass
    end_time = time.time()
-    print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+    log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

 # 安徽
 def an_hui():
@@ -4368,7 +4377,7 @@ def an_hui():
                                    or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                                file_name = file.text.strip()
                                category = os.path.splitext(file_href)[1]
-                                if category not in file_name:
+                                if category not in file_name :
                                    file_name = file_name + category
                                retData = baseCore.uptoOBS(file_href, '1688',pathType,file_name)
                                if retData['state']:
@@ -4418,7 +4427,7 @@ def an_hui():
            except:
                pass
        end_time = time.time()
-        print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+        log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

    def an_hui2():
        num = 0
@@ -4472,7 +4481,7 @@ def an_hui():
                                    or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                                file_name = file.text.strip()
                                category = os.path.splitext(file_href)[1]
-                                if category not in file_name:
+                                if category not in file_name :
                                    file_name = file_name + category
                                retData = baseCore.uptoOBS(file_href, '1688',pathType,file_name)
                                if retData['state']:
@@ -4524,7 +4533,7 @@ def an_hui():
            except:
                pass
        end_time = time.time()
-        print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+        log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

    an_hui1()
    an_hui2()
@@ -4607,7 +4616,7 @@ def jiang_xi():
                                or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                            file_name = file.text.strip()
                            category = os.path.splitext(file_href)[1]
-                            if category not in file_name:
+                            if category not in file_name :
                                file_name = file_name + category
                            retData = baseCore.uptoOBS(file_href, '1689',pathType,file_name)
                            if retData['state']:
@@ -4647,7 +4656,7 @@ def jiang_xi():
                        'organ': organ,
                        'topicClassification': topicClassification,
                        'issuedNumber': pub_hao,
-                        'publishDate': '',
+                        'publishDate': None,
                        'writtenDate': writtenDate,
                        'sid': '1697458829758697473',
                        'sourceAddress': href,
@@ -4665,7 +4674,7 @@ def jiang_xi():
        except:
            pass
    end_time = time.time()
-    print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+    log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

 # 河南
 def he_nan():
@@ -4711,7 +4720,7 @@ def he_nan():
                            or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                        file_name = file.text.strip()
                        category = os.path.splitext(file_href)[1]
-                        if category not in file_name:
+                        if category not in file_name :
                            file_name = file_name + category
                        retData = baseCore.uptoOBS(file_href, '1690',pathType,file_name)
                        if retData['state']:
@@ -4750,7 +4759,7 @@ def he_nan():
                    'topicClassification': '',
                    'issuedNumber': issuedNumber,
                    'publishDate': publishDate,
-                    'writtenDate': '',
+                    'writtenDate': None,
                    'sid': '1697458829758697473',
                    'sourceAddress': href,
                    'summary': '',
@@ -4767,7 +4776,7 @@ def he_nan():
        except:
            pass
    end_time = time.time()
-    print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+    log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

 # 湖南
 def hu_nan():
@@ -4828,7 +4837,7 @@ def hu_nan():
                                or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                            file_name = file.text.strip()
                            category = os.path.splitext(file_href)[1]
-                            if category not in file_name:
+                            if category not in file_name :
                                file_name = file_name + category
                            retData = baseCore.uptoOBS(file_href, '1691',pathType,file_name)
                            if retData['state']:
@@ -4878,7 +4887,7 @@ def hu_nan():
        except:
            pass
    end_time = time.time()
-    print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+    log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

 # 甘肃
 def gan_su():
@@ -4963,7 +4972,7 @@ def gan_su():
                                or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                            file_name = file.text.strip()
                            category = os.path.splitext(file_href)[1]
-                            if category not in file_name:
+                            if category not in file_name :
                                file_name = file_name + category
                            retData = baseCore.uptoOBS(file_href, '1696',file_name)
                            if retData['state']:
@@ -5015,7 +5024,7 @@ def gan_su():
                pass
        bro.quit()
        end_time = time.time()
-        print(f'共抓取{num}条数据,共耗时{end_time - start_time}')
+        log.info(f'共抓取{num}条数据,共耗时{end_time - start_time}')

    def gan_su2():
        num = 0
@@ -5097,7 +5106,7 @@ def gan_su():
                        origin = doc('div[class="links_tab"]>table>tbody>tr:nth-child(2)>td:nth-child(2)').text()
                        pub_hao = doc('div[class="links_tab"]>table>tbody>tr:nth-child(5)>td:nth-child(2)').text()
                        contentWithTag = doc('div[id="content"]')
-                        print(title)
+                        #print(title)

                    soup = paserUrl(str(contentWithTag), href)
                    try:
@@ -5119,7 +5128,7 @@ def gan_su():
                                or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                            file_name = file.text.strip()
                            category = os.path.splitext(file_href)[1]
-                            if category not in file_name:
+                            if category not in file_name :
                                file_name = file_name + category
                            log.info(f'{file_name}---{href}--')
                            retData = baseCore.uptoOBS(file_href, '1696',file_name)
@@ -5176,7 +5185,7 @@ def gan_su():
            pass
        bro.quit()
        end_time = time.time()
-        print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+        log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

    def gan_su3():
        num = 0
@@ -5260,13 +5269,13 @@ def gan_su():
                        origin = doc('div[class="links_tab"]>table>tbody>tr:nth-child(2)>td:nth-child(2)').text()
                        pub_hao = doc('div[class="links_tab"]>table>tbody>tr:nth-child(5)>td:nth-child(2)').text()
                        contentWithTag = doc('div[id="content"]')
-                        print(title)
+                        #print(title)
                    if len(title) == 0 or contentWithTag.text() == '':
                        title = doc('div[class="main"]>h1').text().lstrip().strip()
                        writtenDate = doc('div[class="main"]>div[class="clearbox"]>p:nth-child(1)').text().split('日期：')[0].split(' ')[0].lstrip().strip()
                        origin = doc('div[class="main"]>div[class="clearbox"]>p:nth-child(1)').text().split('来源：')[0].lstrip().strip()
                        contentWithTag = doc('div[class="detailContent"]')
-                        print(title)
+                        #print(title)

                    soup = paserUrl(str(contentWithTag), href)
                    try:
@@ -5288,7 +5297,7 @@ def gan_su():
                                or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                            file_name = file.text.strip()
                            category = os.path.splitext(file_href)[1]
-                            if category not in file_name:
+                            if category not in file_name :
                                file_name = file_name + category
                            retData = baseCore.uptoOBS(file_href, '1696',file_name)
                            if retData['state']:
@@ -5304,7 +5313,7 @@ def gan_su():
                    content = soup.text
                    if content == '' or content == None:
                        log.info(f'-----{href}----{title}----内容为空-----')
-                        print(bro.page_source)
+                        #print(bro.page_source)
                        continue
                    if len(content) < 2:
                        continue
@@ -5345,7 +5354,7 @@ def gan_su():
            pass
        bro.quit()
        end_time = time.time()
-        print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+        log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

    gan_su1()
    gan_su2()
@@ -5401,7 +5410,7 @@ def ning_xia():
                                or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                            file_name = file.text.strip()
                            category = os.path.splitext(file_href)[1]
-                            if category not in file_name:
+                            if category not in file_name :
                                file_name = file_name + category
                            retData = baseCore.uptoOBS(file_href, '1697',pathType,file_name)
                            if retData['state']:
@@ -5453,7 +5462,7 @@ def ning_xia():
        except:
            pass
    end_time = time.time()
-    print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+    log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

 # 陕西
 def shanxi():
@@ -5511,7 +5520,7 @@ def shanxi():
                            or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                        file_name = file.text.strip()
                        category = os.path.splitext(file_href)[1]
-                        if category not in file_name:
+                        if category not in file_name :
                            file_name = file_name + category
                        retData = baseCore.uptoOBS(file_href, '1680',pathType,file_name)
                        if retData['state']:
@@ -5544,7 +5553,7 @@ def shanxi():
                    'topicClassification': "",
                    'issuedNumber': "",
                    'publishDate': publishDate,
-                    'writtenDate': "",
+                    'writtenDate': None,
                    'sid': '1697458829758697473',
                    'sourceAddress': href,
                    'summary': '',
@@ -5563,7 +5572,7 @@ def shanxi():
    except:
        pass
    end_time = time.time()
-    print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+    log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

 # 西藏
 def xi_zang():
@@ -5617,7 +5626,7 @@ def xi_zang():
                                or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                            file_name = file.text.strip()
                            category = os.path.splitext(file_href)[1]
-                            if category not in file_name:
+                            if category not in file_name :
                                file_name = file_name + category
                            retData = baseCore.uptoOBS(file_href, '1695',pathType,file_name)
                            if retData['state']:
@@ -5647,7 +5656,7 @@ def xi_zang():
                        'topicClassification': "",
                        'issuedNumber': "",
                        'publishDate': publishDate,
-                        'writtenDate': "",
+                        'writtenDate': None,
                        'sid': '1697458829758697473',
                        'sourceAddress': href,
                        'summary': '',
@@ -5664,7 +5673,7 @@ def xi_zang():
        except:
            pass
    end_time = time.time()
-    print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+    log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

 # 青海
 def qing_hai():
@@ -5722,7 +5731,7 @@ def qing_hai():
                                    or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                                file_name = file.text.strip()
                                category = os.path.splitext(file_href)[1]
-                                if category not in file_name:
+                                if category not in file_name :
                                    file_name = file_name + category
                                retData = baseCore.uptoOBS(file_href, '1681',pathType,file_name)
                                if retData['state']:
@@ -5771,7 +5780,7 @@ def qing_hai():
        except:
            pass
        end_time = time.time()
-        print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+        log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

    def qing_hai2():
        num = 0
@@ -5849,7 +5858,7 @@ def qing_hai():
                                            or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                                        file_name = file.text.strip()
                                        category = os.path.splitext(file_href)[1]
-                                        if category not in file_name:
+                                        if category not in file_name :
                                            file_name = file_name + category
                                        retData = baseCore.uptoOBS(file_href, '1681',pathType,file_name)
                                        if retData['state']:
@@ -5899,7 +5908,7 @@ def qing_hai():
            except:
                pass
        end_time = time.time()
-        print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+        log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

    qing_hai1()
    qing_hai2()
@@ -5943,7 +5952,7 @@ def he_bei():
                        or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                    file_name = file.text.strip()
                    category = os.path.splitext(file_href)[1]
-                    if category not in file_name:
+                    if category not in file_name :
                        file_name = file_name + category
                    retData = baseCore.uptoOBS(file_href, '1668',pathType,file_name)
                    if retData['state']:
@@ -5987,7 +5996,7 @@ def he_bei():
                'topicClassification': "",
                'issuedNumber': issuedNumber,
                'publishDate': publishDate,
-                'writtenDate': "",
+                'writtenDate': None,
                'sid': '1697458829758697473',
                'sourceAddress': href,
                'summary': '',
@@ -6002,7 +6011,7 @@ def he_bei():
    except:
        pass
    end_time = time.time()
-    print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+    log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

 # 湖北
 def hu_bei():
@@ -6068,7 +6077,7 @@ def hu_bei():
                        or '.XLS' in file_href or '.ZIP' in file_href or '.RAR' in file_href:
                    file_name = file.text.strip()
                    category = os.path.splitext(file_href)[1]
-                    if category not in file_name:
+                    if category not in file_name :
                        file_name = file_name + category
                    retData = baseCore.uptoOBS(file_href, '1675',pathType,file_name)
                    if retData['state']:
@@ -6120,44 +6129,45 @@ def hu_bei():
            pass
    driver.close()
    end_time = time.time()
-    print(f'共抓取{count}条数据,共耗时{end_time - start_time}')
+    log.info(f'共抓取{count}条数据,共耗时{end_time - start_time}')

 if __name__ == '__main__':
-    # get_content1()
-    # get_content2()
-    # get_content3()
-    # bei_jing()
-    # nei_meng_gu()
-    # ji_lin()
-    # shang_hai()
-    # zhe_jiang()
-    # fu_jian()
-    # shan_dong()
-    # guang_dong()
-    # hai_nan()
-    # si_chuan()
-    # guang_xi()
-    # gui_zhou()
-    # yun_nan()
-    # chong_qing()
-    # tian_jin()
-    # xin_jiang()
-    # shan_xi()
-    # liao_ning()
-    # hei_long_jiang()
-    # jiang_su()
-    # an_hui()
-    # jiang_xi()
-    # he_nan()
-    # hu_nan()
+    get_content1()
+    get_content2()
+    get_content3()
+    bei_jing()
+    nei_meng_gu()
+    ji_lin()
+    shang_hai()
+    zhe_jiang()
+    fu_jian()
+    shan_dong()
+    guang_dong()
+    hai_nan()
+    si_chuan()
+    guang_xi()
+    gui_zhou()
+    yun_nan()
+    chong_qing()
+    tian_jin()
+    xin_jiang()
+    shan_xi()
+    liao_ning()
+    hei_long_jiang()
+    jiang_su()
+    an_hui()
+    jiang_xi()
+    he_nan()
+    hu_nan()
    gan_su()
-    # ning_xia()
-    # xi_zang()
-    # shanxi()
-    # qing_hai()
-    # he_bei()
-    # qing_hai()
-    # current_time = datetime.datetime.now()
-    # midnight_time = current_time.replace(hour=0, minute=0, second=0, microsecond=0) + datetime.timedelta(days=1)
-    # sleep_seconds = (midnight_time - current_time).total_seconds()
-    # time.sleep(sleep_seconds)
+    ning_xia()
+    xi_zang()
+    shanxi()
+    qing_hai()
+    he_bei()
+    qing_hai()
+    current_time = datetime.datetime.now()
+    midnight_time = current_time.replace(hour=0, minute=0, second=0, microsecond=0) + datetime.timedelta(days=1)
+    sleep_seconds = (midnight_time - current_time).total_seconds()
+    time.sleep(sleep_seconds)
+
--- a/comData/policylaw/tingtype.py
+++ b/comData/policylaw/tingtype.py
-import datetime
 import json
 import random
 import time
 from urllib.parse import urljoin
-
+import datetime
 import pymongo
 from kafka import KafkaProducer
 from tqdm import tqdm
@@ -12,15 +11,31 @@ import pymysql
 import requests
 from bs4 import BeautifulSoup
 import urllib3
-from base.BaseCore import BaseCore
+from lxml import etree
+from BaseCore import BaseCore
+
 baseCore = BaseCore()
 log = baseCore.getLogger()
 urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
 cnx = baseCore.cnx
 cursor = baseCore.cursor
-db_storage = pymongo.MongoClient('mongodb://114.115.221.202:27017', username='admin', password='zzsn@9988').caiji['国务院_国资委_copy1']
+db_storage = pymongo.MongoClient('mongodb://114.115.221.202:27017', username='admin', password='zzsn@9988').caiji[
+    '国务院_国资委_copy1']
+headers = {
+    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
+    'Accept-Encoding': 'gzip, deflate',
+    'Accept-Language': 'zh-CN,zh;q=0.9',
+    'Cache-Control': 'no-cache',
+    'Connection': 'keep-alive',
+    'Cookie': 'Hm_lvt_fa835457efbc11dfb88752e70521d23b=1690184499; Hm_lpvt_fa835457efbc11dfb88752e70521d23b=1690184499; SF_cookie_1=98184645; Hm_lvt_2b5618a441c142a90e1a75f4b226c252=1690189470; Hm_lpvt_2b5618a441c142a90e1a75f4b226c252=1690189470; zh_choose=n; wdcid=30ffdae06d11dbde; wdlast=1690189470; wdses=13ee59561f2fb725',
+    'Host': 'www.sasac.gov.cn',
+    'Pragma': 'no-cache',
+    'Referer': 'https://www.baidu.com/link?url=CcQEFfXAeQsxu1IlLlxj8WHugAcJ7sBjOBqvZYDfN7WE6OZpSUM4prK6DiADOqTP&wd=&eqid=d507a037000987780000000364be37d4',
+    'Upgrade-Insecure-Requests': '1',
+    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
+}

-def paserUrl(html,listurl):
+def paserUrl(html, listurl):
    # soup = BeautifulSoup(html, 'html.parser')
    # 获取所有的<a>标签和<img>标签
    links = html.find_all(['a', 'img'])
@@ -36,18 +51,19 @@ def paserUrl(html,listurl):
 def save_data(dic_news):
    aaa_dic = {

-        '附件id':dic_news['attachmentIds'],
-        '网址':dic_news['sourceAddress'],
-        'tid':dic_news['labels'][0]['relationId'],
-        '来源':dic_news['labels'][0]['relationName'],
-        '创建时间':dic_news['createDate'],
+        '附件id': dic_news['attachmentIds'],
+        '网址': dic_news['sourceAddress'],
+        'tid': dic_news['labels'][0]['relationId'],
+        '来源': dic_news['labels'][0]['relationName'],
+        '创建时间': dic_news['createDate'],
        '带标签内容': dic_news['contentWithTag'][:100]
    }
    db_storage.insert_one(aaa_dic)

+
 def sendKafka(dic_news):
    start_time = time.time()
-    try:#114.116.116.241
+    try:  # 114.116.116.241
        producer = KafkaProducer(bootstrap_servers=['114.115.159.144:9092'])
        kafka_result = producer.send("policy",
                                     json.dumps(dic_news, ensure_ascii=False).encode('utf8'))
@@ -78,215 +94,233 @@ def sendKafka(dic_news):
        state = 0
        takeTime = baseCore.getTimeCost(start_time, time.time())

-def work(href_type,ting_type,relationId):
-    ip = baseCore.get_proxy()
-    log.info(f'\n================厅局类别==={ting_type}========================')
-    if 'http' in href_type:
-        url_type = href_type
-    else:
-        url_type = 'http://www.sasac.gov.cn/' + href_type.replace('../', '')
-    # print(url_type)
-    i_res = requests.get(url=url_type, headers=headers, proxies=ip)
-    i_soup = BeautifulSoup(i_res.content, 'html.parser')
-    time.sleep(2)
-    news_list = i_soup.find('div', class_='tjywBottom').find_all('li')
-    # 文章列表
-    # print('================新闻列表==================')
-    for news in tqdm(news_list):
-        try:
-            news_href = news.find('a')['href']
-        except:
-            continue
-        if 'http' in news_href:
-            news_url = news_href
-        else:
-            news_url = 'http://www.sasac.gov.cn/' + news_href.replace('../', '')
-        # 判断是否已经爬取过
-        is_href = db_storage.find_one({'网址': news_url})
-        if is_href:
-            log.info('已采集----------跳过')
-            continue
-        news_title = news.find('a').text.split('[')[0]
-        log.info(f'\n----正在采集: {news_title}-------')
-        pub_time = news.find('span').text.replace('[', '').replace(']', '')
-        # 文章信息
-        header = {
-            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
-            'Accept-Encoding': 'gzip, deflate',
-            'Accept-Language': 'zh-CN,zh;q=0.9',
-            'Cache-Control': 'no-cache',
-            'Cookie': 'wdcid=30ffdae06d11dbde; __jsluid_h=e623973ba12a5f48b086f8c5cee6fffa; SF_cookie_1=67313298; Hm_lvt_fa835457efbc11dfb88752e70521d23b=1693808034; zh_choose=n; Hm_lvt_2b5618a441c142a90e1a75f4b226c252=1694078708; wdses=381c6ab86ce01570; wdlast=1694163647; Hm_lpvt_fa835457efbc11dfb88752e70521d23b=1694163647; Hm_lpvt_2b5618a441c142a90e1a75f4b226c252=1694165617',
-            'Host': 'www.sasac.gov.cn',
-            'Pragma': 'no-cache',
-            'Proxy-Connection': 'keep-alive',
-            'Referer': 'http://www.sasac.gov.cn/n2588020/n2588072/n2590818/n2590820/c28651762/content.html',
-            'Upgrade-Insecure-Requests': '1',
-            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36'
-        }
-        # news_url = 'http://www.sasac.gov.cn/n2588020/n2588072/n2590818/n2590820/c28102228/content.html'
-        ii_res = requests.get(url=news_url, headers=header, proxies=ip)
-        ii_soup = BeautifulSoup(ii_res.content, 'html.parser')
-        # todo:相对路径转化为绝对路径
-        ii_soup = paserUrl(ii_soup, news_url)
-        # 去掉扫一扫
-        try:
-            ii_soup.find('div', id='qr_container').decompose()
-        except:
-            pass
-        # 去掉style标签
-        for styleTag in ii_soup.find_all('style'):
-            styleTag.extract()
-
-        time.sleep(2)
-        try:
-            news_info = ii_soup.find('div', class_='zsy_cotitle')
-        except Exception as e:
-            log.error(e)
-            news_info = ''
-        if news_info:
+# 国资委_内设机构
+def gzw_nsjg():
+    # 获取页面数据
+    def get_page_nsjg(href, ting_type, relationId, page):
+        start_time = time.time()
+        num = 0
+        for pageNo in range(1, page + 1):
+            if pageNo != 1:
+                href = href.replace(f'_{pageNo - 1}.html', f'_{pageNo}.html')
+            if pageNo == page:
+                tag = href.split('/')[-1]
+                href = href.replace(tag, 'index.html')
            try:
-                # origin
-                pub_source = news_info.find('p').text.split('文章来源：')[1].split('发布时间')[0].strip()
+                req = requests.get(url=href, headers=headers, verify=False)
+                req_text = req.text.encode("ISO-8859-1")
+                req_text = req_text.decode("utf-8")
+                soup = BeautifulSoup(req_text, 'html.parser')
+                soup = paserUrl(soup, href)
+                li_list = soup.find('ul', attrs={'class': 'ld-tjywList'}).find_all('li')
            except:
-                pub_source = ''
-            try:
-                contentWithTag = ii_soup.find('div', 'zsy_comain')
-                content = contentWithTag.text.strip()
-
-            except:
-                content = ''
-                contentWithTag = ''
-            if len(content) > 100:
-                pass
-            else:
-                continue
-            time_now = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
-
-            dic_news = {
-                'attachmentIds': [],
-                'author': '',
-                'content': content,
-                'contentWithTag': str(contentWithTag),
-                'createDate': time_now,
-                'deleteFlag': 0,
-                'id': '',
-                'labels': [{'relationId': relationId, 'relationName': ting_type, 'labelMark': "policy"}],
-                'origin': pub_source,
-                'organ': '',
-                'topicClassification': '',
-                'issuedNumber': '',
-                'publishDate': pub_time,
-                'writtenDate': '',
-                'sid': '1697458829758697473',
-                'sourceAddress': news_url,
-                'summary': '',
-                'title': news_title
-            }
-            sendKafka(dic_news)
-            save_data(dic_news)
-            log.info(f'{ting_type}-----{news_title}----发送成功', )
-        else:
-            dic_error = {
-                '标题': news_title,
-                '原文链接': news_url,
-                '厅局类别': ting_type
-            }
-            log.error(dic_error)
+                req = requests.get(url=href, headers=headers, verify=False)
+                req_text = req.text.encode("ISO-8859-1")
+                req_text = req_text.decode("utf-8")
+                soup = BeautifulSoup(req_text, 'html.parser')
+                soup = paserUrl(soup, href)
+                li_list = soup.find_all('li')
+            for li in li_list:
+                try:
+                    real_href = li.find('a').get('href')
+                except:
+                    continue
+                is_href = db_storage.find_one({'网址': real_href})
+                if is_href:
+                    log.info('已采集----------跳过')
+                    continue
+                try:
+                    try:
+                        try:
+                            req_ = requests.get(url=real_href, headers=headers, verify=False)
+                            req_.encoding = req_.apparent_encoding
+                            soup_ = BeautifulSoup(req_.text, 'html.parser')
+                            div_content = soup_.find('div', attrs={'class': 'zsy_content'})
+                            pub_result = div_content.find('div', attrs={'class': 'zsy_cotitle'})
+                            try:
+                                title = str(pub_result.text).split('文章来源：')[0].replace('\n', '').replace('\r',
+                                                                                                         '').lstrip().strip()
+                                publishDate = str(pub_result.text).split('发布时间：')[1].strip().lstrip()
+                                pub_source = str(pub_result.text).split('文章来源：')[1].split('发布时间：')[0].lstrip().strip()
+                            except:
+                                title = str(pub_result.text).split('发布时间：')[0].replace('\n', '').replace('\r',
+                                                                                                         '').lstrip().strip()
+                                publishDate = str(pub_result.text).split('发布时间：')[1].strip().lstrip()
+                        except:
+                            req_ = requests.get(url=real_href, headers=headers, verify=False)
+                            req_.encoding = req_.apparent_encoding
+                            soup_ = BeautifulSoup(req_.text, 'html.parser')
+                            pub_result = soup_.find('div', attrs={'class': 'zsy_cotitle'})
+                            real_href = str(pub_result.text).split('location.href="')[1].split('";')[0].lstrip().strip()
+                            req_.close()
+                            req_ = requests.get(url=real_href, headers=headers, verify=False)
+                            req_.encoding = req_.apparent_encoding
+                            soup_ = BeautifulSoup(req_.text, 'html.parser')
+                            div_content = soup_.find('div', attrs={'class': 'zsy_content'})
+                            pub_result = div_content.find('div', attrs={'class': 'zsy_cotitle'})
+                            try:
+                                title = str(pub_result.text).split('文章来源：')[0].replace('\n', '').replace('\r',
+                                                                                                         '').lstrip().strip()
+                                publishDate = str(pub_result.text).split('发布时间：')[1].strip().lstrip()
+                                pub_source = str(pub_result.text).split('文章来源：')[1].split('发布时间：')[0].lstrip().strip()
+                            except:
+                                title = str(pub_result.text).split('发布时间：')[0].replace('\n', '').replace('\r',
+                                                                                                         '').lstrip().strip()
+                                publishDate = str(pub_result.text).split('发布时间：')[1].strip().lstrip()
+                        req_.close()
+                    except:
+                        req_ = requests.get(url=real_href, headers=headers, verify=False)
+                        req_.encoding = req_.apparent_encoding
+                        soup_ = BeautifulSoup(req_.text, 'html.parser')
+                        yaoqiu_list = soup_.find('div', attrs={'class': 'yaoqiu_list'})
+                        li_list_ = yaoqiu_list.find_all('li')
+                        for li_ in li_list_:
+                            href_ = li_.find('a').get('href')
+                            real_href = href_.replace('../../../', 'http://www.sasac.gov.cn/')
+                            req_ = requests.get(url=real_href, headers=headers, verify=False)
+                            req_.encoding = req_.apparent_encoding
+                            soup_ = BeautifulSoup(req_.text, 'html.parser')
+                            div_content = soup_.find('div', attrs={'class': 'zsy_content'})
+                            pub_result = div_content.find('div', attrs={'class': 'zsy_cotitle'})
+                            try:
+                                title = str(pub_result.text).split('文章来源：')[0].replace('\n', '').replace('\r',
+                                                                                                         '').lstrip().strip()
+                                publishDate = str(pub_result.text).split('发布时间：')[1].strip().lstrip()
+                                pub_source = str(pub_result.text).split('文章来源：')[1].split('发布时间：')[0].lstrip().strip()
+                            except:
+                                title = str(pub_result.text).split('发布时间：')[0].replace('\n', '').replace('\r',
+                                                                                                         '').lstrip().strip()
+                                publishDate = str(pub_result.text).split('发布时间：')[1].strip().lstrip()
+                                pub_source = ''
+                    if 'location.href' in title:
+                        continue
+                    if '404 Ba' in str(div_content):
+                        continue
+                    contentWithTag = div_content.find('div',class_='zsy_comain')
+                    try:
+                        contentWithTag.find('div', id='qr_container').decompose()
+                    except:
+                        pass
+                    # 去掉style标签
+                    for styleTag in contentWithTag.find_all('style'):
+                        styleTag.extract()
+                    content = contentWithTag.text
+                    if content == '':
+                        log.error(f'{real_href}===获取正文失败')
+                        continue
+                    time_now = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
+                    dic_news = {
+                        'attachmentIds': [],
+                        'author': '',
+                        'content': content,
+                        'contentWithTag': str(contentWithTag),
+                        'createDate': time_now,
+                        'deleteFlag': 0,
+                        'id': '',
+                        'labels': [{'relationId': relationId, 'relationName': ting_type, 'labelMark': "policy"}],
+                        'origin': pub_source,
+                        'organ': '',
+                        'topicClassification': '',
+                        'issuedNumber': '',
+                        'publishDate': publishDate,
+                        'writtenDate': None,
+                        'sid': '1697458829758697473',
+                        'sourceAddress': real_href,
+                        'summary': '',
+                        'title': title
+                    }
+                    #print(content)
+                    #print(contentWithTag)
+                    sendKafka(dic_news)
+                    save_data(dic_news)
+                    log.info(f'{ting_type}-----{title}----发送成功', )
+                    num += 1
+                except Exception as e:
+                    pass
+            req.close()
+        end_time = time.time()
+        print(f'抓取{num}条数据，共耗时{end_time - start_time}')

+    # 获取页面列表
+    def get_page_nsjg_list(href, institution, tid):
+        href_list = {
+            '办公厅（党委办公厅）': ['http://www.sasac.gov.cn/n2588020/n2588072/n2590818/n2590820/index_2642999_1.html', 9],
+            '综合研究局': ['http://www.sasac.gov.cn/n2588020/n2588072/n2591482/n2591484/index_2656923_1.html', 5],
+            '政策法规局': ['http://www.sasac.gov.cn/n2588020/n2588072/n2590860/n2590862/index_2644230_1.html', 21],
+            '规划发展局': ['http://www.sasac.gov.cn/n2588020/n2588072/n2590902/n2590904/index_2646556_1.html', 9],
+            '财务监管与运行评价局': ['http://www.sasac.gov.cn/n2588020/n2588072/n2590944/n2590946/index_2647546_1.html', 9],
+            '产权管理局': ['http://www.sasac.gov.cn/n2588020/n2588072/n2591020/n2591022/index_2648251_1.html', 7],
+            '企业改革局': ['http://www.sasac.gov.cn/n2588020/n2588072/n2591064/n2591066/index_2648748_1.html', 15],
+            '考核分配局': ['http://www.sasac.gov.cn/n2588020/n2588072/n2591106/n2591108/index_2649149_1.html', 6],
+            '资本运营与收益管理局': ['http://www.sasac.gov.cn/n2588020/n2588072/n2591192/n2591194/index_2649585_1.html', 3],
+            '科技创新局': ['http://www.sasac.gov.cn/n2588020/n2588072/n2591148/n2591150/index_2650085_1.html', 14],
+            '社会责任局': ['http://www.sasac.gov.cn/n2588020/n2588072/n23746822/n23746853/index_23747054_.html', 10],
+            '综合监督局': ['http://www.sasac.gov.cn/n2588020/n2588072/n2591284/n2591286/index.html', 1],
+            '监督追责局': ['http://www.sasac.gov.cn/n2588020/n2588072/n2591266/n2591268/index_2654822_1.html', 2],
+            '企业领导人员管理一局（董事会工作局）': [
+                'http://www.sasac.gov.cn/n2588020/n2588072/n2591302/n2591304/index_2657539_1.html', 4],
+            '企业领导人员管理二局': ['http://www.sasac.gov.cn/n2588020/n2588072/n2591344/n2591346/index_2657636_1.html', 4],
+            '党建工作局（党委组织部、党委统战部）': [
+                'http://www.sasac.gov.cn/n2588020/n2588072/n2591386/n2591388/index_2656630_1.html', 14],
+            '宣传工作局（党委宣传部）': ['http://www.sasac.gov.cn/n2588020/n2588072/n2591426/n2591428/index_2656835_1.html',
+                             21],
+            '国际合作局': ['http://www.sasac.gov.cn/n2588020/n2588072/n2591548/n2591550/index_2657011_1.html', 28],
+            '人事局': ['http://www.sasac.gov.cn/n2588020/n2588072/n2591586/n2591588/index_2656275_1.html', 7],
+            '行业协会商会党建工作局（行业协会商会工作局）': [
+                'http://www.sasac.gov.cn/n2588020/n2588072/n2591626/n2591628/index_2656076_1.html', 4],
+            '机关服务管理局（离退休干部管理局）': [
+                'http://www.sasac.gov.cn/n2588020/n2588072/n2591644/n2591646/index_2655780_1.html', 9],
+            '机关党委': ['http://www.sasac.gov.cn/n2588020/n2588072/n2591684/n2591686/index_2655222_1.html', 33],
+            '党委巡视工作办公室、国资委巡视组': [
+                'http://www.sasac.gov.cn/n2588020/n2588072/n2591770/n2591772/index_2655029_1.html', 8],
+            '中央纪委国家监委驻国资委纪检监察组': ['http://www.sasac.gov.cn/n2588020/n2877928/n2878219/index_2879099_1.html', 18]}
+        href_ = href_list[institution][0]
+        page = href_list[institution][1]
+        get_page_nsjg(href_, institution, tid, page)

-#中央纪委国家监委驻国资委纪检监察组
-def job1(a_type):
-    href = a_type['href']
-    ting_type = a_type.text
-    return href,ting_type
+    # 开始
+    def gzw_nsjg_start():
+        url = 'http://www.sasac.gov.cn/n2588020/index.html'
+        req = requests.get(url=url, headers=headers, verify=False)
+        req_text = req.text.encode("ISO-8859-1")
+        req_text = req_text.decode("utf-8")
+        all_institution = []
+        tree = etree.HTML(req_text)
+        institution = tree.xpath('/html/body/div[4]/div[2]/div/dl[1]/dt/a/text()')[0].replace('\n', '').replace('\r',
+                                                                                                                '')
+        institution_href = tree.xpath('/html/body/div[4]/div[2]/div/dl[1]/dt/a/@href')[0].replace('../',
+                                                                                                  'http://www.sasac.gov.cn/')
+        all_institution.append([institution, institution_href])
+        dd_list = tree.xpath('/html/body/div[4]/div[2]/div/dl[2]/dd')
+        for dd in dd_list:
+            institution = dd.xpath('./a/text()')[0].replace('\n', '').replace('\r', '')
+            institution_href = dd.xpath('./a/@href')[0].replace('../', 'http://www.sasac.gov.cn/')
+            all_institution.append([institution, institution_href])

-def job():
-    url = 'http://www.sasac.gov.cn/n2588020/index.html'
-    ip = baseCore.get_proxy()
-    res = requests.get(url=url, headers=headers, proxies=ip)
-    soup = BeautifulSoup(res.content, 'html.parser')
-    time.sleep(2)
-    # 厅局列表
-    list_type = soup.find('div', class_='l-jgkk-right column').find_all('dd')[:22]
-    a_soup = soup.find('div', class_='l-jgkk-right column').find_all('dt')[0]
-    a_type = a_soup.text.strip()
-    a_href = a_soup.find('a')['href']
-    a_id = '1874'
-    list_error = []
-    num = 0
-    start_time = time.time()
-    work(a_href,a_type, a_id)
-    for type in tqdm(list_type):
-        list_news = []
-        href_type = type.find('a')['href']
-        ting_type = type.find('a').text
-        try:
-            relationId = mapId_dic[ting_type]
-        except:
-            continue
-        work(href_type,ting_type,relationId)
-
-    num += 1
-    end_time = time.time()
-    log.info(f'共抓取{num}条数据,共耗时{end_time - start_time}')
-
-    time.sleep(1)
-    # writer.save()
-    # df_error = pd.DataFrame(list_error)
-    # df_error.to_excel('未采到文章.xlsx',index=False)
+        tids = {'办公厅（党委办公厅）': 1643, '综合研究局': 1644, '政策法规局': 1645, '规划发展局': 1646, '财务监管与运行评价局': 1647, '产权管理局': 1648,
+                '企业改革局': 1649, '考核分配局': 1650, '资本运营与收益管理局': 1651, '科技创新局': 1652, '社会责任局': 2064, '综合监督局': 1653,
+                '监督追责局': 1654,
+                '企业领导人员管理一局（董事会工作局）': 1655, '企业领导人员管理二局': 1656, '党建工作局（党委组织部、党委统战部）': 1657, '宣传工作局（党委宣传部）': 1658,
+                '国际合作局': 1659, '人事局': 1660, '行业协会商会党建工作局（行业协会商会工作局）': 1661, '机关服务管理局（离退休干部管理局）': 1662, '机关党委': 1663,
+                '党委巡视工作办公室、国资委巡视组': 1664, '中央纪委国家监委驻国资委纪检监察组': 1874}
+        for a in all_institution:
+            institution = a[0]
+            href = a[1]
+            tid = tids[institution]
+            log.info(f'\n================厅局类别==={institution}========================')
+            get_page_nsjg_list(href, institution, tid)

+    gzw_nsjg_start()

-if __name__=='__main__':

-    mapId_dic = {
-        '办公厅（党委办公厅）':'1643',
-        '综合研究局':'1644',
-        '政策法规局':'1645',
-        '规划发展局':'1646',
-        '财务监管与运行评价局':'1647',
-        '产权管理局':'1648',
-        '企业改革局':'1649',
-        '考核分配局':'1650',
-        '资本运营与收益管理局':'1651',
-        '科技创新局':'1652',
-        '综合监督局':'1653',
-        '监督追责局':'1654',
-        '企业领导人员管理一局（董事会工作局）':'1655',
-        '企业领导人员管理二局':'1656',
-        '党建工作局（党委组织部、党委统战部）':'1657',
-        '宣传工作局（党委宣传部）':'1658',
-        '国际合作局':'1659',
-        '人事局':'1660',
-        '机关服务管理局（离退休干部管理局）':'1662',
-        '机关党委':'1663',
-        '党委巡视工作办公室、国资委巡视组':'1664',
-    }
-
-    headers = {
-    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
-    'Accept-Encoding':'gzip, deflate',
-    'Accept-Language':'zh-CN,zh;q=0.9',
-    'Cache-Control':'no-cache',
-    'Connection':'keep-alive',
-    'Cookie':'Hm_lvt_fa835457efbc11dfb88752e70521d23b=1690184499; Hm_lpvt_fa835457efbc11dfb88752e70521d23b=1690184499; SF_cookie_1=98184645; Hm_lvt_2b5618a441c142a90e1a75f4b226c252=1690189470; Hm_lpvt_2b5618a441c142a90e1a75f4b226c252=1690189470; zh_choose=n; wdcid=30ffdae06d11dbde; wdlast=1690189470; wdses=13ee59561f2fb725',
-    'Host':'www.sasac.gov.cn',
-    'Pragma':'no-cache',
-    'Referer':'https://www.baidu.com/link?url=CcQEFfXAeQsxu1IlLlxj8WHugAcJ7sBjOBqvZYDfN7WE6OZpSUM4prK6DiADOqTP&wd=&eqid=d507a037000987780000000364be37d4',
-    'Upgrade-Insecure-Requests':'1',
-    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
-    }
+if __name__ == '__main__':
    try:
-        job()
+        gzw_nsjg()
    except Exception as e:
-        print(e)
-    current_time = datetime.datetime.now()
-    midnight_time = current_time.replace(hour=0, minute=0, second=0, microsecond=0) + datetime.timedelta(days=1)
-    sleep_seconds = (midnight_time - current_time).total_seconds()
-    time.sleep(sleep_seconds)
+        log.error(e)
+    #current_time = datetime.datetime.now()
+    #midnight_time = current_time.replace(hour=0, minute=0, second=0, microsecond=0) + datetime.timedelta(days=1)
+    #sleep_seconds = (midnight_time - current_time).total_seconds()
+    #time.sleep(sleep_seconds)
    # 创建一个ExcelWriter对象
    # writer = pd.ExcelWriter('国务院厅局.xlsx')
-
-
-
-
-
--- a/comData/policylaw/政策法规.xlsx
+++ b/comData/policylaw/政策法规.xlsx
--- a/comData/tradingview/tradviewNew.py
+++ b/comData/tradingview/tradviewNew.py
@@ -93,7 +93,7 @@ def paserList(searchmsg,social_code):
            storyPath='https://cn.tradingview.com'+item['storyPath']
            published=item['published']
            published=getFormatedate(published)
-
+            log.info(f'信用代码{social_code}的资讯列表---{storyPath}')
            #是否重复判断
            flag=selectLinkMsg(storyPath,social_code)
            if flag:
@@ -121,7 +121,10 @@ def paserList(searchmsg,social_code):
            #     sourceAddress=storyPath
            sourceAddress=storyPath
            content,contentWithTag=extractorMsg(sourceAddress,title)
+
            if content:
+                if len(content)<150:
+                    continue
                time_now = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
                detailmsg={
                    'content': content,
@@ -214,7 +217,7 @@ def conn144():
 def getStockFromSql():
    conn,cursor=conn144()
    # 检查记录是否存在
-    select_sql=f"SELECT ticker,exchange,xydm FROM mgzqyjwyh_list "
+    select_sql=f"SELECT ticker,exchange,xydm FROM mgzqyjwyh_list where xydm='ZZSN22080900000001' "
    cursor.execute(select_sql)
    gn_result = cursor.fetchall()
    conn.commit()
@@ -313,20 +316,23 @@ if __name__ == '__main__':
    # url='https://news-headlines.tradingview.com/v2/headlines?client=web&lang=zh-Hans&symbol=NASDAQ%3AAAPL'
    # searchmsg=reqmsg(url)
    # print(searchmsg)
-    # getStockFromSql()
-    while True:
-        try:
-            tradview_ticker=r.lpop('tradview_ticker')
-            if tradview_ticker:
-                tradviewticker = tradview_ticker.decode(errors='ignore')
-                ticker_param=str(tradviewticker).split('_')[0]
-                social_code=str(tradviewticker).split('_')[1]
-                url=f'https://news-headlines.tradingview.com/v2/headlines?client=web&lang=zh-Hans&symbol={tradview_ticker}'
-                searchmsg=reqmsg(url)
-                paserList(searchmsg,social_code)
-        except Exception as e:
-            log.info(f'redis中获取企业信息为空{e}')
-            break
+    getStockFromSql()
+    # while True:
+    #     try:
+    #         tradview_ticker=r.lpop('tradview_ticker')
+    #         if tradview_ticker:
+    #
+    #             tradviewticker = tradview_ticker.decode(errors='ignore')
+    #             log.info(f'采集资讯的企业{tradviewticker}')
+    #             ticker_param=str(tradviewticker).split('_')[0]
+    #             social_code=str(tradviewticker).split('_')[1]
+    #             url=f'https://news-headlines.tradingview.com/v2/headlines?client=web&lang=zh-Hans&symbol={ticker_param}'
+    #             log.info(f'采集资讯企业列表地址{tradview_ticker}')
+    #             searchmsg=reqmsg(url)
+    #             paserList(searchmsg,social_code)
+    #     except Exception as e:
+    #         log.info(f'redis中获取企业信息为空{e}')
+    #         break




--- a/comData/wanfangdataCrawler/机构.xlsx
+++ b/comData/wanfangdataCrawler/机构.xlsx
--- a/comData/wanfangdataCrawler/超星期刊.xlsx
+++ b/comData/wanfangdataCrawler/超星期刊.xlsx
--- a/comData/weixin_solo/base/fdfs_client/client.py
+++ b/comData/weixin_solo/base/fdfs_client/client.py
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+# filename: client.py
+
+'''
+  Client module for Fastdfs 3.08
+  author: scott yuan scottzer8@gmail.com
+  date: 2012-06-21
+'''
+
+import os
+import sys
+from fdfs_client.utils import *
+from fdfs_client.tracker_client import *
+from fdfs_client.storage_client import *
+from fdfs_client.exceptions import *
+
+
+def get_tracker_conf(conf_path='../../client.conf'):
+    cf = Fdfs_ConfigParser()
+    tracker = {}
+    try:
+        cf.read(conf_path)
+        timeout = cf.getint('__config__', 'connect_timeout')
+        tracker_list = cf.get('__config__', 'tracker_server')
+        if isinstance(tracker_list, str):
+            tracker_list = [tracker_list]
+        tracker_ip_list = []
+        for tr in tracker_list:
+            tracker_ip, tracker_port = tr.split(':')
+            tracker_ip_list.append(tracker_ip)
+        tracker['host_tuple'] = tuple(tracker_ip_list)
+        tracker['port'] = int(tracker_port)
+        tracker['timeout'] = timeout
+        tracker['name'] = 'Tracker Pool'
+    except:
+        raise
+    return tracker
+
+
+class Fdfs_client(object):
+    '''
+    Class Fdfs_client implemented Fastdfs client protol ver 3.08.
+
+    It's useful upload, download, delete file to or from fdfs server, etc. It's uses
+    connection pool to manage connection to server.
+    '''
+
+    def __init__(self, trackers, poolclass=ConnectionPool):
+        self.trackers = trackers
+        self.tracker_pool = poolclass(**self.trackers)
+        self.timeout = self.trackers['timeout']
+        return None
+
+    def __del__(self):
+        try:
+            self.pool.destroy()
+            self.pool = None
+        except:
+            pass
+
+    def upload_by_filename(self, filename, meta_dict=None):
+        '''
+        Upload a file to Storage server.
+        arguments:
+        @filename: string, name of file that will be uploaded
+        @meta_dict: dictionary e.g.:{
+            'ext_name'  : 'jpg',
+            'file_size' : '10240B',
+            'width'     : '160px',
+            'hight'     : '80px'
+        } meta_dict can be null
+        @return dict {
+            'Group name'      : group_name,
+            'Remote file_id'  : remote_file_id,
+            'Status'          : 'Upload successed.',
+            'Local file name' : local_file_name,
+            'Uploaded size'   : upload_size,
+            'Storage IP'      : storage_ip
+        } if success else None
+        '''
+        isfile, errmsg = fdfs_check_file(filename)
+        if not isfile:
+            raise DataError(errmsg + '(uploading)')
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_stor_without_group()
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_upload_by_filename(tc, store_serv, filename, meta_dict)
+
+    def upload_by_file(self, filename, meta_dict=None):
+        isfile, errmsg = fdfs_check_file(filename)
+        if not isfile:
+            raise DataError(errmsg + '(uploading)')
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_stor_without_group()
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_upload_by_file(tc, store_serv, filename, meta_dict)
+
+    def upload_by_buffer(self, filebuffer, file_ext_name=None, meta_dict=None):
+        '''
+        Upload a buffer to Storage server.
+        arguments:
+        @filebuffer: string, buffer
+        @file_ext_name: string, file extend name
+        @meta_dict: dictionary e.g.:{
+            'ext_name'  : 'jpg',
+            'file_size' : '10240B',
+            'width'     : '160px',
+            'hight'     : '80px'
+        }
+        @return dict {
+            'Group name'      : group_name,
+            'Remote file_id'  : remote_file_id,
+            'Status'          : 'Upload successed.',
+            'Local file name' : '',
+            'Uploaded size'   : upload_size,
+            'Storage IP'      : storage_ip
+        } if success else None
+        '''
+        if not filebuffer:
+            raise DataError('[-] Error: argument filebuffer can not be null.')
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_stor_without_group()
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_upload_by_buffer(tc, store_serv, filebuffer, file_ext_name, meta_dict)
+
+    def upload_slave_by_filename(self, filename, remote_file_id, prefix_name, meta_dict=None):
+        '''
+        Upload slave file to Storage server.
+        arguments:
+        @filename: string, local file name
+        @remote_file_id: string, remote file id
+        @prefix_name: string
+        @meta_dict: dictionary e.g.:{
+            'ext_name'  : 'jpg',
+            'file_size' : '10240B',
+            'width'     : '160px',
+            'hight'     : '80px'
+        }
+        @return dictionary {
+            'Status'        : 'Upload slave successed.',
+            'Local file name' : local_filename,
+            'Uploaded size'   : upload_size,
+            'Remote file id'  : remote_file_id,
+            'Storage IP'      : storage_ip
+        }
+        '''
+        isfile, errmsg = fdfs_check_file(filename)
+        if not isfile:
+            raise DataError(errmsg + '(uploading slave)')
+        tmp = split_remote_fileid(remote_file_id)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(uploading slave)')
+        if not prefix_name:
+            raise DataError('[-] Error: prefix_name can not be null.')
+        group_name, remote_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_stor_with_group(group_name)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        try:
+            ret_dict = store.storage_upload_slave_by_filename(tc, store_serv, filename, prefix_name, remote_filename,
+                                                              meta_dict=None)
+        except:
+            raise
+        ret_dict['Status'] = 'Upload slave file successed.'
+        return ret_dict
+
+    def upload_slave_by_file(self, filename, remote_file_id, prefix_name, meta_dict=None):
+        '''
+        Upload slave file to Storage server.
+        arguments:
+        @filename: string, local file name
+        @remote_file_id: string, remote file id
+        @prefix_name: string
+        @meta_dict: dictionary e.g.:{
+            'ext_name'  : 'jpg',
+            'file_size' : '10240B',
+            'width'     : '160px',
+            'hight'     : '80px'
+        }
+        @return dictionary {
+            'Status'        : 'Upload slave successed.',
+            'Local file name' : local_filename,
+            'Uploaded size'   : upload_size,
+            'Remote file id'  : remote_file_id,
+            'Storage IP'      : storage_ip
+        }
+        '''
+        isfile, errmsg = fdfs_check_file(filename)
+        if not isfile:
+            raise DataError(errmsg + '(uploading slave)')
+        tmp = split_remote_fileid(remote_file_id)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(uploading slave)')
+        if not prefix_name:
+            raise DataError('[-] Error: prefix_name can not be null.')
+        group_name, remote_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_stor_with_group(group_name)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        try:
+            ret_dict = store.storage_upload_slave_by_file(tc, store_serv, filename, prefix_name, remote_filename,
+                                                          meta_dict=None)
+        except:
+            raise
+        ret_dict['Status'] = 'Upload slave file successed.'
+        return ret_dict
+
+    def upload_slave_by_buffer(self, filebuffer, remote_file_id, meta_dict=None, file_ext_name=None):
+        '''
+        Upload slave file by buffer
+        arguments:
+        @filebuffer: string
+        @remote_file_id: string
+        @meta_dict: dictionary e.g.:{
+            'ext_name'  : 'jpg',
+            'file_size' : '10240B',
+            'width'     : '160px',
+            'hight'     : '80px'
+        }
+        @return dictionary {
+            'Status'        : 'Upload slave successed.',
+            'Local file name' : local_filename,
+            'Uploaded size'   : upload_size,
+            'Remote file id'  : remote_file_id,
+            'Storage IP'      : storage_ip
+        }
+        '''
+        if not filebuffer:
+            raise DataError('[-] Error: argument filebuffer can not be null.')
+        tmp = split_remote_fileid(remote_file_id)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(uploading slave)')
+        group_name, remote_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, remote_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_upload_slave_by_buffer(tc, store_serv, filebuffer, remote_filename, meta_dict,
+                                                    file_ext_name)
+
+    def upload_appender_by_filename(self, local_filename, meta_dict=None):
+        '''
+        Upload an appender file by filename.
+        arguments:
+        @local_filename: string
+        @meta_dict: dictionary e.g.:{
+            'ext_name'  : 'jpg',
+            'file_size' : '10240B',
+            'width'     : '160px',
+            'hight'     : '80px'
+        }    Notice: it can be null
+        @return dict {
+            'Group name'      : group_name,
+            'Remote file_id'  : remote_file_id,
+            'Status'          : 'Upload successed.',
+            'Local file name' : '',
+            'Uploaded size'   : upload_size,
+            'Storage IP'      : storage_ip
+        } if success else None
+        '''
+        isfile, errmsg = fdfs_check_file(local_filename)
+        if not isfile:
+            raise DataError(errmsg + '(uploading appender)')
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_stor_without_group()
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_upload_appender_by_filename(tc, store_serv, local_filename, meta_dict)
+
+    def upload_appender_by_file(self, local_filename, meta_dict=None):
+        '''
+        Upload an appender file by file.
+        arguments:
+        @local_filename: string
+        @meta_dict: dictionary e.g.:{
+            'ext_name'  : 'jpg',
+            'file_size' : '10240B',
+            'width'     : '160px',
+            'hight'     : '80px'
+        }    Notice: it can be null
+        @return dict {
+            'Group name'      : group_name,
+            'Remote file_id'  : remote_file_id,
+            'Status'          : 'Upload successed.',
+            'Local file name' : '',
+            'Uploaded size'   : upload_size,
+            'Storage IP'      : storage_ip
+        } if success else None
+        '''
+        isfile, errmsg = fdfs_check_file(local_filename)
+        if not isfile:
+            raise DataError(errmsg + '(uploading appender)')
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_stor_without_group()
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_upload_appender_by_file(tc, store_serv, local_filename, meta_dict)
+
+    def upload_appender_by_buffer(self, filebuffer, file_ext_name=None, meta_dict=None):
+        '''
+        Upload a buffer to Storage server.
+        arguments:
+        @filebuffer: string
+        @file_ext_name: string, can be null
+        @meta_dict: dictionary, can be null
+        @return dict {
+            'Group name'      : group_name,
+            'Remote file_id'  : remote_file_id,
+            'Status'          : 'Upload successed.',
+            'Local file name' : '',
+            'Uploaded size'   : upload_size,
+            'Storage IP'      : storage_ip
+        } if success else None
+        '''
+        if not filebuffer:
+            raise DataError('[-] Error: argument filebuffer can not be null.')
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_stor_without_group()
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_upload_appender_by_buffer(tc, store_serv, filebuffer, meta_dict, file_ext_name)
+
+    def delete_file(self, remote_file_id):
+        '''
+        Delete a file from Storage server.
+        arguments:
+        @remote_file_id: string, file_id of file that is on storage server
+        @return tuple ('Delete file successed.', remote_file_id, storage_ip)
+        '''
+        tmp = split_remote_fileid(remote_file_id)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(in delete file)')
+        group_name, remote_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, remote_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_delete_file(tc, store_serv, remote_filename)
+
+    def download_to_file(self, local_filename, remote_file_id, offset=0, down_bytes=0):
+        '''
+        Download a file from Storage server.
+        arguments:
+        @local_filename: string, local name of file 
+        @remote_file_id: string, file_id of file that is on storage server
+        @offset: long
+        @downbytes: long
+        @return dict {
+            'Remote file_id'  : remote_file_id,
+            'Content'         : local_filename,
+            'Download size'   : downloaded_size,
+            'Storage IP'      : storage_ip
+        }
+        '''
+        tmp = split_remote_fileid(remote_file_id)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(in download file)')
+        group_name, remote_filename = tmp
+        if not offset:
+            file_offset = int(offset)
+        if not down_bytes:
+            download_bytes = int(down_bytes)
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_fetch(group_name, remote_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_download_to_file(tc, store_serv, local_filename, file_offset, download_bytes,
+                                              remote_filename)
+
+    def download_to_buffer(self, remote_file_id, offset=0, down_bytes=0):
+        '''
+        Download a file from Storage server and store in buffer.
+        arguments:
+        @remote_file_id: string, file_id of file that is on storage server
+        @offset: long
+        @down_bytes: long
+        @return dict {
+            'Remote file_id'  : remote_file_id,
+            'Content'         : file_buffer,
+            'Download size'   : downloaded_size,
+            'Storage IP'      : storage_ip
+        }
+        '''
+        tmp = split_remote_fileid(remote_file_id)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(in download file)')
+        group_name, remote_filename = tmp
+        if not offset:
+            file_offset = int(offset)
+        if not down_bytes:
+            download_bytes = int(down_bytes)
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_fetch(group_name, remote_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        file_buffer = None
+        return store.storage_download_to_buffer(tc, store_serv, file_buffer, file_offset, download_bytes,
+                                                remote_filename)
+
+    def list_one_group(self, group_name):
+        '''
+        List one group information.
+        arguments:
+        @group_name: string, group name will be list
+        @return Group_info,  instance
+        '''
+        tc = Tracker_client(self.tracker_pool)
+        return tc.tracker_list_one_group(group_name)
+
+    def list_servers(self, group_name, storage_ip=None):
+        '''
+        List all storage servers information in a group
+        arguments:
+        @group_name: string
+        @return dictionary {
+            'Group name' : group_name,
+            'Servers'    : server list,
+        }
+        '''
+        tc = Tracker_client(self.tracker_pool)
+        return tc.tracker_list_servers(group_name, storage_ip)
+
+    def list_all_groups(self):
+        '''
+        List all group information.
+        @return dictionary {
+            'Groups count' : group_count,
+            'Groups'       : list of groups
+        }
+        '''
+        tc = Tracker_client(self.tracker_pool)
+        return tc.tracker_list_all_groups()
+
+    def get_meta_data(self, remote_file_id):
+        '''
+        Get meta data of remote file.
+        arguments:
+        @remote_fileid: string, remote file id
+        @return dictionary, meta data
+        '''
+        tmp = split_remote_fileid(remote_file_id)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(in get meta data)')
+        group_name, remote_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, remote_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_get_metadata(tc, store_serv, remote_filename)
+
+    def set_meta_data(self, remote_file_id, meta_dict, op_flag=STORAGE_SET_METADATA_FLAG_OVERWRITE):
+        '''
+        Set meta data of remote file.
+        arguments:
+        @remote_file_id: string
+        @meta_dict: dictionary
+        @op_flag: char, 'O' for overwrite, 'M' for merge
+        @return dictionary {
+            'Status'     : status,
+            'Storage IP' : storage_ip
+        }
+        '''
+        tmp = split_remote_fileid(remote_file_id)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(in set meta data)')
+        group_name, remote_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        try:
+            store_serv = tc.tracker_query_storage_update(group_name, remote_filename)
+            store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+            status = store.storage_set_metadata(tc, store_serv, remote_filename, meta_dict)
+        except (ConnectionError, ResponseError, DataError):
+            raise
+        # if status == 2:
+        #    raise DataError('[-] Error: remote file %s is not exist.' % remote_file_id)
+        if status != 0:
+            raise DataError('[-] Error: %d, %s' % (th.status, os.strerror(th.status)))
+        ret_dict = {}
+        ret_dict['Status'] = 'Set meta data success.'
+        ret_dict['Storage IP'] = store_serv.ip_addr
+        return ret_dict
+
+    def append_by_filename(self, local_filename, remote_fileid):
+        isfile, errmsg = fdfs_check_file(local_filename)
+        if not isfile:
+            raise DataError(errmsg + '(append)')
+        tmp = split_remote_fileid(remote_fileid)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(append)')
+        group_name, appended_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, appended_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_append_by_filename(tc, store_serv, local_filename, appended_filename)
+
+    def append_by_file(self, local_filename, remote_fileid):
+        isfile, errmsg = fdfs_check_file(local_filename)
+        if not isfile:
+            raise DataError(errmsg + '(append)')
+        tmp = split_remote_fileid(remote_fileid)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(append)')
+        group_name, appended_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, appended_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_append_by_file(tc, store_serv, local_filename, appended_filename)
+
+    def append_by_buffer(self, file_buffer, remote_fileid):
+        if not file_buffer:
+            raise DataError('[-] Error: file_buffer can not be null.')
+        tmp = split_remote_fileid(remote_fileid)
+        if not tmp:
+            raise DataError('[-] Error: remote_file_id is invalid.(append)')
+        group_name, appended_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, appended_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_append_by_buffer(tc, store_serv, file_buffer, appended_filename)
+
+    def truncate_file(self, truncated_filesize, appender_fileid):
+        '''
+        Truncate file in Storage server.
+        arguments:
+        @truncated_filesize: long
+        @appender_fileid: remote_fileid
+        @return: dictionary {
+            'Status'     : 'Truncate successed.',
+            'Storage IP' : storage_ip
+        }
+        '''
+        trunc_filesize = int(truncated_filesize)
+        tmp = split_remote_fileid(appender_fileid)
+        if not tmp:
+            raise DataError('[-] Error: appender_fileid is invalid.(truncate)')
+        group_name, appender_filename = tmp
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, appender_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_truncate_file(tc, store_serv, trunc_filesize, appender_filename)
+
+    def modify_by_filename(self, filename, appender_fileid, offset=0):
+        '''
+        Modify a file in Storage server by file.
+        arguments:
+        @filename: string, local file name
+        @offset: long, file offset
+        @appender_fileid: string, remote file id
+        @return: dictionary {
+            'Status'     : 'Modify successed.',
+            'Storage IP' : storage_ip
+        }
+        '''
+        isfile, errmsg = fdfs_check_file(filename)
+        if not isfile:
+            raise DataError(errmsg + '(modify)')
+        filesize = os.stat(filename).st_size
+        tmp = split_remote_fileid(appender_fileid)
+        if not tmp:
+            raise DataError('[-] Error: remote_fileid is invalid.(modify)')
+        group_name, appender_filename = tmp
+        if not offset:
+            file_offset = int(offset)
+        else:
+            file_offset = 0
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, appender_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_modify_by_filename(tc, store_serv, filename, file_offset, filesize, appender_filename)
+
+    def modify_by_file(self, filename, appender_fileid, offset=0):
+        '''
+        Modify a file in Storage server by file.
+        arguments:
+        @filename: string, local file name
+        @offset: long, file offset
+        @appender_fileid: string, remote file id
+        @return: dictionary {
+            'Status'     : 'Modify successed.',
+            'Storage IP' : storage_ip
+        }
+        '''
+        isfile, errmsg = fdfs_check_file(filename)
+        if not isfile:
+            raise DataError(errmsg + '(modify)')
+        filesize = os.stat(filename).st_size
+        tmp = split_remote_fileid(appender_fileid)
+        if not tmp:
+            raise DataError('[-] Error: remote_fileid is invalid.(modify)')
+        group_name, appender_filename = tmp
+        if not offset:
+            file_offset = int(offset)
+        else:
+            file_offset = 0
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, appender_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_modify_by_file(tc, store_serv, filename, file_offset, filesize, appender_filename)
+
+    def modify_by_buffer(self, filebuffer, appender_fileid, offset=0):
+        '''
+        Modify a file in Storage server by buffer.
+        arguments:
+        @filebuffer: string, file buffer
+        @offset: long, file offset
+        @appender_fileid: string, remote file id
+        @return: dictionary {
+            'Status'     : 'Modify successed.',
+            'Storage IP' : storage_ip
+        }
+        '''
+        if not filebuffer:
+            raise DataError('[-] Error: filebuffer can not be null.(modify)')
+        filesize = len(filebuffer)
+        tmp = split_remote_fileid(appender_fileid)
+        if not tmp:
+            raise DataError('[-] Error: remote_fileid is invalid.(modify)')
+        group_name, appender_filename = tmp
+        if not offset:
+            file_offset = int(offset)
+        else:
+            file_offset = 0
+        tc = Tracker_client(self.tracker_pool)
+        store_serv = tc.tracker_query_storage_update(group_name, appender_filename)
+        store = Storage_client(store_serv.ip_addr, store_serv.port, self.timeout)
+        return store.storage_modify_by_buffer(tc, store_serv, filebuffer, file_offset, filesize, appender_filename)
--- a/comData/weixin_solo/get_tokenCookies.py
+++ b/comData/weixin_solo/get_tokenCookies.py
@@ -50,8 +50,8 @@ if __name__=="__main__":
    opt.add_experimental_option("excludeSwitches", ["enable-automation"])
    opt.add_experimental_option('excludeSwitches', ['enable-logging'])
    opt.add_experimental_option('useAutomationExtension', False)
-    opt.binary_location = r'D:/Google/Chrome/Application/chrome.exe'
-    chromedriver = r'D:/cmd100/chromedriver.exe'
+    opt.binary_location = r'D:\crawler\baidu_crawler\tool\Google\Chrome\Application\chrome.exe'
+    chromedriver = r'C:\Users\WIN10\DataspellProjects\crawlerProjectDemo\tmpcrawler\cmd100\chromedriver.exe'
    browser = webdriver.Chrome(chrome_options=opt, executable_path=chromedriver)
    url = "https://mp.weixin.qq.com/"
    browser.get(url)

--- a/comData/xinyongdaima/headerFlask.py
+++ b/comData/xinyongdaima/headerFlask.py
+
+import os
+import redis
+from flask import Flask, request, send_file, render_template, jsonify
+import json
+import pymysql
+from pyquery import PyQuery as pq
+from flask_cors import cross_origin
+
+'''
+手动捕获请求的接口数据，实现解析
+使用fiddler将链接对应的页面数据信息发送到后台，后台对数据进行解析
+通过fiddler获取浏览器访问刷新的header信息和cookie信息
+'''
+
+r = redis.Redis(host='127.0.0.1', port='6379', db=0)
+
+app = Flask(__name__)
+
+@app.route('/')
+@cross_origin()
+def index():
+    return 'Welcome to the website!'
+
+@app.route('/get_hold', methods=['POST'])
+@cross_origin()
+def get_news():
+    data=request.form
+
+@app.route('/task/setCookie', methods=['GET'])
+# @cross_origin()
+def setCookie():
+    try:
+        cookie = request.args.get('cookie')
+        r.sadd('hgcookie',cookie)
+    except Exception as e:
+        print('error')
+    return 'succes'
+
+@app.route('/task/getCookieSize', methods=['GET'])
+@cross_origin()
+def getCookieSize():
+    try:
+        size=r.scard('hgcookie')
+        data = {
+            "code": 200,
+            "msg": "操作成功",
+            "data": size
+        }
+    except Exception as e:
+        data={
+            "code": 200,
+            "msg": "操作失败",
+            "data": 0
+        }
+    return jsonify(data)
+
+
+if __name__ == '__main__':
+    app.run(port=8003)
+
+
+
+
+
+
+
+
+
+
+
+
+
+
--- a/google_comm/googleSpider.py
+++ b/google_comm/googleSpider.py
@@ -277,8 +277,8 @@ class GoogleSpider(object):
        self.logger.info("开始抓取首页..." + self.searchkw )
        time.sleep(5)
        flag, lists = self.parse_page()
-        if len(lists):
-            time.sleep(600)
+        if len(lists)<1:
+            time.sleep(6)
        for detail in lists:
            durl=detail['detailUrl']
            is_member = self.r.sismember('pygoogle_'+self.wordsCode, durl)
@@ -292,7 +292,7 @@ class GoogleSpider(object):
        hasnext = hasnext.strip()
        timeFlag = False
        while hasnext == '下一页':
-            if self.page_num==29:
+            if self.page_num==5:
                break
            self.page_num = self.page_num + 1
            self.logger.info("开始抓取第%s页..." % self.page_num)

--- a/google_comm/googletaskJob_loc.py
+++ b/google_comm/googletaskJob_loc.py
@@ -113,6 +113,8 @@ class GoogleTaskJob(object):
        id=keymsg['id']
        try:
            searchEngines=keymsg['searchEngines']
+            if 'java.util.ArrayList' in searchEngines:
+                searchEngines=searchEngines[1]
        except Exception as e:
            searchEngines=[]
        kwList=[]
@@ -127,17 +129,6 @@ class GoogleTaskJob(object):
                        'sid':id
                    }
                    kwList.append(kwmsg)
-        else:
-            logger.info('+++++')
-            keyword=keymsg['keyWord']
-            keymsglist=self.getkeywords(keyword)
-            for kw in keymsglist:
-                kwmsg={
-                    'kw':kw,
-                    'wordsCode':wordsCode,
-                    'sid':id
-                }
-                kwList.append(kwmsg)
        return kwList

    def runSpider(self,kwmsg):
@@ -175,8 +166,7 @@ if __name__ == '__main__':
        try:
            codeids=[]
            # codeid='KW-20230727-0001'
-            codeids.append('KW-20230814-0001')
-            codeids.append('KW-20230814-0005')
+            codeids.append('KW-20230925-0002')
            for codeid in codeids:
                try:
                    # keymsg=baiduTaskJob.getkafka()

--- a/jrtt1news_comm/baseCore.py
+++ b/jrtt1news_comm/baseCore.py
@@ -215,7 +215,7 @@ class BaseCore:
        except :
            pass
    def __init__(self):
-        self.__cnx_proxy = pymysql.connect(host='114.115.159.144', user='caiji', password='zzsn9988', db='clb_project',
+        self.__cnx_proxy = pymysql.connect(host='114.115.159.144', user='caiji', password='zzsn9988', db='caiji',
                                           charset='utf8mb4')
        self.__cursor_proxy= self.__cnx_proxy.cursor()
        pass
@@ -310,27 +310,28 @@ class BaseCore:
            proxy_list.append(proxy)
        return proxy_list[random.randint(0, 3)]

-    def get_proxy(self):
-        ip_list = []
-        with self.__cursor_proxy as cursor:
-            sql_str = '''select PROXY from clb_proxy where id={} '''.format(random.randint(1, 12))
-            print(sql_str)
-            cursor.execute(sql_str)
-            rows = cursor.fetchall()
-            for row in tqdm(rows):
-                str_ip = row[0]
-                str_ip_list = str_ip.split('-')
-                proxyMeta = "http://%(host)s:%(port)s" % {
-                    "host": str_ip_list[0],
-                    "port": str_ip_list[1],
-                }
-                proxy = {
-                    "HTTP": proxyMeta,
-                    "HTTPS": proxyMeta
-                }
-                ip_list.append(proxy)
+    # def get_proxy(self):
+    #     ip_list = []
+    #     with self.__cursor_proxy as cursor:
+    #         sql_str = '''select PROXY from clb_proxy where id={} '''.format(random.randint(1, 12))
+    #         print(sql_str)
+    #         cursor.execute(sql_str)
+    #         rows = cursor.fetchall()
+    #         for row in tqdm(rows):
+    #             str_ip = row[0]
+    #             str_ip_list = str_ip.split('-')
+    #             proxyMeta = "http://%(host)s:%(port)s" % {
+    #                 "host": str_ip_list[0],
+    #                 "port": str_ip_list[1],
+    #             }
+    #             proxy = {
+    #                 "HTTP": proxyMeta,
+    #                 "HTTPS": proxyMeta
+    #             }
+    #             ip_list.append(proxy)
+    #
+    #     return  ip_list

-        return  ip_list
    def get_proxyIPPort(self):
        ip_list = []
        with self.__cursor_proxy as cursor:

--- a/jrtt1news_comm/jrttnewspider.py
+++ b/jrtt1news_comm/jrttnewspider.py
@@ -37,7 +37,7 @@ class JrttnewsSpider(object):
        self.config.read('config.ini')
        baseCore=BaseCore()
        self.logger=baseCore.getLogger()
-        self.url = 'https://www.sogou.com/'
+        self.url = 'https://www.toutiao.com/'
        self.r = redis.Redis(host=self.config.get('redis', 'host'),
                             port=self.config.get('redis', 'port'),
                             password=self.config.get('redis', 'pass'), db=0)
@@ -50,7 +50,7 @@ class JrttnewsSpider(object):
        self.wordsCode = wordsCode
        self.sid = sid

-    #将列表数据插入到表中 baidu_search_result
+    #将列表数据插入到表中 meta_search_result
    def itemInsertToTable(self,items):
        try:
            itemdata=[]
@@ -60,7 +60,7 @@ class JrttnewsSpider(object):
                data=(self.sid,self.wordsCode,item['title'],item['detailurl'],item['source'],item['publishtime'],item['content'],item['contentHtml'],'1',item['kword'],nowtime)
                itemdata.append(data)

-            sql ="INSERT into baidu_search_result (sid,wordsCode,title,detailurl,origin,publishdate,content,content_with_tag,state,keyword,create_time) VALUES (%s, %s,%s, %s, %s, %s, %s, %s, %s, %s, %s)"
+            sql ="INSERT into meta_search_result (sid,wordsCode,title,detailurl,origin,publishdate,content,content_with_tag,state,keyword,create_time) VALUES (%s, %s,%s, %s, %s, %s, %s, %s, %s, %s, %s)"
            cursorM.executemany(sql, itemdata)
            self.logger.info("数据插入数据库成功！")
            # 定义插入数据的SQL语句
@@ -231,24 +231,34 @@ class JrttnewsSpider(object):

    def reqHtml(self,url):
        headers={
-            'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
-            'Accept-Encoding':'gzip, deflate, br',
-            'Accept-Language':'zh-CN,zh;q=0.9',
-            'Cache-Control':'no-cache',
+            'Host':'search5-search-hl.toutiaoapi.com',
            'Connection':'keep-alive',
-            'Cookie':'tt_webid=7283314732298225163; _ga=GA1.1.1730036912.1695778874; _tea_utm_cache_4916=undefined; _S_DPR=1; _S_IPAD=0; s_v_web_id=verify_ln12yyu3_qeLMwQ8s_Offy_4w8b_9kv1_hMDj7V2H2wuE; msToken=7l75aR51vcmcW4LxtvP1cUt2trK37XA-oZdZRTD2Are065KuEBsofVz7vcQ7kFRXkKXY-I0ydJEkpNrx1_XWuurUFWTyIxMuf8Xg5dg-; _ga_QEHZPBE5HH=GS1.1.1695778874.1.1.1695778928.0.0.0; ttwid=1%7C13mqlyEtsSnqRlDNgTCNya74xNS4Azg1-cqxvZ2aJQs%7C1695778929%7C6462d58bd323e4560a0f5db0c443e767a3716878843c0f9a1dec190be930fa37; _S_WIN_WH=1366_353',
-            'Host':'so.toutiao.com',
-            'Pragma':'no-cache',
-            'Referer':'https://so.toutiao.com/search?dvpf=pc&source=pagination&keyword=%E6%B5%99%E6%B1%9F%E5%9B%BD%E6%9C%89%E8%B5%84%E6%9C%AC%E8%BF%90%E8%90%A5%E5%85%AC%E5%8F%B8&pd=information&action_type=pagination&page_num=1&search_id=202309270941439BB9AFF54062FE7CAC13&from=news&cur_tab_title=news',
-            'Sec-Fetch-Dest':'document',
-            'Sec-Fetch-Mode':'navigate',
-            'Sec-Fetch-Site':'same-origin',
-            'Sec-Fetch-User':'?1',
+            'Cookie':'store-region=cn-ha; store-region-src=did; install_id=715108030093040; ttreq=1$142a2ea8b4ded7e0dc5e4085a9e18b099c71e711; passport_csrf_token=5bd0ecb22a060f1f0c0932c735a2a13d; passport_csrf_token_default=5bd0ecb22a060f1f0c0932c735a2a13d; odin_tt=ea866ee07058546f522aa5a30b4982a8ee5e25749fc2c9f4fa9745619a3ce73aed8deda6ec675e308c99ac3721f4621c; WIN_WH=360_592; PIXIEL_RATIO=3; FRM=new',
+            'tt-tick-click':'1697767278469',
+            'tt-enable-js-ext':'true',
+            'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
+            'User-Agent':'Mozilla/5.0 (Linux; Android 7.1.2; VTR-AL00 Build/N2G47H; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/81.0.4044.117 Mobile Safari/537.36 JsSdk/2 NewsArticle/9.5.1 NetType/wifi',
            'Upgrade-Insecure-Requests':'1',
-            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36',
-            'sec-ch-ua':'"Chromium";v="116", "Not)A;Brand";v="24", "Google Chrome";v="116"',
-            'sec-ch-ua-mobile':'?0',
-            'sec-ch-ua-platform':'"Windows"'
+            'tt-flow-type':'1',
+            'X-SS-REQ-TICKET':'1697767278718',
+            'x-vc-bdturing-sdk-version':'3.5.0.cn',
+            'x-tt-dt':'AAAUR64HZMJ24BRNLGOI3WYF36IOAE3WDWW5RTNUGW5XMR3S24FLN5ILRURRCSIDIS5ENZ43J2K5OOQJJUJUVTDAZNEDCUCFLASISSXB4O5NU5B2MD3ISSH7UFPFIDIBW76O6PUCQY3GZ34CZF5J4YI',
+            'passport-sdk-version':'40650',
+            'sdk-version':'2',
+            'x-tt-request-tag':'n=1;n=1;s=-1;p=0',
+            'x-tt-store-region':'cn-ha',
+            'x-tt-store-region-src':'did',
+            'X-SS-DP':'13',
+            'x-tt-trace-id':'00-4ad0ca4309cdb953b3dd550a32f4000d-4ad0ca4309cdb953-01',
+            'Referer':'http://nativeapp.toutiao.com/',
+            'Accept-Encoding':'gzip, deflate',
+            'X-Argus':'KHZwJccO8RFUIqNJ/EX0ymUiPivSYbrByFwa1el1x3fzCwmdtvtfOOTb6JZDclXHMsIXUO7lZRbs9Pyo84vnORF7UT3f4hOCiiLjT+SCM8eETtX9pAmz+6sKw0h19OhZMAT5MhGyvvX2NObiv2Avnujt19g5oof8KWbgVMc4jJO1r+Di99IZ4MDJJm6OyLAC5U2eVV5KnplpMO5AtCt7+pCJqha+bNc3rFneU9S1njW155hdZ2wVoc6vg1HNt5VZcK3Qtj/3sKhV+gUXflyLw+rl',
+            'X-Gorgon':'8404a094000036a0eaee8b8c2540649078f55860dd5db65b55c5',
+            'X-Helios':'l2NKLtVosKrLBwQtg/ThpLjDrQIigxP6jwYKhbI2NAK7fK2k',
+            'X-Khronos':'1697767278',
+            'X-Ladon':'WOfdV44iiU/2w5WK+XsuKpHuhNVBuJPnL2o+9tZGMcAS37rn',
+            'X-Medusa':'bN8xZVizpAlbrWv+igssAKZnSEOd4poN/EvhkHRQPxmsXRwrXqOAPJs+fYDNdsfxcJEB34kVAFTm4hB+TxeLRRqwbKS8cfNVLcTHB26WUBYdz36455NMvA/5DIzOifTKJuxKP2E2i8BUX2JwkzEeIYzVRdzdEXDseszRvfWZTUpL1rnkS1+IoN8xQn7cmUEcKl2tn1zfECP5tp4x3v3c+tHVmiPGp9QhuhHT41C5DeavAgJANCuWd4gXV3PCyAtzGyv7AyxutplIntLWJRJySTh8POrHZbbG3x/CGPLkDdGC7pnXNc3aay3IilI4O85yktkYxbfU5yKWDz1zfds3bIIXH9tTE82U7pclJlBSYuPlGbOmqSSAIQHu+psHMDY+aH+hHOP8vvQww/vpxdPQLqhA4kLlJxc84ykQDieibhKDuCP711BdsOC2eLqsB1lsohv09kZp/ELW8W5AsWBK+jj1wlggPehpCaIlcAlGXk4Cm/X3flMO3u+VyrLSVfL1t6hYvPglcYR0Wg6yPgXOoJQHwXAeAkE3tsyZwK2tDOxa7LjnF3O+Pf1KRZohSN1sCxV3wQwUDw3wY/TqV+Rb/Cz2fcZXQfVTPDf8ZbhE/+UY/3quismg//wIDjOgT63lvt6gLPuJvjiuhmnHHIewJEb7YIG7InjTEJ2RSCkbqsTKj4U4cyhVG3oc66OywOuXAwglWmtmnZVlksbxEAHnGNfZqYHw+lRAdH5deKKAbFJmaTaIjahFGvkUbNpo7dSHetGae6IuqxNdbXI+P4WglVLCvjaTKJ6KQF/lbryau/lu3H/jmYQ5j4d+RmGrwxR9AoZhgShRddLvbG1n5og65drzo8PMijkUSbtr63LlCzoCcxW77pTSmrwDj5olu753p3kWZ3iq',
+            'x-common-params-v2':'ab_feature=102749%2C94563&ab_group=94567%2C102752&ab_version=668776%2C7284540%2C668774%2C7284539%2C662176%2C7284532%2C668779%2C7284545%2C662099%2C7284498%2C660830%2C7284548%2C1859937%2C668775%2C4413279%2C7284550%2C7339127%2C7379048%2C6378074%2C7032529%2C7208866%2C7308647%2C6154373&ac=wifi&aid=13&app_name=news_article&cdid=7e885618-b3d3-4522-a8a4-fb6ad143c4a9&channel=huawei_13_64&client_vid=6784077%2C3383553%2C2827921%2C3194525&device_brand=HUAWEI&device_id=55223597885&device_platform=android&device_type=VTR-AL00&dpi=480&dq_param=1&host_abi=arm64-v8a&iid=715108030093040&immerse_pool_type=-2&language=zh&manifest_version_code=9510&os=android&os_api=25&os_version=7.1.2&plugin=0&resolution=1080*1776&rom_version=25&ssmix=a&update_version_code=95108&version_code=951&version_name=9.5.1',
        }
        try:
            res=requests.get(url,headers=headers,verify=False,timeout=10)
@@ -273,6 +283,21 @@ class JrttnewsSpider(object):
            result=''
        return result

+    def get_reitemid(self,tmpurl):
+        try:
+            pattern='item_id=([\d]{1,})&search_id'
+            match = re.search(pattern, tmpurl)
+            # 判断是否匹配成功
+            if match:
+                # 获取匹配的结果
+                result = match.group(1)
+                result=unquote(result)
+            else:
+                result=''
+        except:
+            result=''
+        return result
+

    def getFormatedate(self,timestamp):
        date = datetime.datetime.fromtimestamp(timestamp)
@@ -282,44 +307,53 @@ class JrttnewsSpider(object):
    # 获取每一页数据, 开趴.
    def get_page_html(self):
        #设置采集列表页面和页数
-        totalnum=3
+        totalnum=1
        keyword=self.searchkw
        # keyword='浙江国有资本运营公司'
        for pagenum in range(0,totalnum):
-
-            url=f'https://so.toutiao.com/search?dvpf=pc&source=pagination&keyword={keyword}&pd=information&action_type=pagination&page_num={pagenum}&from=news&cur_tab_title=news'
+            self.logger.info(f"解析关键词{keyword}第{pagenum}页")
+            offset=pagenum*10
+            tmpurl='https://search5-search-hl.toutiaoapi.com/search/?source=search_subtab_switch&is_ttwebview=0&pass_through=default&action_type=input_keyword_search&is_incognito=0&api_param={"sug_session_id":"552235978851697767261639"}&inner_resolution=1080*1920&navbar_height=36&multi_container=1&gs_height=44&client_extra_params={"playparam":"codec_type:7,cdn_type:1,resolution:1080*1920,ttm_version:924000,enable_dash:0,unwatermark:1,v1_fitter_info:1,tt_net_energy:4,is_order_flow:-1,tt_device_score:7.1,tt_enable_adaptive:2"}&common_hashtags=default&_rticket=1697767236897&loadId=1&from_search_id=202310201001051EB17B3CBA66215D937D&isTTWebViewHeifSupport=0&has_gs=0&multi_container_type=1&forum=3&tt_font_size=m' \
+                   '&search_start_time=1697767265219&pd=information&cur_tab_title=search_tab&offset_height=108&openlive_plugin_status=0&fetch_by_ttnet=1&is_darkmode=0&from_pd=synthesis&plugin_enable=3&search_position=search_bar' \
+                   '&keyword=[keyword]&session_id=f1d0e9e4-cb15-4b60-b894-de729a76e6a9&switch_tab_type=click&appTheme=light&search_json={"__logExtra__":{"if_sar_recall":"0","from_category_name":"__all__","from_enter_from":"click_headline","from_channel_id":"0"}}' \
+                   '&from=search_tab&is_older=0&tt_daymode=1&search_sug=1&&runtime_tc=tt_search&browser_runtime_version=1720&format=json' \
+                   '&count=10&offset=[offset]&search_id=20231020120041F06F03C42D66A4AC5EC2&start_index=30&index_resource=&filter_vendor=&filter_period=&order_type=' \
+                   '&min_time=&max_time=&traffic_source='
+            url=tmpurl.replace('[keyword]',keyword).replace('[offset]',str(offset))
            lhtml=self.reqHtml(url)
-            soup = BeautifulSoup(lhtml, 'html.parser')
-            result_contents=soup.select('div[class="s-result-list"]')
-            for lists in result_contents:
-                doc=pq(str(lists))
-                listcontent=doc.find('div[class="result-content"]')
-                for litag in listcontent:
-                    try:
-                        lidoc=pq(litag)
-                        ahref=lidoc.find('a[class="text-ellipsis text-underline-hover"]').attr('href')
-                        durl=self.get_realurl(ahref)
-                        title=lidoc.find('a[class="text-ellipsis text-underline-hover"]').text().replace('\n','')
-                        source=lidoc.find('div[class="cs-view cs-view-flex align-items-center flex-row cs-source-content"]>span:nth-child(1)').text().replace('\n','')
-                        publishdate=lidoc.find('div[class="cs-view cs-view-flex align-items-center flex-row cs-source-content"]>span:last-child').text().replace('\n','')
-                        publishdate=self.paserTime(publishdate)
-                        if isinstance(publishdate, str):
-                            pubdate=publishdate
-                        else:
-                            pubdate=publishdate.strftime("%Y-%m-%d %H:%M:%S")
-                        is_member = self.r.sismember('pysouhunews_'+self.wordsCode, durl)
-                        if is_member:
-                            continue
-                        detailmsg={
-                            'title':title,
-                            'detailUrl':durl,
-                            'sourceTag':source,
-                            'publishTag':pubdate
-                        }
-                        self.detailList.put(detailmsg)
-                    except Exception as e:
-                        print(e)
+            qqerhtml=json.loads(lhtml)
+            qqerhtml=qqerhtml['dom']
+            # self.logger.info(f'列表页面信息:{lhtml}')
+            soup = BeautifulSoup(qqerhtml, 'html.parser')
+            listcontent=soup.select('div[style="opacity: 1;"]')
+            for litag in listcontent:
+                try:
+                    lidoc=pq(str(litag))
+                    ahref=lidoc.find('a[class="l-view block l-text line-clamp-2 color-darker font-medium l-header h3"]').attr('href')
+                    id=self.get_reitemid(ahref)
+                    durl=f'https://www.toutiao.com/article/{id}/?&source=m_redirect'
+                    title=lidoc.find('a[class="l-view block l-text line-clamp-2 color-darker font-medium l-header h3"]').text().replace('\n','')
+                    source=lidoc.find('div[class="l-source-text t3 l-source-min-width line-clamp-1 flex-shrink"]').text().replace('\n','')
+                    publishdate=lidoc.find('div[class="l-view block l-text-split flex-shrink-0 ml-8 color-default line-clamp-1 t3"]>span:last-child').text().replace('\n','')
+                    publishdate=self.paserTime(publishdate)
+                    if isinstance(publishdate, str):
+                        pubdate=publishdate
+                    else:
+                        pubdate=publishdate.strftime("%Y-%m-%d %H:%M:%S")
+                    is_member = self.r.sismember('pyjrttnews_'+self.wordsCode, durl)
+                    if is_member:
+                        self.logger.info(f"搜索列表的链接已经存在！")
                        continue
+                    detailmsg={
+                        'title':title,
+                        'detailUrl':durl,
+                        'sourceTag':source,
+                        'publishTag':pubdate
+                    }
+                    self.detailList.put(detailmsg)
+                except Exception as e:
+                    self.logger.info(f"搜索列表页异常{e}")
+                    continue

    # 获取详情页
    def get_detail_html(self):
@@ -331,12 +365,13 @@ class JrttnewsSpider(object):
                    detailmsg=self.detailList.get()
                    title = detailmsg['title']
                    detailUrl = detailmsg['detailUrl']
-                    print("%s:%s\n" % (title, detailUrl))
+                    self.logger.info(f"解析详情页标题{title},对应地址{detailUrl}")
                    bdetail=self.getDetailmsg(detailmsg)
+                    self.logger.info(f"解析详情页标题{title},获取的内容长度:{len(bdetail['content'])}")
                    processitem=self.getProcessitem(bdetail)
                    try:
-                        self.sendkafka(processitem)
-                        self.r.sadd('pysouhunews_'+self.wordsCode, processitem['sourceAddress'])
+                        # self.sendkafka(processitem)
+                        self.r.sadd('pyjrttnews_'+self.wordsCode, processitem['sourceAddress'])
                    except Exception as e:
                        self.logger.info("放入kafka失败！")
                    #插入数据库
@@ -356,6 +391,32 @@ class JrttnewsSpider(object):
                break
                # time.sleep(5)

+    def detailHtml(self,url):
+        headers2={
+            'Host':'www.toutiao.com',
+            'Connection':'keep-alive',
+            'Cache-Control':'max-age=0',
+            'sec-ch-ua':'"Google Chrome";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
+            'sec-ch-ua-mobile':'?0',
+            'sec-ch-ua-platform':'"Windows"',
+            'Upgrade-Insecure-Requests':'1',
+            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36',
+            'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
+            'Sec-Fetch-Site':'none',
+            'Sec-Fetch-Mode':'navigate',
+            'Sec-Fetch-User':'?1',
+            'Sec-Fetch-Dest':'document',
+            'Accept-Encoding':'gzip, deflate, br',
+            'Accept-Language':'zh-CN,zh;q=0.9',
+            'Cookie':'__ac_signature=_02B4Z6wo00f01SuLBAAAAIDBq4n-Qe9gRVkrrwCAAC.IVicycONgbbW4Hp1evBuF5zqe.dnjQEugXgwVyd-cpabxdL3lcaGCSJLRLtoGOCkqQ0IbU0NO3fW-0TKePlzULR8k5X1DEdqOUpR012; tt_webid=7289060865588020770; s_v_web_id=verify_lnn7ht77_cdKDYvaS_cmN9_4yyG_9pi3_XnOkAu8OxJTm; _ga=GA1.1.630929221.1697116750; local_city_cache=%E5%8C%97%E4%BA%AC; csrftoken=5c57e5aabc31ec2be5f6e40f904c90e8; _S_DPR=1; _S_IPAD=0; _S_WIN_WH=1366_619; msToken=3FJcx4aa5PuT2voafEIRXy1cMYZxEt9zwG9eMGR8srNIU5JajUVx2Ll5tyXJ1_-4Bcm7AfxV2Poyu72Xs2sn8ddk2xZ_a9HTzBFbIzkH; tt_scid=6uvTSx1f1NpCUjG--J4lV.Zb84w.xGWpBCJ.Xv4l-CWWm.CEODd3KFqFKpTFh-Gzdcc9; _ga_QEHZPBE5HH=GS1.1.1697771671.3.1.1697773330.0.0.0; ttwid=1%7CLK33CgR861OZhj9FEIYSUw5rJFx_KIgSNeQ_Wh6AoEM%7C1697773332%7C7d366a710996bbdf03cc49708454c67f8c50ba7864dbb17b544a76a1e06e7c7c'
+        }
+        try:
+            res=requests.get(url,headers=headers2,verify=False,timeout=10)
+            res.encoding='utf-8'
+            text=res.text
+        except Exception as e:
+            text=''
+        return text
    #解析详情
    def getDetailmsg(self,detailmsg):
        try:
@@ -423,17 +484,37 @@ class JrttnewsSpider(object):
        lang=self.detect_language(title)
        sm=SmartExtractor(lang)
        try:
-            driver=self.createDriver()
-            driver.get(url)
-            # 设置等待时间为10秒
-            wait = WebDriverWait(driver, 10)
-            # 等待元素加载完成
-            element = wait.until(EC.presence_of_element_located((By.TAG_NAME, "article")))
-            raw_html=driver.page_source
+            # raw_html=self.detailHtml(url)
+            # if raw_html:
+            #     self.logger.info(f"detailHtml请求的内容长度{len(raw_html)}")
+            #     self.logger.info(f"{raw_html}")
+            # else:
+            #     try:
+            #         driver=self.createDriver()
+            #         driver.get(url)
+            #         # 设置等待时间为10秒
+            #         wait = WebDriverWait(driver, 10)
+            #         # 等待元素加载完成
+            #         element = wait.until(EC.presence_of_element_located((By.CLASS_NAME, "article-meta")))
+            #         raw_html=driver.page_source
+            #     except Exception as e:
+            #         raw_html=''
+            try:
+                driver=self.createDriver()
+                driver.get(url)
+                # 设置等待时间为10秒
+                wait = WebDriverWait(driver, 10)
+                # 等待元素加载完成
+                element = wait.until(EC.presence_of_element_located((By.CLASS_NAME, "article-meta")))
+                raw_html=driver.page_source
+            except Exception as e:
+                raw_html=''
            if raw_html:
                try:
-                    soup=BeautifulSoup(raw_html,'html.parser')
-                    tdoc=soup.select('div[class="article-content"]>article')[0]
+                    soup = BeautifulSoup(raw_html, 'html.parser')
+                    # publishtime = soup.select('div[class="article-meta"]>span:nth-child(1)')[0].text
+                    # source = soup.select('div[class="article-meta"]>span:nth-child(3)')[0].text
+                    tdoc = soup.select('article')[0]
                    content=tdoc.text
                    contentWithTag=str(tdoc)
                except Exception as e:
@@ -443,6 +524,9 @@ class JrttnewsSpider(object):
                article=sm.extract_by_html(raw_html)
                content=article.cleaned_text
                contentWithTag=article.text
+
+
+
        except Exception as e:
            self.logger.info("抽取解析失败！")

@@ -492,7 +576,7 @@ class JrttnewsSpider(object):
        if content!='':
            processitem={
                "sid":self.sid,
-                "source":"5",
+                "source":"3",
                "title":bdetail['title'],
                "content":bdetail['content'],
                "contentWithtag":bdetail['contentHtml'],

--- a/jrtt1news_comm/jrttnewstaskJob_loc.py
+++ b/jrtt1news_comm/jrttnewstaskJob_loc.py
@@ -153,7 +153,36 @@ class JrttnewsTaskJob(object):
        try:
            jrttnewsSpider.get_page_html()
        except Exception as e:
-            logger.info('搜狗搜索异常'+searchkw)
+            logger.info('今日头条搜索异常'+searchkw)
+
+        if jrttnewsSpider.detailList.qsize() != 0:
+            try:
+                jrttnewsSpider.get_detail_html()
+            except Exception as e:
+                logger.info('详情解析异常'+searchkw)
+        logger.info("关键词采集结束！"+searchkw)
+
+    def lockwMsg(self):
+        kwList=[]
+        kwLstr='浙江银通典当有限责任公司|浙江省化工进出口有限公司|浙江省能源集团有限公司|浙江海港中奥能源有限责任公司|杭州香格里拉饭店有限公司|浙能集团新疆准东能源化工有限公司|温州衢化东南工贸有限公司|义乌产权交易所有限公司|温州机场集团有限公司|浙江浙能电力股份有限公司|浙江工程设计有限公司|浙江国信控股集团有限责任公司|浙江巨化集团进出口有限公司|上海盛东国际集装箱码头有限公司|衢州巨化房地产开发有限公司|浙江省空港融资租赁有限公司|浙江中旅商务会展有限公司|浙江海港集团财务有限公司|浙江浙能港口运营管理有限公司|浙江机场集团保安服务有限公司|新疆塔建三五九建工有限责任公司|浙江能源天然气集团有限公司|浙江华江科技股份有限公司|浙江浙能资产经营管理有限公司|浙江海港黄泽山油品储运有限公司|浙江浙旅投资有限责任公司|浙江海港海洋工程建设有限公司|浙江省能源集团财务有限责任公司|江西省赣浙能源有限公司|温州联合产权交易中心有限公司|浙江省通用航空产业发展有限公司|物产中大期货有限公司|浙江省富浙融资租赁有限公司|宁波机场集团有限公司|浙江省振兴乡村建设投资发展集团有限公司|浙江杭钢融资租赁有限公司|浙江国贸云商控股有限公司|浙江省农村实业发展有限公司|巨化控股有限公司|浙江省国际贸易集团有限公司|浙江机电职业技术学院|浙江头门港投资开发有限公司|伊犁新天煤化工有限责任公司|浙江省农村发展集团农产品有限公司|衢州巨化传媒有限公司|浙江机场投资有限责任公司|浙江中大元通融资租赁有限公司|巨化集团公司兴化实业有限公司|浙江新世纪期货有限公司|巨化集团有限公司|浙旅盛景资本投资有限公司|浙江省医疗健康集团有限公司|浙江歌瑞新材料有限公司|浙江省国贸集团资产经营有限公司|浙能资本控股有限公司|杭州萧山国际机场有限公司|浙江梅苑酒店管理有限公司|浙江国贸集团东方机电工程股份有限公司|上港集团平湖独山港码头有限公司|浙江巨化热电有限公司|浙江省粮食集团有限公司|宁波舟山港集团有限公司|浙江省纺织品进出口集团有限公司|浙江巨化物流有限公司|浙江建设技师学院|浙江杭州临空经济开发有限公司|浙江中大技术进出口集团有限公司|浙江省粮油食品进出口股份有限公司|浙江省石油股份有限公司|浙江空港培训服务咨询有限公司|浙江省机电集团有限公司|浙江省二轻集团有限责任公司|巨化集团上海融资租赁有限公司|浙江巨化股份有限公司|宁波航运交易所有限公司|浙江巨化投资有限公司|浙江省农村发展集团有限公司|浙江省国际贸易集团温州有限公司|浙江巨化化工矿业有限公司|浙江天虹物资贸易有限公司|浙江浙能兴源节能科技有限公司|浙江巨化装备工程集团有限公司|温州瑞平苍高速公路有限公司|上海巨化实业发展有限公司|浙能集团新疆准东煤业有限公司|浙江浙能煤运投资有限责任公司|浙江省新能源投资集团股份有限公司|浙江锦华新材料股份有限公司|浙旅湛景置业有限公司|浙江省交通投资集团财务有限责任公司|杭州钢铁集团有限公司|浙江巨化塑胶有限责任公司|浙江巨化信息技术有限公司|浙江新农都实业有限公司|浙江省万里教育集团|浙江长广（集团）有限责任公司|浙江海港资产管理有限公司|物产中大融资租赁集团有限公司|浙江浙能企业管理培训服务有限公司|浙江省海洋产业投资有限公司|浙江省交通投资集团有限公司|浙江轻工联非融资性担保有限公司|浙江省机场集团有限公司|浙江巨化汉正新材料有限公司|浙江海港内河港口发展有限公司|浙江外事旅游股份有限公司|浙江省浙商资产管理股份有限公司|浙江东方金融控股集团股份有限公司|浙江浙能技术研究院有限公司|浙江经济职业技术学院|浙江巨化清安检测科技有限公司|浙江省国有资本运营有限公司|浙江省土产畜产进出口集团有限公司|浙江巨化能源有限公司|浙江产权交易所有限公司|宁波海运集团有限公司|浙江省中国旅行社集团有限公司|杭州工商信托股份有限公司|浙江省衢州机场管理有限公司|浙江省旅游投资集团有限公司|巨化集团公司塑化厂|同煤浙能麻家梁煤业有限责任公司|浙江轻工联典当有限责任公司|浙江省海港投资运营集团有限公司|衢州衢化宾馆有限公司|舟山普陀山机场有限公司|深圳市巨化华南投资发展有限公司|浙江金华安邦护卫有限公司|浙江海港洋山投资开发有限公司|物产中大资本管理（浙江）有限公司|浙江南方工程咨询管理有限公司|黑龙江绿色农业发展集团有限公司|浙商财产保险股份有限公司|物产中大资产管理（浙江）有限公司|衢州氟硅技术研究院|招商局港口集团股份有限公司|浙江省台州机场管理有限公司|浙江省机电技师学院|巨化集团财务有限责任公司|浙江省电力建设有限公司|浙江省中医药健康产业集团有限公司|浙江巨化化工材料有限公司|浙江浙商金控有限公司|浙江富兴电力燃料有限公司|浙旅蝶来酒店集团有限公司|浙江英特集团股份有限公司|浙江省义乌机场管理有限公司|浙江省农都农产品有限公司|物产中大集团财务有限公司|宁波海运股份有限公司|浙江省建设投资集团股份有限公司|浙江菲达环保科技股份有限公司|浙江海正药业股份有限公司|物产中大集团股份有限公司|浙江运达风电股份有限公司|杭州钢铁股份有限公司|浙商中拓集团股份有限公司|勿忘农集团有限公司|浙江交通科技股份有限公司|巨化集团（香港）有限公司|香港泰纬国际贸易有限公司|浙江能源国际有限公司|常熟市国瑞科技股份有限公司|浙江镇洋发展股份有限公司|浙商银行股份有限公司|浙江物产环保能源股份有限公司|浙江诺和机电股份有限公司|浙江沪杭甬高速公路股份有限公司|宁波远洋运输股份有限公司|浙江大学控股集团有限公司|安邦护卫集团股份有限公司|浙江富建投资管理有限公司|浙江富浙科技有限公司|浙江富浙资产管理有限公司|浙江富浙资本管理有限公司|浙江富物资产管理有限公司|浙江省发展资产经营有限公司|浙江省环境科技有限公司|浙江省盐业集团有限公司|浙江省种业集团有限公司|浙江物产中大医药有限公司|浙江物产元通汽车集团有限公司|浙江物产实业控股（集团）有限公司|物产中大（浙江）产业投资有限公司|物产中大云商有限公司|物产中大元通实业集团有限公司|物产中大元通汽车有限公司|物产中大公用环境投资有限公司|物产中大化工集团有限公司|物产中大医疗健康投资有限公司|物产中大国际学院|物产中大数字科技有限公司|物产中大欧泰有限公司|物产中大物流投资集团有限公司|物产中大财智共享服务（浙江）有限公司|物产中大金属集团有限公司|物产中大金石集团有限公司|物产中大长乐林场有限公司|物产中大集团投资有限公司|南水北调（开化）水务有限公司|太仓中茵建设投资有限公司|安吉浙建投资有限公司|庆元县浙建项目管理有限公司|新昌县浙建投资管理有限公司|新疆阿拉尔上游水利水电工程有限责任公司|杭州财金未来社区股权投资合伙企业（有限合伙）|永嘉县浙建投资有限公司|浙建（兰溪）矿业有限公司|浙建项目管理（杭州）有限公司|浙江基建投资管理有限公司|浙江天台浙建环保科技有限公司|浙江建工建筑工程咨询有限公司|浙江建投创新科技有限公司|浙江建投发展房地产开发有限公司|浙江建投工程物资设备有限公司|浙江建投数字技术有限公司|浙江建投机械租赁有限公司|浙江建投环保工程有限公司|浙江建设商贸物流有限公司|浙江浙建云采贸易有限公司|浙江浙建实业发展有限公司|浙江浙建建筑设计有限公司|浙江浙建美丽乡村建设有限公司|浙江浙建钢结构有限公司|浙江省一建建设集团有限公司|浙江省二建建设集团有限公司|浙江省工业设备安装集团有限公司|浙江省建工集团有限责任公司|浙江省建投交通基础建设集团有限公司|浙江省建材集团有限公司|浙江省建设工程机械集团有限公司|浙江财金未来社区股权投资有限责任公司|衢州市衢江区浙建投资管理有限公司|长兴建图建设投资管理有限公司|长兴浙建投资有限公司|玉环市浙建城镇建设投资有限公司|绍兴市越城区浙建建设项目管理有限公司|绍兴市越城区浙建投资有限公司|苏州浙建地产发展有限公司|长兴浙建城镇建设有限公司|遂昌浙建投资有限公司|长兴浙永建设投资有限公司|阿拉尔浙建城市建设投资有限公司|浙江《机电工程》杂志社有限公司|浙江工匠培训有限公司|浙江康宁咨询服务有限公司|浙江新华体育器材制造有限公司|浙江机电华瑞航空投资有限公司|浙江机电集团投资有限公司|浙江新联民爆器材有限公司|浙江浙商金融服务有限公司|浙江省军工集团股份有限公司|浙江省工业矿产对外贸易有限责任公司|浙江省机电设计研究院有限公司|浙江蓝箭称重技术有限公司|浙江省机械设备进出口有限责任公司|浙江富浙投资有限公司|浙江海正集团有限公司|浙江五金矿产控股有限公司|浙江省医药保健品进出口有限责任公司|浙江省国兴进出口有限公司|浙江省国际贸易集团供应链有限公司|浙江省工艺品进出口有限公司|浙江经贸房地产公司|浙江英特药业有限责任公司|天台国大镕丰酒店管理有限公司|杭州千岛湖温馨岛娱乐旅游有限公司|杭州花港饭店|浙江《江南游报》社有限责任公司|浙江东菱酒店有限公司|杭州花港海航度假酒店有限公司|浙江国际大酒店有限公司|浙江旅游信息中心有限公司|浙江时代国际展览服务有限公司|浙江浙勤服务控股集团有限公司|浙江浙勤集团有限公司|浙江浙旅投数字科技有限公司|浙江省人才发展集团有限公司|浙江省古村落（传统村落）保护利用股权投资基金合伙企业（有限合伙）|浙江省国际投资服务中心有限公司|浙江省国际贸易展览有限公司|浙江省旅工贸有限责任公司|浙江雷迪森物业服务有限公司|浙江雷迪森酒店集团有限公司|舟山市普陀山银海饭店有限公司|雷迪森旅业集团有限公司|上海杭钢凯暄矿业投资有限公司|幸福之江资本运营有限公司|杭州杭钢合金钢铸造有限公司|杭州钢铁厂小型轧钢股份有限公司|浙江东菱商贸有限公司|浙江富春紫光环保股份有限公司|中杭监测技术研究院有限公司|杭州紫云能源综合利用开发有限公司|杭州紫元置业有限公司|浙江杭钢人力资源开发服务有限公司|浙江杭钢健康产业投资管理有限公司|浙江杭钢公管后勤服务有限公司|浙江杭钢动力有限公司|浙江杭钢商贸集团有限公司|浙江杭钢工贸有限公司|浙江杭钢数字科技有限公司|浙江杭钢智谷科技有限公司|浙江杭钢电炉炼钢有限公司|浙江杭钢职业教育集团有限公司|浙江杭钢高速线材有限公司|浙江省冶金研究院有限公司|浙江省工业设计研究院有限公司|浙江省环保集团有限公司|浙江省遂昌金矿有限公司|浙江紫汇资产管理有限公司|浙江紫臻物业管理服务有限公司|浙江钢联控股有限公司|温州杭钢水务有限公司|上海华山康健医疗有限公司|台州台信企业管理合伙企业（有限合伙）|浙江中天东方氟硅材料股份有限公司|浙江巨化环保科技有限公司|浙江巨柯私募基金管理有限公司|浙江巨荣石油化工销售有限公司|浙江晋巨化工有限公司|浙能巨化（浙江自贸区）股权投资基金合伙企业（有限合伙）|中核浙能能源有限公司|中海油绿能港浙江宁波能源有限公司|伊犁新矿煤业有限责任公司|内蒙古同煤鄂尔多斯矿业投资有限公司|国家管网集团浙江省天然气管网有限公司|浙江浙能产业研究院有限公司|浙江浙能物业发展有限公司|浙江浙能绿城体育文化发展有限公司|浙江省白马湖实验室有限公司|浙江职业足球俱乐部有限公司|嘉兴公路建设投资有限公司|嘉兴市嘉萧高速公路投资开发有限公司|德清县杭绕高速有限公司|杭州都市高速公路有限公司|浙商食品集团有限公司|浙江临金高速公路有限公司|浙江义东高速公路有限公司|浙江乐清湾高速公路有限公司|浙江交投交通建设管理有限公司|浙江交投太平交通基础设施股权投资基金（有限合伙）|浙江交投高速公路建设管理有限公司|浙江交投高速公路运营管理有限公司|浙江交通资源投资集团有限公司|浙江台州沈海高速公路有限公司|浙江台州甬台温高速公路有限公司|浙江宁波杭甬复线三期高速公路有限公司|浙江宁波甬台温高速公路有限公司|浙江数智交院科技股份有限公司|浙江景文高速公路有限公司|浙江杭宁高速公路有限责任公司|浙江杭宣高速公路有限公司|浙江杭新景高速公路有限公司|浙江杭海城际铁路有限公司|浙江杭温铁路有限公司|浙江杭甬复线宁波一期高速公路有限公司|浙江杭绍甬高速公路有限公司|浙江沪平盐铁路有限公司|浙江温州市域铁路一号线有限公司|浙江甬舟复线一期高速公路有限公司|浙江省交投控股集团有限公司|浙江省交通投资集团高速公路管理有限公司|浙江省商业集团有限公司|浙江省海运集团股份有限公司|浙江省经济建设投资有限公司|浙江省轨道交通建设管理集团有限公司|浙江省轨道交通运营管理集团有限公司|浙江省铁路发展控股集团有限责任公司|浙江省长三角投资有限公司|浙江舟山北向大通道有限公司|浙江衢丽铁路有限公司|浙江衢松铁路有限公司|浙江诸永高速公路有限公司|浙江路产城发展集团有限公司|浙江金华甬金衢上高速公路有限公司|浙江高信技术股份有限公司|浙江高速物流有限公司|温州市文泰高速公路有限公司|温州市瑞文高速公路有限公司|绍兴柯桥杭金衢联络线高速公路有限公司|金华市东永高速投资有限公司|东港投资发展集团有限公司|杭州农发原乡人农特产有限公司|杭州千岛湖鲟龙科技股份有限公司|浙江农发产业投资有限公司|浙江省现代农业研究会|芜湖信农硬科技投资合伙企业（有限合伙）|黑龙江亚欧牧业有限公司|浙江四港联动发展有限公司|浙江电子口岸有限公司|浙江空港商业经营管理有限责任公司|浙江空港数字科技有限公司|浙江空港资本控股有限公司|上海大宗商品仓单登记有限责任公司|宁波舟山港铁矿石储运有限公司|杭州港务集团有限公司|浙江中澳现代产业园有限公司|浙江义迪通供应链服务有限公司|浙江之迪控股有限公司|浙江海港国际联运有限公司|浙江海港大宗商品交易中心有限公司|浙江海港引航服务有限公司|浙江船舶交易市场有限公司|杭州富格企业管理合伙企业（有限合伙）|杭州松下马达有限公司|汇孚集团有限公司|浙江信联钢铁有限公司|浙江广杰投资管理有限公司|浙江建设融资租赁有限公司|浙江杰尚投资管理有限公司|浙江申达塑料机械有限公司|浙江申达机器制造股份有限公司|浙江省二轻供销总公司|浙江省二轻商业经营管理有限公司|浙江省二轻房地产开发有限公司|浙江省工美控股有限公司|浙江省工艺美术研究院有限公司|浙江省皮革塑料有限公司|浙江省艺创投资发展股份有限公司|浙江省艺创文旅发展有限公司|安邦护卫（浙江）公共安全智慧科技有限公司|浙江丽水安邦护卫有限公司|浙江台州安邦护卫有限公司|浙江嘉兴安邦护卫有限公司|浙江宁波安邦护卫有限公司|浙江安邦护卫安全服务有限公司|浙江安邦护卫科技服务有限公司|浙江杭州安邦护卫有限公司|浙江温州安邦护卫有限公司|浙江湖州安邦护卫有限公司|浙江绍兴安邦护卫有限公司|浙江舟山安邦护卫有限公司|浙江衢州安邦护卫有限公司|上海浙大科技发展有限公司|杭州启真未来创新股权投资合伙企业（有限合伙）|杭州浙大动物医院有限公司|杭州浙大文化创意发展有限公司|杭州紫金港未来创新投资合伙企业（有限合伙）|杭州网新信息控股有限公司|杭州西投启真脑机智能产业运营有限公司|浙江启真人才发展有限公司|浙江大学农业科技园有限公司|浙江大学创新技术研究院有限公司|浙江大学城乡规划设计研究院有限公司|浙江大学杭州国际科创中心发展有限公司|浙江大学科技园发展有限公司|浙江大学能源工程设计研究院有限公司|浙江浙大列车智能化工程技术研究中心有限公司|浙江浙大圆正科技创新服务有限公司|浙江浙大新宇物业集团有限公司|浙江浙大科创集团有限公司|浙江浙大西投脑机智能科技有限公司|浙江钱塘机器人及智能装备研究有限公司|丽水市廉合产权交易有限公司|北京中产智合咨询服务中心（有限合伙）|北京金马甲产权网络交易有限公司|台州市产权交易所有限公司|嘉兴市产权交易有限公司|湖州市联合产权交易有限公司|绍兴市产权交易有限公司|舟山市产权交易中心有限责任公司|衢州市产权交易中心有限公司|浙江省三建建设集团有限公司|'
+        kwL=kwLstr.split('|')
+        for kk in kwL:
+            kwmsg={
+                'kw':kk,
+                'wordsCode':'jrtt',
+                'sid':'1020'
+            }
+            kwList.append(kwmsg)
+        return kwList
+    def runLocSpider(self,kwmsg):
+        searchkw=kwmsg['kw']
+        wordsCode=kwmsg['wordsCode']
+        sid=kwmsg['sid']
+        jrttnewsSpider=JrttnewsSpider(searchkw,wordsCode,sid)
+        try:
+            jrttnewsSpider.get_page_html()
+        except Exception as e:
+            logger.info('今日头条搜索异常'+searchkw)

        if jrttnewsSpider.detailList.qsize() != 0:
            try:
@@ -166,8 +195,7 @@ if __name__ == '__main__':
    jrttnewsTaskJob=JrttnewsTaskJob()
    baseCore=BaseCore()
    logger=baseCore.getLogger()
-    # ss='(中国机床工具工业协会|中国内燃机工业协会|中国机电工业价格协会|中国机械电子兵器船舶工业档案学会|中国仪器仪表行业协会|中国工程机械工业协会|中国文化办公设备制造行业协会|中国机械工业金属切削刀具技术协会|中国机械工业教育协会|中国汽车工业协会|中国机械通用零部件工业协会|中国环保机械行业协会|中国模具工业协会|中国机械工业勘察设计协会|中国机械制造工艺协会|中国机械工业审计学会|中国轴承工业协会|中国机电一体化技术应用协会|中国机械工程学会|中国液压气动密封件工业协会|中国铸造协会|中国通用机械工业协会|中国锻压协会|中国制冷空调工业协会|中国热处理行业协会|中国电工技术学会|中国仪器仪表学会|中国石油和石油化工设备工业协会|中国表面工程协会|中国食品和包装机械工业协会|中国焊接协会|中国汽车工程学会|中国塑料机械工业协会|中国机械工业企业管理协会|中国印刷及设备器材工业协会|中国机械工业质量管理协会|中国电器工业协会|中国机械工业安全卫生协会|中国重型机械工业协会|中国机械工业标准化技术协会|中国机械工业职工思想政治工作研究会|中国农业机械工业协会|中国机电装备维修与改造技术协会 |机械工业信息研究院|机械工业教育发展中心|机械工业经济管理研究院|机械工业信息中心|机械工业人才开发服务中心|机械工业北京电工技术经济研究所|机械工业技术发展基金会|机械工业哈尔滨焊接技术培训中心|机械工业仪器仪表综合技术经济研究所)+(私收会费|私吞|肆意牟利|损失浪费|索贿|贪财|贪官污吏|贪污|违背组织原则|违法|违纪|为官不廉|为政擅权|窝案|舞弊|泄露国家机密|信鬼神|性关系|虚假信息|虚假招标|隐瞒不报|隐瞒真相|营私|鬻爵|主动投案|资产流失|钻空子|钻漏洞|被调查|被双开|不担当|不老实|不良影响|不正当|不作为|超标准建设|超标准装修|吃空饷|吃拿卡要|渎职|对党不忠诚|非法批地|腐败|腐虫|腐化堕落|公车私用|公费开销|公款吃喝|公款出境|公款旅游|勾结|官迷心窍|好色|回扣|贿赂|挤占挪用|纪律审查|监察调查|监守自盗|践踏法律|接受审查调查|截留克扣|开除党籍|开除公职|抗议|利欲熏心|敛财|乱摊派|乱作为|落马|落网|买官|买卖审批权限|卖官|谋取暴利|谋取私利|目无法纪|幕后交易|弄虚作假|挪用公款|骗取|钱色交易|潜规则|侵害权益|侵吞公款|侵占挪用|圈子文化|权利扭曲|权钱交易|权色交易|山头主义|涉案|生活糜烂|生活奢靡|失察|失管|收送|受贿|双规|双开|私分|私人会所|私设小金库|负面|下降|违规|不利|亏损|上诉|不法|不良名单|停职|公开谴责|公诉|内幕交易|刑事拘留|刑事责任|刑拘|判决|判刑|判赔|司法处置|合同纠纷|处分|处罚|强制执行|仲裁|伪造|伪造公章|投案|投诉|拘留|接受调查|控诉|查封|涉嫌|涉诉监察调查|纠纷|经营异常名录|缉捕|罚单|罚款|罚金|罪犯|自首|获刑|行贿|警示函|贪腐|违约金|追究刑责|造假|逮捕|非法|非法集资判决书|申诉|纠纷|通报|开除|留党察看|追债|逃债|资产负债率|情色交易|搞权钱|曝光|黑料|重罚|虚假报告|侵犯)'
-    # keymsglist=baiduTaskJob.getkeywords(ss)
+    # keymsglist=jrttnewsTaskJob.lockwMsg()
    # print(keymsglist)
    # 创建Redis连接

@@ -175,11 +203,13 @@ if __name__ == '__main__':
    while True:
        try:
            codeList=[]
-            codeList.append('KW-20220602-0003')
+            codeList.append('KW-20231013-0001')
+
            for codeid in codeList:
                try:
-                    keymsg=jrttnewsTaskJob.getkeyFromredis(codeid)
-                    kwList=jrttnewsTaskJob.paserKeyMsg(keymsg)
+                    # keymsg=jrttnewsTaskJob.getkeyFromredis(codeid)
+                    # kwList=jrttnewsTaskJob.paserKeyMsg(keymsg)
+                    kwList=jrttnewsTaskJob.lockwMsg()
                    if len(kwList)<1:
                        continue
                    logger.info(f"需要搜索的关键词:{kwList}")

--- a/jrtt1news_comm/jrtttest.py
+++ b/jrtt1news_comm/jrtttest.py
+import requests
+import json
+from openpyxl import Workbook
+import time
+import hashlib
+import os
+import datetime
+#可能不一样
+start_url = 'https://www.toutiao.com/api/pc/feed/?min_behot_time=0&category=news_hot&utm_source=toutiao&widen=1&max_behot_time='
+url = 'https://www.toutiao.com'
+
+headers={
+    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
+}
+cookies = {''} # 此处cookies可从浏览器中查找，为了避免被头条禁止爬虫
+
+max_behot_time = '0'   # 链接参数
+title = []       # 存储新闻标题
+source_url = []  # 存储新闻的链接
+s_url = []       # 存储新闻的完整链接
+source = []      # 存储发布新闻的公众号
+media_url = {}   # 存储公众号的完整链接
+
+
+def get_as_cp():  # 该函数主要是为了获取as和cp参数，程序参考今日头条中的加密js文件：home_4abea46.js
+    zz = {}
+    now = round(time.time())
+    print(now) # 获取当前计算机时间
+    e = hex(int(now)).upper()[2:] #hex()转换一个整数对象为16进制的字符串表示
+    print('e:', e)
+    a = hashlib.md5()  #hashlib.md5().hexdigest()创建hash对象并返回16进制结果
+    print('a:', a)
+    a.update(str(int(now)).encode('utf-8'))
+    i = a.hexdigest().upper()
+    print('i:', i)
+    if len(e)!=8:
+        zz = {'as':'479BB4B7254C150',
+              'cp':'7E0AC8874BB0985'}
+        return zz
+    n = i[:5]
+    a = i[-5:]
+    r = ''
+    s = ''
+    for i in range(5):
+        s= s+n[i]+e[i]
+    for j in range(5):
+        r = r+e[j+3]+a[j]
+    zz ={
+        'as':'A1'+s+e[-3:],
+        'cp':e[0:3]+r+'E1'
+    }
+    print('zz:', zz)
+    return zz
+
+
+def getdata(url, headers, cookies):  # 解析网页函数
+    r = requests.get(url, headers=headers, cookies=cookies)
+    print(url)
+    data = json.loads(r.text)
+    return data
+
+
+def savedata(title, s_url, source, media_url):  # 存储数据到文件
+    # 存储数据到xlxs文件
+    wb = Workbook()
+    if not os.path.isdir(os.getcwd()+'/result'):   # 判断文件夹是否存在
+        os.makedirs(os.getcwd()+'/result') # 新建存储文件夹
+    filename = os.getcwd()+'/result/result-'+datetime.datetime.now().strftime('%Y-%m-%d-%H-%m')+'.xlsx' # 新建存储结果的excel文件
+    ws = wb.active
+    ws.title = 'data'   # 更改工作表的标题
+    ws['A1'] = '标题'   # 对表格加入标题
+    ws['B1'] = '新闻链接'
+    ws['C1'] = '头条号'
+    ws['D1'] = '头条号链接'
+    for row in range(2, len(title)+2):   # 将数据写入表格
+        _= ws.cell(column=1, row=row, value=title[row-2])
+        _= ws.cell(column=2, row=row, value=s_url[row-2])
+        _= ws.cell(column=3, row=row, value=source[row-2])
+        _= ws.cell(column=4, row=row, value=media_url[source[row-2]])
+
+    wb.save(filename=filename)  # 保存文件
+
+
+
+def main(max_behot_time, title, source_url, s_url, source, media_url):   # 主函数
+    for i in range(3):   # 此处的数字类似于你刷新新闻的次数，正常情况下刷新一次会出现10条新闻，但夜存在少于10条的情况；所以最后的结果并不一定是10的倍数
+        ##--------------------------------------------
+        #这一部分就是url的组成部分肯定和今年不一样了，然后获取到的json文件的处理后面基本不难，就是分离出相应的参数
+        ascp = get_as_cp()    # 获取as和cp参数的函数
+        demo = getdata(start_url+max_behot_time+'&max_behot_time_tmp='+max_behot_time+'&tadrequire=true&as='+ascp['as']+'&cp='+ascp['cp'], headers, cookies)
+        ##------------------------------------------
+        print(demo)
+        # time.sleep(1)
+        for j in range(len(demo['data'])):
+            # print(demo['data'][j]['title'])
+            if demo['data'][j]['title'] not in title:
+                title.append(demo['data'][j]['title'])  # 获取新闻标题
+                source_url.append(demo['data'][j]['source_url'])  # 获取新闻链接
+                source.append(demo['data'][j]['source'])  # 获取发布新闻的公众号
+            if demo['data'][j]['source'] not in media_url:
+                media_url[demo['data'][j]['source']] = url+demo['data'][j]['media_url']  # 获取公众号链接
+        print(max_behot_time)
+        max_behot_time = str(demo['next']['max_behot_time'])  # 获取下一个链接的max_behot_time参数的值
+        for index in range(len(title)):
+            print('标题：', title[index])
+            if 'https' not in source_url[index]:
+                s_url.append(url+source_url[index])
+                print('新闻链接：', url+source_url[index])
+            else:
+                print('新闻链接：', source_url[index])
+                s_url.append(source_url[index])
+                # print('源链接：', url+source_url[index])
+            print('头条号：', source[index])
+            print(len(title))   # 获取的新闻数量
+
+if __name__ == '__main__':
+    main(max_behot_time, title, source_url, s_url, source, media_url)
+    savedata(title, s_url, source, media_url)
--- a/qqnews_comm/baseCore.py
+++ b/qqnews_comm/baseCore.py
@@ -215,7 +215,7 @@ class BaseCore:
        except :
            pass
    def __init__(self):
-        self.__cnx_proxy = pymysql.connect(host='114.115.159.144', user='caiji', password='zzsn9988', db='clb_project',
+        self.__cnx_proxy = pymysql.connect(host='114.115.159.144', user='caiji', password='zzsn9988', db='caiji',
                                           charset='utf8mb4')
        self.__cursor_proxy= self.__cnx_proxy.cursor()
        pass
@@ -310,27 +310,28 @@ class BaseCore:
            proxy_list.append(proxy)
        return proxy_list[random.randint(0, 3)]

-    def get_proxy(self):
-        ip_list = []
-        with self.__cursor_proxy as cursor:
-            sql_str = '''select PROXY from clb_proxy where id={} '''.format(random.randint(1, 12))
-            print(sql_str)
-            cursor.execute(sql_str)
-            rows = cursor.fetchall()
-            for row in tqdm(rows):
-                str_ip = row[0]
-                str_ip_list = str_ip.split('-')
-                proxyMeta = "http://%(host)s:%(port)s" % {
-                    "host": str_ip_list[0],
-                    "port": str_ip_list[1],
-                }
-                proxy = {
-                    "HTTP": proxyMeta,
-                    "HTTPS": proxyMeta
-                }
-                ip_list.append(proxy)
+    # def get_proxy(self):
+    #     ip_list = []
+    #     with self.__cursor_proxy as cursor:
+    #         sql_str = '''select PROXY from clb_proxy where id={} '''.format(random.randint(1, 12))
+    #         print(sql_str)
+    #         cursor.execute(sql_str)
+    #         rows = cursor.fetchall()
+    #         for row in tqdm(rows):
+    #             str_ip = row[0]
+    #             str_ip_list = str_ip.split('-')
+    #             proxyMeta = "http://%(host)s:%(port)s" % {
+    #                 "host": str_ip_list[0],
+    #                 "port": str_ip_list[1],
+    #             }
+    #             proxy = {
+    #                 "HTTP": proxyMeta,
+    #                 "HTTPS": proxyMeta
+    #             }
+    #             ip_list.append(proxy)
+    #
+    #     return  ip_list

-        return  ip_list
    def get_proxyIPPort(self):
        ip_list = []
        with self.__cursor_proxy as cursor:

--- a/qqnews_comm/qqnewspider.py
+++ b/qqnews_comm/qqnewspider.py
@@ -23,6 +23,9 @@ from smart_extractor import SmartExtractor
 from selenium.webdriver.chrome.service import Service
 from selenium import webdriver
 from urllib.parse import quote, unquote
+from requests.packages import urllib3
+import traceback
+urllib3.disable_warnings()

 class QQnewsSpider(object):

@@ -46,7 +49,7 @@ class QQnewsSpider(object):
        self.wordsCode = wordsCode
        self.sid = sid

-    #将列表数据插入到表中 baidu_search_result
+    #将列表数据插入到表中 meta_search_result
    def itemInsertToTable(self,items):
        try:
            itemdata=[]
@@ -56,7 +59,7 @@ class QQnewsSpider(object):
                data=(self.sid,self.wordsCode,item['title'],item['detailurl'],item['source'],item['publishtime'],item['content'],item['contentHtml'],'1',item['kword'],nowtime)
                itemdata.append(data)

-            sql ="INSERT into baidu_search_result (sid,wordsCode,title,detailurl,origin,publishdate,content,content_with_tag,state,keyword,create_time) VALUES (%s, %s,%s, %s, %s, %s, %s, %s, %s, %s, %s)"
+            sql ="INSERT into meta_search_result (sid,wordsCode,title,detailurl,origin,publishdate,content,content_with_tag,state,keyword,create_time) VALUES (%s, %s,%s, %s, %s, %s, %s, %s, %s, %s, %s)"
            cursorM.executemany(sql, itemdata)
            self.logger.info("数据插入数据库成功！")
            # 定义插入数据的SQL语句
@@ -257,6 +260,7 @@ class QQnewsSpider(object):
            res.encoding='utf-8'
            text=res.text
        except Exception as e:
+            traceback.print_exc()
            text=''
        return text

@@ -279,7 +283,7 @@ class QQnewsSpider(object):
    def get_page_html(self):
        #设置采集列表页面和页数
        url='https://i.news.qq.com/gw/pc_search/result'
-        totalnum=3
+        totalnum=5
        keyword=self.searchkw
        # keyword='浙江国有资本运营公司'
        for pagenum in range(0,totalnum):
@@ -318,7 +322,7 @@ class QQnewsSpider(object):
                    bdetail=self.getDetailmsg(detailmsg)
                    processitem=self.getProcessitem(bdetail)
                    try:
-                        self.sendkafka(processitem)
+                        # self.sendkafka(processitem)
                        self.r.sadd('pyqqnews_'+self.wordsCode, processitem['sourceAddress'])
                    except Exception as e:
                        self.logger.info("放入kafka失败！")
@@ -422,8 +426,7 @@ class QQnewsSpider(object):
        sm=SmartExtractor(lang)
        try:
            raw_html=self.reqHtml(url)
-
-
+            # raw_html=''
            if raw_html:
                try:
                    soup=BeautifulSoup(raw_html,'html.parser')
@@ -439,8 +442,10 @@ class QQnewsSpider(object):
                content=article.cleaned_text
                contentWithTag=article.text
            if content:
+                self.logger.info("req请求成功！")
                return  content,contentWithTag
            try:
+                self.logger.info("打开模拟浏览器")
                raw_html=self.webDriver(url)
                if raw_html:
                    try:
@@ -451,6 +456,7 @@ class QQnewsSpider(object):
                    except Exception as e:
                        self.logger.info("定位解析失败！")
                if content:
+                    self.logger.info("模拟浏览器抽取成功！")
                    return  content,contentWithTag

                sm=SmartExtractor(lang)

--- a/qqnews_comm/qqnewstaskJob_comm.py
+++ b/qqnews_comm/qqnewstaskJob_comm.py
@@ -168,7 +168,7 @@ class QQnewsTaskJob(object):
            try:
                qqnewsSpider.get_page_html()
            except Exception as e:
-                logger.info('搜狗搜索异常'+searchkw)
+                logger.info('腾讯新闻搜索异常'+searchkw)

        if qqnewsSpider.detailList.qsize() != 0:
            try:

--- a/qqnews_comm/qqnewstaskJob_loc.py
+++ b/qqnews_comm/qqnewstaskJob_loc.py
@@ -161,7 +161,35 @@ class QQnewsTaskJob(object):
            except Exception as e:
                logger.info('详情解析异常'+searchkw)
        logger.info("关键词采集结束！"+searchkw)
-import random
+
+    def lockwMsg(self):
+        kwList=[]
+        kwLstr='浙江银通典当有限责任公司|浙江省化工进出口有限公司|浙江省能源集团有限公司|浙江海港中奥能源有限责任公司|杭州香格里拉饭店有限公司|浙能集团新疆准东能源化工有限公司|温州衢化东南工贸有限公司|义乌产权交易所有限公司|温州机场集团有限公司|浙江浙能电力股份有限公司|浙江工程设计有限公司|浙江国信控股集团有限责任公司|浙江巨化集团进出口有限公司|上海盛东国际集装箱码头有限公司|衢州巨化房地产开发有限公司|浙江省空港融资租赁有限公司|浙江中旅商务会展有限公司|浙江海港集团财务有限公司|浙江浙能港口运营管理有限公司|浙江机场集团保安服务有限公司|新疆塔建三五九建工有限责任公司|浙江能源天然气集团有限公司|浙江华江科技股份有限公司|浙江浙能资产经营管理有限公司|浙江海港黄泽山油品储运有限公司|浙江浙旅投资有限责任公司|浙江海港海洋工程建设有限公司|浙江省能源集团财务有限责任公司|江西省赣浙能源有限公司|温州联合产权交易中心有限公司|浙江省通用航空产业发展有限公司|物产中大期货有限公司|浙江省富浙融资租赁有限公司|宁波机场集团有限公司|浙江省振兴乡村建设投资发展集团有限公司|浙江杭钢融资租赁有限公司|浙江国贸云商控股有限公司|浙江省农村实业发展有限公司|巨化控股有限公司|浙江省国际贸易集团有限公司|浙江机电职业技术学院|浙江头门港投资开发有限公司|伊犁新天煤化工有限责任公司|浙江省农村发展集团农产品有限公司|衢州巨化传媒有限公司|浙江机场投资有限责任公司|浙江中大元通融资租赁有限公司|巨化集团公司兴化实业有限公司|浙江新世纪期货有限公司|巨化集团有限公司|浙旅盛景资本投资有限公司|浙江省医疗健康集团有限公司|浙江歌瑞新材料有限公司|浙江省国贸集团资产经营有限公司|浙能资本控股有限公司|杭州萧山国际机场有限公司|浙江梅苑酒店管理有限公司|浙江国贸集团东方机电工程股份有限公司|上港集团平湖独山港码头有限公司|浙江巨化热电有限公司|浙江省粮食集团有限公司|宁波舟山港集团有限公司|浙江省纺织品进出口集团有限公司|浙江巨化物流有限公司|浙江建设技师学院|浙江杭州临空经济开发有限公司|浙江中大技术进出口集团有限公司|浙江省粮油食品进出口股份有限公司|浙江省石油股份有限公司|浙江空港培训服务咨询有限公司|浙江省机电集团有限公司|浙江省二轻集团有限责任公司|巨化集团上海融资租赁有限公司|浙江巨化股份有限公司|宁波航运交易所有限公司|浙江巨化投资有限公司|浙江省农村发展集团有限公司|浙江省国际贸易集团温州有限公司|浙江巨化化工矿业有限公司|浙江天虹物资贸易有限公司|浙江浙能兴源节能科技有限公司|浙江巨化装备工程集团有限公司|温州瑞平苍高速公路有限公司|上海巨化实业发展有限公司|浙能集团新疆准东煤业有限公司|浙江浙能煤运投资有限责任公司|浙江省新能源投资集团股份有限公司|浙江锦华新材料股份有限公司|浙旅湛景置业有限公司|浙江省交通投资集团财务有限责任公司|杭州钢铁集团有限公司|浙江巨化塑胶有限责任公司|浙江巨化信息技术有限公司|浙江新农都实业有限公司|浙江省万里教育集团|浙江长广（集团）有限责任公司|浙江海港资产管理有限公司|物产中大融资租赁集团有限公司|浙江浙能企业管理培训服务有限公司|浙江省海洋产业投资有限公司|浙江省交通投资集团有限公司|浙江轻工联非融资性担保有限公司|浙江省机场集团有限公司|浙江巨化汉正新材料有限公司|浙江海港内河港口发展有限公司|浙江外事旅游股份有限公司|浙江省浙商资产管理股份有限公司|浙江东方金融控股集团股份有限公司|浙江浙能技术研究院有限公司|浙江经济职业技术学院|浙江巨化清安检测科技有限公司|浙江省国有资本运营有限公司|浙江省土产畜产进出口集团有限公司|浙江巨化能源有限公司|浙江产权交易所有限公司|宁波海运集团有限公司|浙江省中国旅行社集团有限公司|杭州工商信托股份有限公司|浙江省衢州机场管理有限公司|浙江省旅游投资集团有限公司|巨化集团公司塑化厂|同煤浙能麻家梁煤业有限责任公司|浙江轻工联典当有限责任公司|浙江省海港投资运营集团有限公司|衢州衢化宾馆有限公司|舟山普陀山机场有限公司|深圳市巨化华南投资发展有限公司|浙江金华安邦护卫有限公司|浙江海港洋山投资开发有限公司|物产中大资本管理（浙江）有限公司|浙江南方工程咨询管理有限公司|黑龙江绿色农业发展集团有限公司|浙商财产保险股份有限公司|物产中大资产管理（浙江）有限公司|衢州氟硅技术研究院|招商局港口集团股份有限公司|浙江省台州机场管理有限公司|浙江省机电技师学院|巨化集团财务有限责任公司|浙江省电力建设有限公司|浙江省中医药健康产业集团有限公司|浙江巨化化工材料有限公司|浙江浙商金控有限公司|浙江富兴电力燃料有限公司|浙旅蝶来酒店集团有限公司|浙江英特集团股份有限公司|浙江省义乌机场管理有限公司|浙江省农都农产品有限公司|物产中大集团财务有限公司|宁波海运股份有限公司|浙江省建设投资集团股份有限公司|浙江菲达环保科技股份有限公司|浙江海正药业股份有限公司|物产中大集团股份有限公司|浙江运达风电股份有限公司|杭州钢铁股份有限公司|浙商中拓集团股份有限公司|勿忘农集团有限公司|浙江交通科技股份有限公司|巨化集团（香港）有限公司|香港泰纬国际贸易有限公司|浙江能源国际有限公司|常熟市国瑞科技股份有限公司|浙江镇洋发展股份有限公司|浙商银行股份有限公司|浙江物产环保能源股份有限公司|浙江诺和机电股份有限公司|浙江沪杭甬高速公路股份有限公司|宁波远洋运输股份有限公司|浙江大学控股集团有限公司|安邦护卫集团股份有限公司|浙江富建投资管理有限公司|浙江富浙科技有限公司|浙江富浙资产管理有限公司|浙江富浙资本管理有限公司|浙江富物资产管理有限公司|浙江省发展资产经营有限公司|浙江省环境科技有限公司|浙江省盐业集团有限公司|浙江省种业集团有限公司|浙江物产中大医药有限公司|浙江物产元通汽车集团有限公司|浙江物产实业控股（集团）有限公司|物产中大（浙江）产业投资有限公司|物产中大云商有限公司|物产中大元通实业集团有限公司|物产中大元通汽车有限公司|物产中大公用环境投资有限公司|物产中大化工集团有限公司|物产中大医疗健康投资有限公司|物产中大国际学院|物产中大数字科技有限公司|物产中大欧泰有限公司|物产中大物流投资集团有限公司|物产中大财智共享服务（浙江）有限公司|物产中大金属集团有限公司|物产中大金石集团有限公司|物产中大长乐林场有限公司|物产中大集团投资有限公司|南水北调（开化）水务有限公司|太仓中茵建设投资有限公司|安吉浙建投资有限公司|庆元县浙建项目管理有限公司|新昌县浙建投资管理有限公司|新疆阿拉尔上游水利水电工程有限责任公司|杭州财金未来社区股权投资合伙企业（有限合伙）|永嘉县浙建投资有限公司|浙建（兰溪）矿业有限公司|浙建项目管理（杭州）有限公司|浙江基建投资管理有限公司|浙江天台浙建环保科技有限公司|浙江建工建筑工程咨询有限公司|浙江建投创新科技有限公司|浙江建投发展房地产开发有限公司|浙江建投工程物资设备有限公司|浙江建投数字技术有限公司|浙江建投机械租赁有限公司|浙江建投环保工程有限公司|浙江建设商贸物流有限公司|浙江浙建云采贸易有限公司|浙江浙建实业发展有限公司|浙江浙建建筑设计有限公司|浙江浙建美丽乡村建设有限公司|浙江浙建钢结构有限公司|浙江省一建建设集团有限公司|浙江省二建建设集团有限公司|浙江省工业设备安装集团有限公司|浙江省建工集团有限责任公司|浙江省建投交通基础建设集团有限公司|浙江省建材集团有限公司|浙江省建设工程机械集团有限公司|浙江财金未来社区股权投资有限责任公司|衢州市衢江区浙建投资管理有限公司|长兴建图建设投资管理有限公司|长兴浙建投资有限公司|玉环市浙建城镇建设投资有限公司|绍兴市越城区浙建建设项目管理有限公司|绍兴市越城区浙建投资有限公司|苏州浙建地产发展有限公司|长兴浙建城镇建设有限公司|遂昌浙建投资有限公司|长兴浙永建设投资有限公司|阿拉尔浙建城市建设投资有限公司|浙江《机电工程》杂志社有限公司|浙江工匠培训有限公司|浙江康宁咨询服务有限公司|浙江新华体育器材制造有限公司|浙江机电华瑞航空投资有限公司|浙江机电集团投资有限公司|浙江新联民爆器材有限公司|浙江浙商金融服务有限公司|浙江省军工集团股份有限公司|浙江省工业矿产对外贸易有限责任公司|浙江省机电设计研究院有限公司|浙江蓝箭称重技术有限公司|浙江省机械设备进出口有限责任公司|浙江富浙投资有限公司|浙江海正集团有限公司|浙江五金矿产控股有限公司|浙江省医药保健品进出口有限责任公司|浙江省国兴进出口有限公司|浙江省国际贸易集团供应链有限公司|浙江省工艺品进出口有限公司|浙江经贸房地产公司|浙江英特药业有限责任公司|天台国大镕丰酒店管理有限公司|杭州千岛湖温馨岛娱乐旅游有限公司|杭州花港饭店|浙江《江南游报》社有限责任公司|浙江东菱酒店有限公司|杭州花港海航度假酒店有限公司|浙江国际大酒店有限公司|浙江旅游信息中心有限公司|浙江时代国际展览服务有限公司|浙江浙勤服务控股集团有限公司|浙江浙勤集团有限公司|浙江浙旅投数字科技有限公司|浙江省人才发展集团有限公司|浙江省古村落（传统村落）保护利用股权投资基金合伙企业（有限合伙）|浙江省国际投资服务中心有限公司|浙江省国际贸易展览有限公司|浙江省旅工贸有限责任公司|浙江雷迪森物业服务有限公司|浙江雷迪森酒店集团有限公司|舟山市普陀山银海饭店有限公司|雷迪森旅业集团有限公司|上海杭钢凯暄矿业投资有限公司|幸福之江资本运营有限公司|杭州杭钢合金钢铸造有限公司|杭州钢铁厂小型轧钢股份有限公司|浙江东菱商贸有限公司|浙江富春紫光环保股份有限公司|中杭监测技术研究院有限公司|杭州紫云能源综合利用开发有限公司|杭州紫元置业有限公司|浙江杭钢人力资源开发服务有限公司|浙江杭钢健康产业投资管理有限公司|浙江杭钢公管后勤服务有限公司|浙江杭钢动力有限公司|浙江杭钢商贸集团有限公司|浙江杭钢工贸有限公司|浙江杭钢数字科技有限公司|浙江杭钢智谷科技有限公司|浙江杭钢电炉炼钢有限公司|浙江杭钢职业教育集团有限公司|浙江杭钢高速线材有限公司|浙江省冶金研究院有限公司|浙江省工业设计研究院有限公司|浙江省环保集团有限公司|浙江省遂昌金矿有限公司|浙江紫汇资产管理有限公司|浙江紫臻物业管理服务有限公司|浙江钢联控股有限公司|温州杭钢水务有限公司|上海华山康健医疗有限公司|台州台信企业管理合伙企业（有限合伙）|浙江中天东方氟硅材料股份有限公司|浙江巨化环保科技有限公司|浙江巨柯私募基金管理有限公司|浙江巨荣石油化工销售有限公司|浙江晋巨化工有限公司|浙能巨化（浙江自贸区）股权投资基金合伙企业（有限合伙）|中核浙能能源有限公司|中海油绿能港浙江宁波能源有限公司|伊犁新矿煤业有限责任公司|内蒙古同煤鄂尔多斯矿业投资有限公司|国家管网集团浙江省天然气管网有限公司|浙江浙能产业研究院有限公司|浙江浙能物业发展有限公司|浙江浙能绿城体育文化发展有限公司|浙江省白马湖实验室有限公司|浙江职业足球俱乐部有限公司|嘉兴公路建设投资有限公司|嘉兴市嘉萧高速公路投资开发有限公司|德清县杭绕高速有限公司|杭州都市高速公路有限公司|浙商食品集团有限公司|浙江临金高速公路有限公司|浙江义东高速公路有限公司|浙江乐清湾高速公路有限公司|浙江交投交通建设管理有限公司|浙江交投太平交通基础设施股权投资基金（有限合伙）|浙江交投高速公路建设管理有限公司|浙江交投高速公路运营管理有限公司|浙江交通资源投资集团有限公司|浙江台州沈海高速公路有限公司|浙江台州甬台温高速公路有限公司|浙江宁波杭甬复线三期高速公路有限公司|浙江宁波甬台温高速公路有限公司|浙江数智交院科技股份有限公司|浙江景文高速公路有限公司|浙江杭宁高速公路有限责任公司|浙江杭宣高速公路有限公司|浙江杭新景高速公路有限公司|浙江杭海城际铁路有限公司|浙江杭温铁路有限公司|浙江杭甬复线宁波一期高速公路有限公司|浙江杭绍甬高速公路有限公司|浙江沪平盐铁路有限公司|浙江温州市域铁路一号线有限公司|浙江甬舟复线一期高速公路有限公司|浙江省交投控股集团有限公司|浙江省交通投资集团高速公路管理有限公司|浙江省商业集团有限公司|浙江省海运集团股份有限公司|浙江省经济建设投资有限公司|浙江省轨道交通建设管理集团有限公司|浙江省轨道交通运营管理集团有限公司|浙江省铁路发展控股集团有限责任公司|浙江省长三角投资有限公司|浙江舟山北向大通道有限公司|浙江衢丽铁路有限公司|浙江衢松铁路有限公司|浙江诸永高速公路有限公司|浙江路产城发展集团有限公司|浙江金华甬金衢上高速公路有限公司|浙江高信技术股份有限公司|浙江高速物流有限公司|温州市文泰高速公路有限公司|温州市瑞文高速公路有限公司|绍兴柯桥杭金衢联络线高速公路有限公司|金华市东永高速投资有限公司|东港投资发展集团有限公司|杭州农发原乡人农特产有限公司|杭州千岛湖鲟龙科技股份有限公司|浙江农发产业投资有限公司|浙江省现代农业研究会|芜湖信农硬科技投资合伙企业（有限合伙）|黑龙江亚欧牧业有限公司|浙江四港联动发展有限公司|浙江电子口岸有限公司|浙江空港商业经营管理有限责任公司|浙江空港数字科技有限公司|浙江空港资本控股有限公司|上海大宗商品仓单登记有限责任公司|宁波舟山港铁矿石储运有限公司|杭州港务集团有限公司|浙江中澳现代产业园有限公司|浙江义迪通供应链服务有限公司|浙江之迪控股有限公司|浙江海港国际联运有限公司|浙江海港大宗商品交易中心有限公司|浙江海港引航服务有限公司|浙江船舶交易市场有限公司|杭州富格企业管理合伙企业（有限合伙）|杭州松下马达有限公司|汇孚集团有限公司|浙江信联钢铁有限公司|浙江广杰投资管理有限公司|浙江建设融资租赁有限公司|浙江杰尚投资管理有限公司|浙江申达塑料机械有限公司|浙江申达机器制造股份有限公司|浙江省二轻供销总公司|浙江省二轻商业经营管理有限公司|浙江省二轻房地产开发有限公司|浙江省工美控股有限公司|浙江省工艺美术研究院有限公司|浙江省皮革塑料有限公司|浙江省艺创投资发展股份有限公司|浙江省艺创文旅发展有限公司|安邦护卫（浙江）公共安全智慧科技有限公司|浙江丽水安邦护卫有限公司|浙江台州安邦护卫有限公司|浙江嘉兴安邦护卫有限公司|浙江宁波安邦护卫有限公司|浙江安邦护卫安全服务有限公司|浙江安邦护卫科技服务有限公司|浙江杭州安邦护卫有限公司|浙江温州安邦护卫有限公司|浙江湖州安邦护卫有限公司|浙江绍兴安邦护卫有限公司|浙江舟山安邦护卫有限公司|浙江衢州安邦护卫有限公司|上海浙大科技发展有限公司|杭州启真未来创新股权投资合伙企业（有限合伙）|杭州浙大动物医院有限公司|杭州浙大文化创意发展有限公司|杭州紫金港未来创新投资合伙企业（有限合伙）|杭州网新信息控股有限公司|杭州西投启真脑机智能产业运营有限公司|浙江启真人才发展有限公司|浙江大学农业科技园有限公司|浙江大学创新技术研究院有限公司|浙江大学城乡规划设计研究院有限公司|浙江大学杭州国际科创中心发展有限公司|浙江大学科技园发展有限公司|浙江大学能源工程设计研究院有限公司|浙江浙大列车智能化工程技术研究中心有限公司|浙江浙大圆正科技创新服务有限公司|浙江浙大新宇物业集团有限公司|浙江浙大科创集团有限公司|浙江浙大西投脑机智能科技有限公司|浙江钱塘机器人及智能装备研究有限公司|丽水市廉合产权交易有限公司|北京中产智合咨询服务中心（有限合伙）|北京金马甲产权网络交易有限公司|台州市产权交易所有限公司|嘉兴市产权交易有限公司|湖州市联合产权交易有限公司|绍兴市产权交易有限公司|舟山市产权交易中心有限责任公司|衢州市产权交易中心有限公司|浙江省三建建设集团有限公司|'
+        kwL=kwLstr.split('|')
+        for kk in kwL:
+            kwmsg={
+                'kw':kk,
+                'wordsCode':'qqnews',
+                'sid':'102003'
+            }
+            kwList.append(kwmsg)
+        return kwList
+    def runLocSpider(self,kwmsg):
+        searchkw=kwmsg['kw']
+        wordsCode=kwmsg['wordsCode']
+        sid=kwmsg['sid']
+        jrttnewsSpider=QQnewsSpider(searchkw,wordsCode,sid)
+        try:
+            jrttnewsSpider.get_page_html()
+        except Exception as e:
+            logger.info('今日头条搜索异常'+searchkw)
+
+        if jrttnewsSpider.detailList.qsize() != 0:
+            try:
+                jrttnewsSpider.get_detail_html()
+            except Exception as e:
+                logger.info('详情解析异常'+searchkw)
+        logger.info("关键词采集结束！"+searchkw)
 if __name__ == '__main__':
    qqnewsTaskJob=QQnewsTaskJob()
    baseCore=BaseCore()
@@ -175,11 +203,12 @@ if __name__ == '__main__':
    while True:
        try:
            codeList=[]
-            codeList.append('KW-20220602-0003')
+            codeList.append('KW-20231013-0001')
            for codeid in codeList:
                try:
-                    keymsg=qqnewsTaskJob.getkeyFromredis(codeid)
-                    kwList=qqnewsTaskJob.paserKeyMsg(keymsg)
+                    # keymsg=qqnewsTaskJob.getkeyFromredis(codeid)
+                    # kwList=qqnewsTaskJob.paserKeyMsg(keymsg)
+                    kwList=qqnewsTaskJob.lockwMsg()
                    if len(kwList)<1:
                        continue
                    logger.info(f"需要搜索的关键词:{kwList}")

--- a/sougou_comm/sougouSpider.py
+++ b/sougou_comm/sougouSpider.py
@@ -3,6 +3,7 @@ from urllib.parse import urljoin

 import pymysql
 import requests
+import urllib3
 from bs4 import BeautifulSoup
 from gne import GeneralNewsExtractor
 from langid import langid
@@ -24,7 +25,7 @@ from kafka import KafkaProducer
 import json
 from baseCore import BaseCore
 import configparser
-
+urllib3.disable_warnings()
 from smart_extractor import SmartExtractor


@@ -54,6 +55,7 @@ class SougouSpider(object):
        self.searchkw = searchkw
        self.wordsCode = wordsCode
        self.sid = sid
+
    def createDriver(self):
        chrome_driver =self.config.get('selenium', 'chrome_driver')
        path =  Service(chrome_driver)
@@ -63,7 +65,7 @@ class SougouSpider(object):
        # proxy = "127.0.0.1:8080"  # 代理地址和端口
        # chrome_options.add_argument('--proxy-server=http://' + proxy)
        self.driver = webdriver.Chrome(service=path,chrome_options=chrome_options)
-    #将列表数据插入到表中 baidu_search_result
+    #将列表数据插入到表中 meta_search_result
    def itemInsertToTable(self,items):
        try:
            itemdata=[]
@@ -73,7 +75,7 @@ class SougouSpider(object):
                data=(self.sid,self.wordsCode,item['title'],item['detailurl'],item['source'],item['publishtime'],item['content'],item['contentHtml'],'1',item['kword'],nowtime)
                itemdata.append(data)

-            sql ="INSERT into baidu_search_result (sid,wordsCode,title,detailurl,origin,publishdate,content,content_with_tag,state,keyword,create_time) VALUES (%s, %s,%s, %s, %s, %s, %s, %s, %s, %s, %s)"
+            sql ="INSERT into meta_search_result (sid,wordsCode,title,detailurl,origin,publishdate,content,content_with_tag,state,keyword,create_time) VALUES (%s, %s,%s, %s, %s, %s, %s, %s, %s, %s, %s)"
            cursorM.executemany(sql, itemdata)
            self.logger.info("数据插入数据库成功！")
            # 定义插入数据的SQL语句
@@ -422,7 +424,7 @@ class SougouSpider(object):
                    bdetail=self.getDetailmsg(detailmsg)
                    processitem=self.getProcessitem(bdetail)
                    try:
-                        self.sendkafka(processitem)
+                        # self.sendkafka(processitem)
                        self.r.sadd('pysougou_'+self.wordsCode, processitem['sourceAddress'])
                    except Exception as e:
                        self.logger.info("放入kafka失败！")

--- a/sougou_comm/sougoutaskJob_loc.py
+++ b/sougou_comm/sougoutaskJob_loc.py
@@ -174,7 +174,37 @@ class SougouTaskJob(object):
            finally:
                sougouSpider.driver.quit()
        logger.info("关键词采集结束！"+searchkw)
-import random
+
+    def lockwMsg(self):
+        kwList=[]
+        kwLstr='浙江银通典当有限责任公司|浙江省化工进出口有限公司|浙江省能源集团有限公司|浙江海港中奥能源有限责任公司|杭州香格里拉饭店有限公司|浙能集团新疆准东能源化工有限公司|温州衢化东南工贸有限公司|义乌产权交易所有限公司|温州机场集团有限公司|浙江浙能电力股份有限公司|浙江工程设计有限公司|浙江国信控股集团有限责任公司|浙江巨化集团进出口有限公司|上海盛东国际集装箱码头有限公司|衢州巨化房地产开发有限公司|浙江省空港融资租赁有限公司|浙江中旅商务会展有限公司|浙江海港集团财务有限公司|浙江浙能港口运营管理有限公司|浙江机场集团保安服务有限公司|新疆塔建三五九建工有限责任公司|浙江能源天然气集团有限公司|浙江华江科技股份有限公司|浙江浙能资产经营管理有限公司|浙江海港黄泽山油品储运有限公司|浙江浙旅投资有限责任公司|浙江海港海洋工程建设有限公司|浙江省能源集团财务有限责任公司|江西省赣浙能源有限公司|温州联合产权交易中心有限公司|浙江省通用航空产业发展有限公司|物产中大期货有限公司|浙江省富浙融资租赁有限公司|宁波机场集团有限公司|浙江省振兴乡村建设投资发展集团有限公司|浙江杭钢融资租赁有限公司|浙江国贸云商控股有限公司|浙江省农村实业发展有限公司|巨化控股有限公司|浙江省国际贸易集团有限公司|浙江机电职业技术学院|浙江头门港投资开发有限公司|伊犁新天煤化工有限责任公司|浙江省农村发展集团农产品有限公司|衢州巨化传媒有限公司|浙江机场投资有限责任公司|浙江中大元通融资租赁有限公司|巨化集团公司兴化实业有限公司|浙江新世纪期货有限公司|巨化集团有限公司|浙旅盛景资本投资有限公司|浙江省医疗健康集团有限公司|浙江歌瑞新材料有限公司|浙江省国贸集团资产经营有限公司|浙能资本控股有限公司|杭州萧山国际机场有限公司|浙江梅苑酒店管理有限公司|浙江国贸集团东方机电工程股份有限公司|上港集团平湖独山港码头有限公司|浙江巨化热电有限公司|浙江省粮食集团有限公司|宁波舟山港集团有限公司|浙江省纺织品进出口集团有限公司|浙江巨化物流有限公司|浙江建设技师学院|浙江杭州临空经济开发有限公司|浙江中大技术进出口集团有限公司|浙江省粮油食品进出口股份有限公司|浙江省石油股份有限公司|浙江空港培训服务咨询有限公司|浙江省机电集团有限公司|浙江省二轻集团有限责任公司|巨化集团上海融资租赁有限公司|浙江巨化股份有限公司|宁波航运交易所有限公司|浙江巨化投资有限公司|浙江省农村发展集团有限公司|浙江省国际贸易集团温州有限公司|浙江巨化化工矿业有限公司|浙江天虹物资贸易有限公司|浙江浙能兴源节能科技有限公司|浙江巨化装备工程集团有限公司|温州瑞平苍高速公路有限公司|上海巨化实业发展有限公司|浙能集团新疆准东煤业有限公司|浙江浙能煤运投资有限责任公司|浙江省新能源投资集团股份有限公司|浙江锦华新材料股份有限公司|浙旅湛景置业有限公司|浙江省交通投资集团财务有限责任公司|杭州钢铁集团有限公司|浙江巨化塑胶有限责任公司|浙江巨化信息技术有限公司|浙江新农都实业有限公司|浙江省万里教育集团|浙江长广（集团）有限责任公司|浙江海港资产管理有限公司|物产中大融资租赁集团有限公司|浙江浙能企业管理培训服务有限公司|浙江省海洋产业投资有限公司|浙江省交通投资集团有限公司|浙江轻工联非融资性担保有限公司|浙江省机场集团有限公司|浙江巨化汉正新材料有限公司|浙江海港内河港口发展有限公司|浙江外事旅游股份有限公司|浙江省浙商资产管理股份有限公司|浙江东方金融控股集团股份有限公司|浙江浙能技术研究院有限公司|浙江经济职业技术学院|浙江巨化清安检测科技有限公司|浙江省国有资本运营有限公司|浙江省土产畜产进出口集团有限公司|浙江巨化能源有限公司|浙江产权交易所有限公司|宁波海运集团有限公司|浙江省中国旅行社集团有限公司|杭州工商信托股份有限公司|浙江省衢州机场管理有限公司|浙江省旅游投资集团有限公司|巨化集团公司塑化厂|同煤浙能麻家梁煤业有限责任公司|浙江轻工联典当有限责任公司|浙江省海港投资运营集团有限公司|衢州衢化宾馆有限公司|舟山普陀山机场有限公司|深圳市巨化华南投资发展有限公司|浙江金华安邦护卫有限公司|浙江海港洋山投资开发有限公司|物产中大资本管理（浙江）有限公司|浙江南方工程咨询管理有限公司|黑龙江绿色农业发展集团有限公司|浙商财产保险股份有限公司|物产中大资产管理（浙江）有限公司|衢州氟硅技术研究院|招商局港口集团股份有限公司|浙江省台州机场管理有限公司|浙江省机电技师学院|巨化集团财务有限责任公司|浙江省电力建设有限公司|浙江省中医药健康产业集团有限公司|浙江巨化化工材料有限公司|浙江浙商金控有限公司|浙江富兴电力燃料有限公司|浙旅蝶来酒店集团有限公司|浙江英特集团股份有限公司|浙江省义乌机场管理有限公司|浙江省农都农产品有限公司|物产中大集团财务有限公司|宁波海运股份有限公司|浙江省建设投资集团股份有限公司|浙江菲达环保科技股份有限公司|浙江海正药业股份有限公司|物产中大集团股份有限公司|浙江运达风电股份有限公司|杭州钢铁股份有限公司|浙商中拓集团股份有限公司|勿忘农集团有限公司|浙江交通科技股份有限公司|巨化集团（香港）有限公司|香港泰纬国际贸易有限公司|浙江能源国际有限公司|常熟市国瑞科技股份有限公司|浙江镇洋发展股份有限公司|浙商银行股份有限公司|浙江物产环保能源股份有限公司|浙江诺和机电股份有限公司|浙江沪杭甬高速公路股份有限公司|宁波远洋运输股份有限公司|浙江大学控股集团有限公司|安邦护卫集团股份有限公司|浙江富建投资管理有限公司|浙江富浙科技有限公司|浙江富浙资产管理有限公司|浙江富浙资本管理有限公司|浙江富物资产管理有限公司|浙江省发展资产经营有限公司|浙江省环境科技有限公司|浙江省盐业集团有限公司|浙江省种业集团有限公司|浙江物产中大医药有限公司|浙江物产元通汽车集团有限公司|浙江物产实业控股（集团）有限公司|物产中大（浙江）产业投资有限公司|物产中大云商有限公司|物产中大元通实业集团有限公司|物产中大元通汽车有限公司|物产中大公用环境投资有限公司|物产中大化工集团有限公司|物产中大医疗健康投资有限公司|物产中大国际学院|物产中大数字科技有限公司|物产中大欧泰有限公司|物产中大物流投资集团有限公司|物产中大财智共享服务（浙江）有限公司|物产中大金属集团有限公司|物产中大金石集团有限公司|物产中大长乐林场有限公司|物产中大集团投资有限公司|南水北调（开化）水务有限公司|太仓中茵建设投资有限公司|安吉浙建投资有限公司|庆元县浙建项目管理有限公司|新昌县浙建投资管理有限公司|新疆阿拉尔上游水利水电工程有限责任公司|杭州财金未来社区股权投资合伙企业（有限合伙）|永嘉县浙建投资有限公司|浙建（兰溪）矿业有限公司|浙建项目管理（杭州）有限公司|浙江基建投资管理有限公司|浙江天台浙建环保科技有限公司|浙江建工建筑工程咨询有限公司|浙江建投创新科技有限公司|浙江建投发展房地产开发有限公司|浙江建投工程物资设备有限公司|浙江建投数字技术有限公司|浙江建投机械租赁有限公司|浙江建投环保工程有限公司|浙江建设商贸物流有限公司|浙江浙建云采贸易有限公司|浙江浙建实业发展有限公司|浙江浙建建筑设计有限公司|浙江浙建美丽乡村建设有限公司|浙江浙建钢结构有限公司|浙江省一建建设集团有限公司|浙江省二建建设集团有限公司|浙江省工业设备安装集团有限公司|浙江省建工集团有限责任公司|浙江省建投交通基础建设集团有限公司|浙江省建材集团有限公司|浙江省建设工程机械集团有限公司|浙江财金未来社区股权投资有限责任公司|衢州市衢江区浙建投资管理有限公司|长兴建图建设投资管理有限公司|长兴浙建投资有限公司|玉环市浙建城镇建设投资有限公司|绍兴市越城区浙建建设项目管理有限公司|绍兴市越城区浙建投资有限公司|苏州浙建地产发展有限公司|长兴浙建城镇建设有限公司|遂昌浙建投资有限公司|长兴浙永建设投资有限公司|阿拉尔浙建城市建设投资有限公司|浙江《机电工程》杂志社有限公司|浙江工匠培训有限公司|浙江康宁咨询服务有限公司|浙江新华体育器材制造有限公司|浙江机电华瑞航空投资有限公司|浙江机电集团投资有限公司|浙江新联民爆器材有限公司|浙江浙商金融服务有限公司|浙江省军工集团股份有限公司|浙江省工业矿产对外贸易有限责任公司|浙江省机电设计研究院有限公司|浙江蓝箭称重技术有限公司|浙江省机械设备进出口有限责任公司|浙江富浙投资有限公司|浙江海正集团有限公司|浙江五金矿产控股有限公司|浙江省医药保健品进出口有限责任公司|浙江省国兴进出口有限公司|浙江省国际贸易集团供应链有限公司|浙江省工艺品进出口有限公司|浙江经贸房地产公司|浙江英特药业有限责任公司|天台国大镕丰酒店管理有限公司|杭州千岛湖温馨岛娱乐旅游有限公司|杭州花港饭店|浙江《江南游报》社有限责任公司|浙江东菱酒店有限公司|杭州花港海航度假酒店有限公司|浙江国际大酒店有限公司|浙江旅游信息中心有限公司|浙江时代国际展览服务有限公司|浙江浙勤服务控股集团有限公司|浙江浙勤集团有限公司|浙江浙旅投数字科技有限公司|浙江省人才发展集团有限公司|浙江省古村落（传统村落）保护利用股权投资基金合伙企业（有限合伙）|浙江省国际投资服务中心有限公司|浙江省国际贸易展览有限公司|浙江省旅工贸有限责任公司|浙江雷迪森物业服务有限公司|浙江雷迪森酒店集团有限公司|舟山市普陀山银海饭店有限公司|雷迪森旅业集团有限公司|上海杭钢凯暄矿业投资有限公司|幸福之江资本运营有限公司|杭州杭钢合金钢铸造有限公司|杭州钢铁厂小型轧钢股份有限公司|浙江东菱商贸有限公司|浙江富春紫光环保股份有限公司|中杭监测技术研究院有限公司|杭州紫云能源综合利用开发有限公司|杭州紫元置业有限公司|浙江杭钢人力资源开发服务有限公司|浙江杭钢健康产业投资管理有限公司|浙江杭钢公管后勤服务有限公司|浙江杭钢动力有限公司|浙江杭钢商贸集团有限公司|浙江杭钢工贸有限公司|浙江杭钢数字科技有限公司|浙江杭钢智谷科技有限公司|浙江杭钢电炉炼钢有限公司|浙江杭钢职业教育集团有限公司|浙江杭钢高速线材有限公司|浙江省冶金研究院有限公司|浙江省工业设计研究院有限公司|浙江省环保集团有限公司|浙江省遂昌金矿有限公司|浙江紫汇资产管理有限公司|浙江紫臻物业管理服务有限公司|浙江钢联控股有限公司|温州杭钢水务有限公司|上海华山康健医疗有限公司|台州台信企业管理合伙企业（有限合伙）|浙江中天东方氟硅材料股份有限公司|浙江巨化环保科技有限公司|浙江巨柯私募基金管理有限公司|浙江巨荣石油化工销售有限公司|浙江晋巨化工有限公司|浙能巨化（浙江自贸区）股权投资基金合伙企业（有限合伙）|中核浙能能源有限公司|中海油绿能港浙江宁波能源有限公司|伊犁新矿煤业有限责任公司|内蒙古同煤鄂尔多斯矿业投资有限公司|国家管网集团浙江省天然气管网有限公司|浙江浙能产业研究院有限公司|浙江浙能物业发展有限公司|浙江浙能绿城体育文化发展有限公司|浙江省白马湖实验室有限公司|浙江职业足球俱乐部有限公司|嘉兴公路建设投资有限公司|嘉兴市嘉萧高速公路投资开发有限公司|德清县杭绕高速有限公司|杭州都市高速公路有限公司|浙商食品集团有限公司|浙江临金高速公路有限公司|浙江义东高速公路有限公司|浙江乐清湾高速公路有限公司|浙江交投交通建设管理有限公司|浙江交投太平交通基础设施股权投资基金（有限合伙）|浙江交投高速公路建设管理有限公司|浙江交投高速公路运营管理有限公司|浙江交通资源投资集团有限公司|浙江台州沈海高速公路有限公司|浙江台州甬台温高速公路有限公司|浙江宁波杭甬复线三期高速公路有限公司|浙江宁波甬台温高速公路有限公司|浙江数智交院科技股份有限公司|浙江景文高速公路有限公司|浙江杭宁高速公路有限责任公司|浙江杭宣高速公路有限公司|浙江杭新景高速公路有限公司|浙江杭海城际铁路有限公司|浙江杭温铁路有限公司|浙江杭甬复线宁波一期高速公路有限公司|浙江杭绍甬高速公路有限公司|浙江沪平盐铁路有限公司|浙江温州市域铁路一号线有限公司|浙江甬舟复线一期高速公路有限公司|浙江省交投控股集团有限公司|浙江省交通投资集团高速公路管理有限公司|浙江省商业集团有限公司|浙江省海运集团股份有限公司|浙江省经济建设投资有限公司|浙江省轨道交通建设管理集团有限公司|浙江省轨道交通运营管理集团有限公司|浙江省铁路发展控股集团有限责任公司|浙江省长三角投资有限公司|浙江舟山北向大通道有限公司|浙江衢丽铁路有限公司|浙江衢松铁路有限公司|浙江诸永高速公路有限公司|浙江路产城发展集团有限公司|浙江金华甬金衢上高速公路有限公司|浙江高信技术股份有限公司|浙江高速物流有限公司|温州市文泰高速公路有限公司|温州市瑞文高速公路有限公司|绍兴柯桥杭金衢联络线高速公路有限公司|金华市东永高速投资有限公司|东港投资发展集团有限公司|杭州农发原乡人农特产有限公司|杭州千岛湖鲟龙科技股份有限公司|浙江农发产业投资有限公司|浙江省现代农业研究会|芜湖信农硬科技投资合伙企业（有限合伙）|黑龙江亚欧牧业有限公司|浙江四港联动发展有限公司|浙江电子口岸有限公司|浙江空港商业经营管理有限责任公司|浙江空港数字科技有限公司|浙江空港资本控股有限公司|上海大宗商品仓单登记有限责任公司|宁波舟山港铁矿石储运有限公司|杭州港务集团有限公司|浙江中澳现代产业园有限公司|浙江义迪通供应链服务有限公司|浙江之迪控股有限公司|浙江海港国际联运有限公司|浙江海港大宗商品交易中心有限公司|浙江海港引航服务有限公司|浙江船舶交易市场有限公司|杭州富格企业管理合伙企业（有限合伙）|杭州松下马达有限公司|汇孚集团有限公司|浙江信联钢铁有限公司|浙江广杰投资管理有限公司|浙江建设融资租赁有限公司|浙江杰尚投资管理有限公司|浙江申达塑料机械有限公司|浙江申达机器制造股份有限公司|浙江省二轻供销总公司|浙江省二轻商业经营管理有限公司|浙江省二轻房地产开发有限公司|浙江省工美控股有限公司|浙江省工艺美术研究院有限公司|浙江省皮革塑料有限公司|浙江省艺创投资发展股份有限公司|浙江省艺创文旅发展有限公司|安邦护卫（浙江）公共安全智慧科技有限公司|浙江丽水安邦护卫有限公司|浙江台州安邦护卫有限公司|浙江嘉兴安邦护卫有限公司|浙江宁波安邦护卫有限公司|浙江安邦护卫安全服务有限公司|浙江安邦护卫科技服务有限公司|浙江杭州安邦护卫有限公司|浙江温州安邦护卫有限公司|浙江湖州安邦护卫有限公司|浙江绍兴安邦护卫有限公司|浙江舟山安邦护卫有限公司|浙江衢州安邦护卫有限公司|上海浙大科技发展有限公司|杭州启真未来创新股权投资合伙企业（有限合伙）|杭州浙大动物医院有限公司|杭州浙大文化创意发展有限公司|杭州紫金港未来创新投资合伙企业（有限合伙）|杭州网新信息控股有限公司|杭州西投启真脑机智能产业运营有限公司|浙江启真人才发展有限公司|浙江大学农业科技园有限公司|浙江大学创新技术研究院有限公司|浙江大学城乡规划设计研究院有限公司|浙江大学杭州国际科创中心发展有限公司|浙江大学科技园发展有限公司|浙江大学能源工程设计研究院有限公司|浙江浙大列车智能化工程技术研究中心有限公司|浙江浙大圆正科技创新服务有限公司|浙江浙大新宇物业集团有限公司|浙江浙大科创集团有限公司|浙江浙大西投脑机智能科技有限公司|浙江钱塘机器人及智能装备研究有限公司|丽水市廉合产权交易有限公司|北京中产智合咨询服务中心（有限合伙）|北京金马甲产权网络交易有限公司|台州市产权交易所有限公司|嘉兴市产权交易有限公司|湖州市联合产权交易有限公司|绍兴市产权交易有限公司|舟山市产权交易中心有限责任公司|衢州市产权交易中心有限公司|浙江省三建建设集团有限公司|'
+        kwL=kwLstr.split('|')
+        for kk in kwL:
+            kwmsg={
+                'kw':kk,
+                'wordsCode':'sougou',
+                'sid':'102004'
+            }
+            kwList.append(kwmsg)
+        return kwList
+
+    def runLocSpider(self,kwmsg):
+        searchkw=kwmsg['kw']
+        wordsCode=kwmsg['wordsCode']
+        sid=kwmsg['sid']
+        jrttnewsSpider=SougouSpider(searchkw,wordsCode,sid)
+        try:
+            jrttnewsSpider.get_page_html()
+        except Exception as e:
+            logger.info('今日头条搜索异常'+searchkw)
+
+        if jrttnewsSpider.detailList.qsize() != 0:
+            try:
+                jrttnewsSpider.get_detail_html()
+            except Exception as e:
+                logger.info('详情解析异常'+searchkw)
+        logger.info("关键词采集结束！"+searchkw)
+
 if __name__ == '__main__':
    sougouTaskJob=SougouTaskJob()
    baseCore=BaseCore()
@@ -188,11 +218,12 @@ if __name__ == '__main__':
    while True:
        try:
            codeList=[]
-            codeList.append('KW-20220602-0003')
+            codeList.append('KW-20231013-0001')
            for codeid in codeList:
                try:
-                    keymsg=sougouTaskJob.getkeyFromredis(codeid)
-                    kwList=sougouTaskJob.paserKeyMsg(keymsg)
+                    # keymsg=sougouTaskJob.getkeyFromredis(codeid)
+                    # kwList=sougouTaskJob.paserKeyMsg(keymsg)
+                    kwList=sougouTaskJob.lockwMsg()
                    if len(kwList)<1:
                        continue
                    logger.info(f"需要搜索的关键词:{kwList}")

--- a/souhunews_comm/baseCore.py
+++ b/souhunews_comm/baseCore.py
@@ -215,7 +215,7 @@ class BaseCore:
        except :
            pass
    def __init__(self):
-        self.__cnx_proxy = pymysql.connect(host='114.115.159.144', user='caiji', password='zzsn9988', db='clb_project',
+        self.__cnx_proxy = pymysql.connect(host='114.115.159.144', user='caiji', password='zzsn9988', db='caiji',
                                           charset='utf8mb4')
        self.__cursor_proxy= self.__cnx_proxy.cursor()
        pass
@@ -310,27 +310,28 @@ class BaseCore:
            proxy_list.append(proxy)
        return proxy_list[random.randint(0, 3)]

-    def get_proxy(self):
-        ip_list = []
-        with self.__cursor_proxy as cursor:
-            sql_str = '''select PROXY from clb_proxy where id={} '''.format(random.randint(1, 12))
-            print(sql_str)
-            cursor.execute(sql_str)
-            rows = cursor.fetchall()
-            for row in tqdm(rows):
-                str_ip = row[0]
-                str_ip_list = str_ip.split('-')
-                proxyMeta = "http://%(host)s:%(port)s" % {
-                    "host": str_ip_list[0],
-                    "port": str_ip_list[1],
-                }
-                proxy = {
-                    "HTTP": proxyMeta,
-                    "HTTPS": proxyMeta
-                }
-                ip_list.append(proxy)
+    # def get_proxy(self):
+    #     ip_list = []
+    #     with self.__cursor_proxy as cursor:
+    #         sql_str = '''select PROXY from clb_proxy where id={} '''.format(random.randint(1, 12))
+    #         print(sql_str)
+    #         cursor.execute(sql_str)
+    #         rows = cursor.fetchall()
+    #         for row in tqdm(rows):
+    #             str_ip = row[0]
+    #             str_ip_list = str_ip.split('-')
+    #             proxyMeta = "http://%(host)s:%(port)s" % {
+    #                 "host": str_ip_list[0],
+    #                 "port": str_ip_list[1],
+    #             }
+    #             proxy = {
+    #                 "HTTP": proxyMeta,
+    #                 "HTTPS": proxyMeta
+    #             }
+    #             ip_list.append(proxy)
+    #
+    #     return  ip_list

-        return  ip_list
    def get_proxyIPPort(self):
        ip_list = []
        with self.__cursor_proxy as cursor:

--- a/souhunews_comm/souhunewspider.py
+++ b/souhunews_comm/souhunewspider.py
@@ -3,6 +3,7 @@ from urllib.parse import urljoin

 import pymysql
 import requests
+import urllib3
 from bs4 import BeautifulSoup
 from gne import GeneralNewsExtractor
 from langid import langid
@@ -23,7 +24,7 @@ from smart_extractor import SmartExtractor
 from selenium.webdriver.chrome.service import Service
 from selenium import webdriver
 from urllib.parse import quote, unquote
-
+urllib3.disable_warnings()
 class SouhunewsSpider(object):

    def __init__(self,searchkw,wordsCode,sid):
@@ -31,9 +32,9 @@ class SouhunewsSpider(object):
        self.config = configparser.ConfigParser()
        # 读取配置文件
        self.config.read('config.ini')
-        baseCore=BaseCore()
-        self.logger=baseCore.getLogger()
-        self.url = 'https://www.sogou.com/'
+        self.baseCore=BaseCore()
+        self.logger=self.baseCore.getLogger()
+        self.url = 'https://www.sohu.com/'
        self.r = redis.Redis(host=self.config.get('redis', 'host'),
                             port=self.config.get('redis', 'port'),
                             password=self.config.get('redis', 'pass'), db=0)
@@ -46,7 +47,7 @@ class SouhunewsSpider(object):
        self.wordsCode = wordsCode
        self.sid = sid

-    #将列表数据插入到表中 baidu_search_result
+    #将列表数据插入到表中 meta_search_result
    def itemInsertToTable(self,items):
        try:
            itemdata=[]
@@ -56,7 +57,7 @@ class SouhunewsSpider(object):
                data=(self.sid,self.wordsCode,item['title'],item['detailurl'],item['source'],item['publishtime'],item['content'],item['contentHtml'],'1',item['kword'],nowtime)
                itemdata.append(data)

-            sql ="INSERT into baidu_search_result (sid,wordsCode,title,detailurl,origin,publishdate,content,content_with_tag,state,keyword,create_time) VALUES (%s, %s,%s, %s, %s, %s, %s, %s, %s, %s, %s)"
+            sql ="INSERT into meta_search_result (sid,wordsCode,title,detailurl,origin,publishdate,content,content_with_tag,state,keyword,create_time) VALUES (%s, %s,%s, %s, %s, %s, %s, %s, %s, %s, %s)"
            cursorM.executemany(sql, itemdata)
            self.logger.info("数据插入数据库成功！")
            # 定义插入数据的SQL语句
@@ -241,13 +242,26 @@ class SouhunewsSpider(object):
            'Accept-Language':'zh-CN,zh;q=0.9',
            'Cookie':'SUV=1695794576771hvzq2n; clt=1695794576; cld=20230927140256; t=1695794594569; reqtype=pc; gidinf=x099980109ee17b02bbffd42800081cb2f516277b38e',
        }
-        proxy = {'https': 'http://127.0.0.1:1080', 'http': 'http://127.0.0.1:1080'}
+        # proxy = {'https': 'http://127.0.0.1:1080', 'http': 'http://127.0.0.1:1080'}
+        proxy =self.baseCore.get_proxy()
        try:
-            res=requests.get(url,headers=headers,verify=False,timeout=10)
+            res=requests.get(url,headers=headers,proxies=proxy,verify=False,timeout=10)
            res.encoding='utf-8'
            text=res.text
        except Exception as e:
-            text=''
+            try:
+                res=requests.get(url,headers=headers,verify=False,timeout=10)
+                res.encoding='utf-8'
+                text=res.text
+            except Exception as e:
+                text=''
+        if text=='':
+            try:
+                res=requests.get(url,headers=headers,verify=False,timeout=10)
+                res.encoding='utf-8'
+                text=res.text
+            except Exception as e:
+                text=''
        return text

    def get_realurl(self,tmpurl):
@@ -272,7 +286,7 @@ class SouhunewsSpider(object):
    # 获取每一页数据, 开趴.
    def get_page_html(self):
        #设置采集列表页面和页数
-        totalnum=3
+        totalnum=5
        keyword=self.searchkw
        # keyword='浙江国有资本运营公司'
        for pagenum in range(0,totalnum):
@@ -319,7 +333,7 @@ class SouhunewsSpider(object):
                    bdetail=self.getDetailmsg(detailmsg)
                    processitem=self.getProcessitem(bdetail)
                    try:
-                        self.sendkafka(processitem)
+                        # self.sendkafka(processitem)
                        self.r.sadd('pysouhunews_'+self.wordsCode, processitem['sourceAddress'])
                    except Exception as e:
                        self.logger.info("放入kafka失败！")
@@ -418,8 +432,8 @@ class SouhunewsSpider(object):
    def extractorMsg(self,url,title):
        content=''
        contentWithTag=''
-        lang=''
-        lang=self.detect_language(title)
+        lang='zh'
+        # lang=self.detect_language(title)
        sm=SmartExtractor(lang)
        try:
            raw_html=self.reqSouhuHtml(url)
@@ -514,7 +528,7 @@ class SouhunewsSpider(object):
        if content!='':
            processitem={
                "sid":self.sid,
-                "source":"5",
+                "source":"3",
                "title":bdetail['title'],
                "content":bdetail['content'],
                "contentWithtag":bdetail['contentHtml'],

--- a/souhunews_comm/souhunewstaskJob_comm.py
+++ b/souhunews_comm/souhunewstaskJob_comm.py
@@ -168,7 +168,7 @@ class SouhunewsTaskJob(object):
            try:
                souhunewsSpider.get_page_html()
            except Exception as e:
-                logger.info('搜狗搜索异常'+searchkw)
+                logger.info('搜狐搜索异常'+searchkw)

        if souhunewsSpider.detailList.qsize() != 0:
            try:

--- a/souhunews_comm/souhunewstaskJob_loc.py
+++ b/souhunews_comm/souhunewstaskJob_loc.py
@@ -153,7 +153,7 @@ class SouhunewsTaskJob(object):
        try:
            qqnewsSpider.get_page_html()
        except Exception as e:
-            logger.info('搜狗搜索异常'+searchkw)
+            logger.info('搜狐搜索异常'+searchkw)

        if qqnewsSpider.detailList.qsize() != 0:
            try:
@@ -161,7 +161,35 @@ class SouhunewsTaskJob(object):
            except Exception as e:
                logger.info('详情解析异常'+searchkw)
        logger.info("关键词采集结束！"+searchkw)
-import random
+
+    def lockwMsg(self):
+        kwList=[]
+        kwLstr='浙江银通典当有限责任公司|浙江省化工进出口有限公司|浙江省能源集团有限公司|浙江海港中奥能源有限责任公司|杭州香格里拉饭店有限公司|浙能集团新疆准东能源化工有限公司|温州衢化东南工贸有限公司|义乌产权交易所有限公司|温州机场集团有限公司|浙江浙能电力股份有限公司|浙江工程设计有限公司|浙江国信控股集团有限责任公司|浙江巨化集团进出口有限公司|上海盛东国际集装箱码头有限公司|衢州巨化房地产开发有限公司|浙江省空港融资租赁有限公司|浙江中旅商务会展有限公司|浙江海港集团财务有限公司|浙江浙能港口运营管理有限公司|浙江机场集团保安服务有限公司|新疆塔建三五九建工有限责任公司|浙江能源天然气集团有限公司|浙江华江科技股份有限公司|浙江浙能资产经营管理有限公司|浙江海港黄泽山油品储运有限公司|浙江浙旅投资有限责任公司|浙江海港海洋工程建设有限公司|浙江省能源集团财务有限责任公司|江西省赣浙能源有限公司|温州联合产权交易中心有限公司|浙江省通用航空产业发展有限公司|物产中大期货有限公司|浙江省富浙融资租赁有限公司|宁波机场集团有限公司|浙江省振兴乡村建设投资发展集团有限公司|浙江杭钢融资租赁有限公司|浙江国贸云商控股有限公司|浙江省农村实业发展有限公司|巨化控股有限公司|浙江省国际贸易集团有限公司|浙江机电职业技术学院|浙江头门港投资开发有限公司|伊犁新天煤化工有限责任公司|浙江省农村发展集团农产品有限公司|衢州巨化传媒有限公司|浙江机场投资有限责任公司|浙江中大元通融资租赁有限公司|巨化集团公司兴化实业有限公司|浙江新世纪期货有限公司|巨化集团有限公司|浙旅盛景资本投资有限公司|浙江省医疗健康集团有限公司|浙江歌瑞新材料有限公司|浙江省国贸集团资产经营有限公司|浙能资本控股有限公司|杭州萧山国际机场有限公司|浙江梅苑酒店管理有限公司|浙江国贸集团东方机电工程股份有限公司|上港集团平湖独山港码头有限公司|浙江巨化热电有限公司|浙江省粮食集团有限公司|宁波舟山港集团有限公司|浙江省纺织品进出口集团有限公司|浙江巨化物流有限公司|浙江建设技师学院|浙江杭州临空经济开发有限公司|浙江中大技术进出口集团有限公司|浙江省粮油食品进出口股份有限公司|浙江省石油股份有限公司|浙江空港培训服务咨询有限公司|浙江省机电集团有限公司|浙江省二轻集团有限责任公司|巨化集团上海融资租赁有限公司|浙江巨化股份有限公司|宁波航运交易所有限公司|浙江巨化投资有限公司|浙江省农村发展集团有限公司|浙江省国际贸易集团温州有限公司|浙江巨化化工矿业有限公司|浙江天虹物资贸易有限公司|浙江浙能兴源节能科技有限公司|浙江巨化装备工程集团有限公司|温州瑞平苍高速公路有限公司|上海巨化实业发展有限公司|浙能集团新疆准东煤业有限公司|浙江浙能煤运投资有限责任公司|浙江省新能源投资集团股份有限公司|浙江锦华新材料股份有限公司|浙旅湛景置业有限公司|浙江省交通投资集团财务有限责任公司|杭州钢铁集团有限公司|浙江巨化塑胶有限责任公司|浙江巨化信息技术有限公司|浙江新农都实业有限公司|浙江省万里教育集团|浙江长广（集团）有限责任公司|浙江海港资产管理有限公司|物产中大融资租赁集团有限公司|浙江浙能企业管理培训服务有限公司|浙江省海洋产业投资有限公司|浙江省交通投资集团有限公司|浙江轻工联非融资性担保有限公司|浙江省机场集团有限公司|浙江巨化汉正新材料有限公司|浙江海港内河港口发展有限公司|浙江外事旅游股份有限公司|浙江省浙商资产管理股份有限公司|浙江东方金融控股集团股份有限公司|浙江浙能技术研究院有限公司|浙江经济职业技术学院|浙江巨化清安检测科技有限公司|浙江省国有资本运营有限公司|浙江省土产畜产进出口集团有限公司|浙江巨化能源有限公司|浙江产权交易所有限公司|宁波海运集团有限公司|浙江省中国旅行社集团有限公司|杭州工商信托股份有限公司|浙江省衢州机场管理有限公司|浙江省旅游投资集团有限公司|巨化集团公司塑化厂|同煤浙能麻家梁煤业有限责任公司|浙江轻工联典当有限责任公司|浙江省海港投资运营集团有限公司|衢州衢化宾馆有限公司|舟山普陀山机场有限公司|深圳市巨化华南投资发展有限公司|浙江金华安邦护卫有限公司|浙江海港洋山投资开发有限公司|物产中大资本管理（浙江）有限公司|浙江南方工程咨询管理有限公司|黑龙江绿色农业发展集团有限公司|浙商财产保险股份有限公司|物产中大资产管理（浙江）有限公司|衢州氟硅技术研究院|招商局港口集团股份有限公司|浙江省台州机场管理有限公司|浙江省机电技师学院|巨化集团财务有限责任公司|浙江省电力建设有限公司|浙江省中医药健康产业集团有限公司|浙江巨化化工材料有限公司|浙江浙商金控有限公司|浙江富兴电力燃料有限公司|浙旅蝶来酒店集团有限公司|浙江英特集团股份有限公司|浙江省义乌机场管理有限公司|浙江省农都农产品有限公司|物产中大集团财务有限公司|宁波海运股份有限公司|浙江省建设投资集团股份有限公司|浙江菲达环保科技股份有限公司|浙江海正药业股份有限公司|物产中大集团股份有限公司|浙江运达风电股份有限公司|杭州钢铁股份有限公司|浙商中拓集团股份有限公司|勿忘农集团有限公司|浙江交通科技股份有限公司|巨化集团（香港）有限公司|香港泰纬国际贸易有限公司|浙江能源国际有限公司|常熟市国瑞科技股份有限公司|浙江镇洋发展股份有限公司|浙商银行股份有限公司|浙江物产环保能源股份有限公司|浙江诺和机电股份有限公司|浙江沪杭甬高速公路股份有限公司|宁波远洋运输股份有限公司|浙江大学控股集团有限公司|安邦护卫集团股份有限公司|浙江富建投资管理有限公司|浙江富浙科技有限公司|浙江富浙资产管理有限公司|浙江富浙资本管理有限公司|浙江富物资产管理有限公司|浙江省发展资产经营有限公司|浙江省环境科技有限公司|浙江省盐业集团有限公司|浙江省种业集团有限公司|浙江物产中大医药有限公司|浙江物产元通汽车集团有限公司|浙江物产实业控股（集团）有限公司|物产中大（浙江）产业投资有限公司|物产中大云商有限公司|物产中大元通实业集团有限公司|物产中大元通汽车有限公司|物产中大公用环境投资有限公司|物产中大化工集团有限公司|物产中大医疗健康投资有限公司|物产中大国际学院|物产中大数字科技有限公司|物产中大欧泰有限公司|物产中大物流投资集团有限公司|物产中大财智共享服务（浙江）有限公司|物产中大金属集团有限公司|物产中大金石集团有限公司|物产中大长乐林场有限公司|物产中大集团投资有限公司|南水北调（开化）水务有限公司|太仓中茵建设投资有限公司|安吉浙建投资有限公司|庆元县浙建项目管理有限公司|新昌县浙建投资管理有限公司|新疆阿拉尔上游水利水电工程有限责任公司|杭州财金未来社区股权投资合伙企业（有限合伙）|永嘉县浙建投资有限公司|浙建（兰溪）矿业有限公司|浙建项目管理（杭州）有限公司|浙江基建投资管理有限公司|浙江天台浙建环保科技有限公司|浙江建工建筑工程咨询有限公司|浙江建投创新科技有限公司|浙江建投发展房地产开发有限公司|浙江建投工程物资设备有限公司|浙江建投数字技术有限公司|浙江建投机械租赁有限公司|浙江建投环保工程有限公司|浙江建设商贸物流有限公司|浙江浙建云采贸易有限公司|浙江浙建实业发展有限公司|浙江浙建建筑设计有限公司|浙江浙建美丽乡村建设有限公司|浙江浙建钢结构有限公司|浙江省一建建设集团有限公司|浙江省二建建设集团有限公司|浙江省工业设备安装集团有限公司|浙江省建工集团有限责任公司|浙江省建投交通基础建设集团有限公司|浙江省建材集团有限公司|浙江省建设工程机械集团有限公司|浙江财金未来社区股权投资有限责任公司|衢州市衢江区浙建投资管理有限公司|长兴建图建设投资管理有限公司|长兴浙建投资有限公司|玉环市浙建城镇建设投资有限公司|绍兴市越城区浙建建设项目管理有限公司|绍兴市越城区浙建投资有限公司|苏州浙建地产发展有限公司|长兴浙建城镇建设有限公司|遂昌浙建投资有限公司|长兴浙永建设投资有限公司|阿拉尔浙建城市建设投资有限公司|浙江《机电工程》杂志社有限公司|浙江工匠培训有限公司|浙江康宁咨询服务有限公司|浙江新华体育器材制造有限公司|浙江机电华瑞航空投资有限公司|浙江机电集团投资有限公司|浙江新联民爆器材有限公司|浙江浙商金融服务有限公司|浙江省军工集团股份有限公司|浙江省工业矿产对外贸易有限责任公司|浙江省机电设计研究院有限公司|浙江蓝箭称重技术有限公司|浙江省机械设备进出口有限责任公司|浙江富浙投资有限公司|浙江海正集团有限公司|浙江五金矿产控股有限公司|浙江省医药保健品进出口有限责任公司|浙江省国兴进出口有限公司|浙江省国际贸易集团供应链有限公司|浙江省工艺品进出口有限公司|浙江经贸房地产公司|浙江英特药业有限责任公司|天台国大镕丰酒店管理有限公司|杭州千岛湖温馨岛娱乐旅游有限公司|杭州花港饭店|浙江《江南游报》社有限责任公司|浙江东菱酒店有限公司|杭州花港海航度假酒店有限公司|浙江国际大酒店有限公司|浙江旅游信息中心有限公司|浙江时代国际展览服务有限公司|浙江浙勤服务控股集团有限公司|浙江浙勤集团有限公司|浙江浙旅投数字科技有限公司|浙江省人才发展集团有限公司|浙江省古村落（传统村落）保护利用股权投资基金合伙企业（有限合伙）|浙江省国际投资服务中心有限公司|浙江省国际贸易展览有限公司|浙江省旅工贸有限责任公司|浙江雷迪森物业服务有限公司|浙江雷迪森酒店集团有限公司|舟山市普陀山银海饭店有限公司|雷迪森旅业集团有限公司|上海杭钢凯暄矿业投资有限公司|幸福之江资本运营有限公司|杭州杭钢合金钢铸造有限公司|杭州钢铁厂小型轧钢股份有限公司|浙江东菱商贸有限公司|浙江富春紫光环保股份有限公司|中杭监测技术研究院有限公司|杭州紫云能源综合利用开发有限公司|杭州紫元置业有限公司|浙江杭钢人力资源开发服务有限公司|浙江杭钢健康产业投资管理有限公司|浙江杭钢公管后勤服务有限公司|浙江杭钢动力有限公司|浙江杭钢商贸集团有限公司|浙江杭钢工贸有限公司|浙江杭钢数字科技有限公司|浙江杭钢智谷科技有限公司|浙江杭钢电炉炼钢有限公司|浙江杭钢职业教育集团有限公司|浙江杭钢高速线材有限公司|浙江省冶金研究院有限公司|浙江省工业设计研究院有限公司|浙江省环保集团有限公司|浙江省遂昌金矿有限公司|浙江紫汇资产管理有限公司|浙江紫臻物业管理服务有限公司|浙江钢联控股有限公司|温州杭钢水务有限公司|上海华山康健医疗有限公司|台州台信企业管理合伙企业（有限合伙）|浙江中天东方氟硅材料股份有限公司|浙江巨化环保科技有限公司|浙江巨柯私募基金管理有限公司|浙江巨荣石油化工销售有限公司|浙江晋巨化工有限公司|浙能巨化（浙江自贸区）股权投资基金合伙企业（有限合伙）|中核浙能能源有限公司|中海油绿能港浙江宁波能源有限公司|伊犁新矿煤业有限责任公司|内蒙古同煤鄂尔多斯矿业投资有限公司|国家管网集团浙江省天然气管网有限公司|浙江浙能产业研究院有限公司|浙江浙能物业发展有限公司|浙江浙能绿城体育文化发展有限公司|浙江省白马湖实验室有限公司|浙江职业足球俱乐部有限公司|嘉兴公路建设投资有限公司|嘉兴市嘉萧高速公路投资开发有限公司|德清县杭绕高速有限公司|杭州都市高速公路有限公司|浙商食品集团有限公司|浙江临金高速公路有限公司|浙江义东高速公路有限公司|浙江乐清湾高速公路有限公司|浙江交投交通建设管理有限公司|浙江交投太平交通基础设施股权投资基金（有限合伙）|浙江交投高速公路建设管理有限公司|浙江交投高速公路运营管理有限公司|浙江交通资源投资集团有限公司|浙江台州沈海高速公路有限公司|浙江台州甬台温高速公路有限公司|浙江宁波杭甬复线三期高速公路有限公司|浙江宁波甬台温高速公路有限公司|浙江数智交院科技股份有限公司|浙江景文高速公路有限公司|浙江杭宁高速公路有限责任公司|浙江杭宣高速公路有限公司|浙江杭新景高速公路有限公司|浙江杭海城际铁路有限公司|浙江杭温铁路有限公司|浙江杭甬复线宁波一期高速公路有限公司|浙江杭绍甬高速公路有限公司|浙江沪平盐铁路有限公司|浙江温州市域铁路一号线有限公司|浙江甬舟复线一期高速公路有限公司|浙江省交投控股集团有限公司|浙江省交通投资集团高速公路管理有限公司|浙江省商业集团有限公司|浙江省海运集团股份有限公司|浙江省经济建设投资有限公司|浙江省轨道交通建设管理集团有限公司|浙江省轨道交通运营管理集团有限公司|浙江省铁路发展控股集团有限责任公司|浙江省长三角投资有限公司|浙江舟山北向大通道有限公司|浙江衢丽铁路有限公司|浙江衢松铁路有限公司|浙江诸永高速公路有限公司|浙江路产城发展集团有限公司|浙江金华甬金衢上高速公路有限公司|浙江高信技术股份有限公司|浙江高速物流有限公司|温州市文泰高速公路有限公司|温州市瑞文高速公路有限公司|绍兴柯桥杭金衢联络线高速公路有限公司|金华市东永高速投资有限公司|东港投资发展集团有限公司|杭州农发原乡人农特产有限公司|杭州千岛湖鲟龙科技股份有限公司|浙江农发产业投资有限公司|浙江省现代农业研究会|芜湖信农硬科技投资合伙企业（有限合伙）|黑龙江亚欧牧业有限公司|浙江四港联动发展有限公司|浙江电子口岸有限公司|浙江空港商业经营管理有限责任公司|浙江空港数字科技有限公司|浙江空港资本控股有限公司|上海大宗商品仓单登记有限责任公司|宁波舟山港铁矿石储运有限公司|杭州港务集团有限公司|浙江中澳现代产业园有限公司|浙江义迪通供应链服务有限公司|浙江之迪控股有限公司|浙江海港国际联运有限公司|浙江海港大宗商品交易中心有限公司|浙江海港引航服务有限公司|浙江船舶交易市场有限公司|杭州富格企业管理合伙企业（有限合伙）|杭州松下马达有限公司|汇孚集团有限公司|浙江信联钢铁有限公司|浙江广杰投资管理有限公司|浙江建设融资租赁有限公司|浙江杰尚投资管理有限公司|浙江申达塑料机械有限公司|浙江申达机器制造股份有限公司|浙江省二轻供销总公司|浙江省二轻商业经营管理有限公司|浙江省二轻房地产开发有限公司|浙江省工美控股有限公司|浙江省工艺美术研究院有限公司|浙江省皮革塑料有限公司|浙江省艺创投资发展股份有限公司|浙江省艺创文旅发展有限公司|安邦护卫（浙江）公共安全智慧科技有限公司|浙江丽水安邦护卫有限公司|浙江台州安邦护卫有限公司|浙江嘉兴安邦护卫有限公司|浙江宁波安邦护卫有限公司|浙江安邦护卫安全服务有限公司|浙江安邦护卫科技服务有限公司|浙江杭州安邦护卫有限公司|浙江温州安邦护卫有限公司|浙江湖州安邦护卫有限公司|浙江绍兴安邦护卫有限公司|浙江舟山安邦护卫有限公司|浙江衢州安邦护卫有限公司|上海浙大科技发展有限公司|杭州启真未来创新股权投资合伙企业（有限合伙）|杭州浙大动物医院有限公司|杭州浙大文化创意发展有限公司|杭州紫金港未来创新投资合伙企业（有限合伙）|杭州网新信息控股有限公司|杭州西投启真脑机智能产业运营有限公司|浙江启真人才发展有限公司|浙江大学农业科技园有限公司|浙江大学创新技术研究院有限公司|浙江大学城乡规划设计研究院有限公司|浙江大学杭州国际科创中心发展有限公司|浙江大学科技园发展有限公司|浙江大学能源工程设计研究院有限公司|浙江浙大列车智能化工程技术研究中心有限公司|浙江浙大圆正科技创新服务有限公司|浙江浙大新宇物业集团有限公司|浙江浙大科创集团有限公司|浙江浙大西投脑机智能科技有限公司|浙江钱塘机器人及智能装备研究有限公司|丽水市廉合产权交易有限公司|北京中产智合咨询服务中心（有限合伙）|北京金马甲产权网络交易有限公司|台州市产权交易所有限公司|嘉兴市产权交易有限公司|湖州市联合产权交易有限公司|绍兴市产权交易有限公司|舟山市产权交易中心有限责任公司|衢州市产权交易中心有限公司|浙江省三建建设集团有限公司|'
+        kwL=kwLstr.split('|')
+        for kk in kwL:
+            kwmsg={
+                'kw':kk,
+                'wordsCode':'souhu',
+                'sid':'102002'
+            }
+            kwList.append(kwmsg)
+        return kwList
+    def runLocSpider(self,kwmsg):
+        searchkw=kwmsg['kw']
+        wordsCode=kwmsg['wordsCode']
+        sid=kwmsg['sid']
+        jrttnewsSpider=SouhunewsSpider(searchkw,wordsCode,sid)
+        try:
+            jrttnewsSpider.get_page_html()
+        except Exception as e:
+            logger.info('今日头条搜索异常'+searchkw)
+
+        if jrttnewsSpider.detailList.qsize() != 0:
+            try:
+                jrttnewsSpider.get_detail_html()
+            except Exception as e:
+                logger.info('详情解析异常'+searchkw)
+        logger.info("关键词采集结束！"+searchkw)
 if __name__ == '__main__':
    souhunewsTaskJob=SouhunewsTaskJob()
    baseCore=BaseCore()
@@ -175,11 +203,12 @@ if __name__ == '__main__':
    while True:
        try:
            codeList=[]
-            codeList.append('KW-20220602-0003')
+            codeList.append('KW-20231013-0001')
            for codeid in codeList:
                try:
-                    keymsg=souhunewsTaskJob.getkeyFromredis(codeid)
-                    kwList=souhunewsTaskJob.paserKeyMsg(keymsg)
+                    # keymsg=souhunewsTaskJob.getkeyFromredis(codeid)
+                    # kwList=souhunewsTaskJob.paserKeyMsg(keymsg)
+                    kwList=souhunewsTaskJob.lockwMsg()
                    if len(kwList)<1:
                        continue
                    logger.info(f"需要搜索的关键词:{kwList}")

--- a/test/chrome_curl_cffi.py
+++ b/test/chrome_curl_cffi.py
+
+from curl_cffi import requests
+
+def test1():
+    # 注意这个 impersonate 参数，指定了模拟哪个浏览器
+    r = requests.get("https://tls.browserleaks.com/json", impersonate="chrome101")
+
+    print(r.json())
+
+def test2():
+    proxies={"http": "http://127.0.0.1:1080", "https": "http://127.0.0.1:1080"}
+    r = requests.get("http://baidu.com",
+                     proxies=proxies,
+                     allow_redirects=False,
+                     impersonate="chrome101"
+                     )
+    print(r.text)
+
+def test3():
+    headers = {
+        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36"
+    }
+    url = "http://baidu.com"
+    # 注意这个 impersonate 参数，指定了模拟哪个浏览器
+    response = requests.get(url, headers=headers, impersonate="chrome101")
+    print(response.text)
+
+test3()
+
+
--- a/test/client.conf
+++ b/test/client.conf
+
+# connect timeout in seconds
+# default value is 30s
+connect_timeout=300
+ 
+# network timeout in seconds
+# default value is 30s
+network_timeout=600
+ 
+# the base path to store log files
+#base_path=/home/tarena/django-project/cc_shop1/cc_shop1/logs
+ 
+# tracker_server can ocur more than once, and tracker_server format is
+#  "host:port", host can be hostname or ip address
+tracker_server=114.115.215.96:22122
+ 
+#standard log level as syslog, case insensitive, value list:
+### emerg for emergency
+### alert
+### crit for critical
+### error
+### warn for warning
+### notice
+### info
+### debug
+log_level=info
+ 
+# if use connection pool
+# default value is false
+# since V4.05
+use_connection_pool = false
+ 
+# connections whose the idle time exceeds this time will be closed
+# unit: second
+# default value is 3600
+# since V4.05
+connection_pool_max_idle_time = 3600
+ 
+# if load FastDFS parameters from tracker server
+# since V4.05
+# default value is false
+load_fdfs_parameters_from_tracker=false
+ 
+# if use storage ID instead of IP address
+# same as tracker.conf
+# valid only when load_fdfs_parameters_from_tracker is false
+# default value is false
+# since V4.05
+use_storage_id = false
+ 
+# specify storage ids filename, can use relative or absolute path
+# same as tracker.conf
+# valid only when load_fdfs_parameters_from_tracker is false
+# since V4.05
+storage_ids_filename = storage_ids.conf
+ 
+ 
+#HTTP settings
+http.tracker_server_port=80
+ 
+#use "#include" directive to include HTTP other settiongs
+##include http.conf
--- a/test/logT.py
+++ b/test/logT.py
+from loguru import logger
+logger.add('logs/z_project.log',
+           level='DEBUG',
+           format='{time:YYYY-MM-DD  :mm:ss} - {level} - {file} - {line} - {message}',
+           rotation="10 MB")
+logger.info('可以写日志了')
\ No newline at end of file
--- a/test/pdf识别.py
+++ b/test/pdf识别.py
+import pdfplumber
+import pdfplumber
+import re
+import os
+
+def re_text(bt, text):
+    m1 = re.search(bt, text)
+    if m1 is not None:
+        return re_block(m1[0])
+
+def re_block(text):
+    return text.replace(' ', '').replace('　', '').replace('）', '').replace(')', '').replace('：', ':')
+
+def get_pdf(dir_path):
+    pdf_file = []
+    for root, sub_dirs, file_names in os.walk(dir_path):
+        for name in file_names:
+            if name.endswith('.pdf'):
+                filepath = os.path.join(root, name)
+                pdf_file.append(filepath)
+    return pdf_file
+
+def read():
+    filenames = get_pdf(r'C:\Users\WIN10\Desktop\a')  # 修改为自己的文件目录
+    for filename in filenames:
+        print(filename)
+        with pdfplumber.open(filename) as pdf:
+            first_page = pdf.pages[0]
+            pdf_text = first_page.extract_text()
+            print(pdf_text)
+            if '发票' not in pdf_text:
+                continue
+            # print(pdf_text)
+            print('--------------------------------------------------------')
+            print(re_text(re.compile(r'[\u4e00-\u9fa5]+电子普通发票.*?'), pdf_text))
+            t2 = re_text(re.compile(r'[\u4e00-\u9fa5]+专用发票.*?'), pdf_text)
+            if t2:
+                print(t2)
+            # print(re_text(re.compile(r'发票代码(.*\d+)'), pdf_text))
+            print(re_text(re.compile(r'发票号码(.*\d+)'), pdf_text))
+            print(re_text(re.compile(r'开票日期(.*)'), pdf_text))
+            print(re_text(re.compile(r'名\s*称\s*[:：]\s*([\u4e00-\u9fa5]+)'), pdf_text))
+            print(re_text(re.compile(r'纳税人识别号\s*[:：]\s*([a-zA-Z0-9]+)'), pdf_text))
+            price = re_text(re.compile(r'小写.*(.*[0-9.]+)'), pdf_text)
+
+            print(price)
+            company = re.findall(re.compile(r'名.*称\s*[:：]\s*([\u4e00-\u9fa5]+)'), pdf_text)
+            if company:
+                print(re_block(company[len(company)-1]))
+            print('--------------------------------------------------------')
+
+read()
\ No newline at end of file
--- a/test/pipeiName.py
+++ b/test/pipeiName.py
@@ -7,7 +7,7 @@ import openpyxl
 from urllib.parse import urlparse

 # 打开Excel文件
-workbook = openpyxl.load_workbook('name.xlsx')
+workbook = openpyxl.load_workbook(r'C:\Users\WIN10\Desktop\aa\qiye.xlsx')

 # 获取工作表对象
 worksheet = workbook.active
@@ -17,14 +17,14 @@ qiyedatas=[]
 for row in worksheet.iter_rows(values_only=True):
      qiyemsg={
            'yname':row[0],
-            'name':row[1],
-            'url':row[2]
+            'name':row[0],
+            'url':row[1]
      }
      qiyedatas.append(qiyemsg)
      # 打印每行的数据
      # print(row)

-conn = pymysql.Connect(host='114.116.44.11', port=3306, user='root', passwd='f7s0&7qqtK', db='clb_project',
+conn = pymysql.Connect(host='114.116.44.11', port=3306, user='caiji', passwd='f7s0&7qqtK', db='clb_project',
                       charset='utf8')
 cursor = conn.cursor()
 sql1 = """select id, info_source_code, web_site_name, site_name , site_uri  from  info_source  WHERE web_site_name like '%[name]%' """