审计法规 02/06

422c5516 · LiuLiYuan · e976fee1 · 422c5516
--- a/shenji/sclx.py
+++ b/shenji/sclx.py
+import time
+import pandas as pd
 import requests
 from bs4 import BeautifulSoup
 from retry import retry
@@ -69,11 +72,13 @@ def getHref(Keywords):
        href = 'https://sclx.pkulaw.com' + tag.get('url')
    except:
        href = ''
+    time.sleep(1)
    return href
 @retry(tries=2, delay=5)
 def getData(href):
+    data = []
    ip = baseCore.get_proxy()
    req = requests.get(href, headers=headers, proxies=ip, verify=False)
    req.encoding = req.apparent_encoding
@@ -89,15 +94,18 @@ def getData(href):
            relevance = li.find('div', class_='relevance').text.strip()
        except:
            relevance = ''
-        log.info(f'{publishDate}==={theme}==={relevance}')
+        data.append([publishDate,theme,relevance])
+    time.sleep(1)
+    return data
 def doJob():
+    data = []
    Keywords = '中华人民共和国公司法(2023修订)'
    href = getHref(Keywords)
    if href:
-        getData(href)
+        data += getData(href)
+    df = pd.DataFrame(data)
+    print(df)
 if __name__ == '__main__':
    doJob()