提交 22a5f6f6 作者: 丁双波

美国俄罗斯数据采集

上级 eaa6815d
...@@ -369,7 +369,7 @@ class BaseCore: ...@@ -369,7 +369,7 @@ class BaseCore:
if beginStr=='': if beginStr=='':
pass pass
else: else:
begin=str.find(beginStr) begin=str.rfind(beginStr)
if begin==-1: if begin==-1:
begin=0 begin=0
str=str[begin:] str=str[begin:]
...@@ -425,11 +425,18 @@ class BaseCore: ...@@ -425,11 +425,18 @@ class BaseCore:
IP = socket.gethostbyname(socket.gethostname()) IP = socket.gethostbyname(socket.gethostname())
return IP return IP
def mkPath(self,path):
folder = os.path.exists(path)
if not folder: # 判断是否存在文件夹如果不存在则创建为文件夹
os.makedirs(path) # makedirs 创建文件时如果路径不存在会创建这个路径
else:
pass
# 生成google模拟浏览器 必须传入值为googledriver位置信息 # 生成google模拟浏览器 必须传入值为googledriver位置信息
# headless用于决定是否为无头浏览器,初始默认为无头浏览器 # headless用于决定是否为无头浏览器,初始默认为无头浏览器
# 正常浏览器可用于开始对页面解析使用或一些网站无头时无法正常采集 # 正常浏览器可用于开始对页面解析使用或一些网站无头时无法正常采集
# 无头浏览器用于后续对信息采集时不会有浏览器一直弹出, # 无头浏览器用于后续对信息采集时不会有浏览器一直弹出,
def buildDriver(self, path, headless=True): def buildDriver(self, path, headless=True):
service = Service(path) service = Service(path)
chrome_options = webdriver.ChromeOptions() chrome_options = webdriver.ChromeOptions()
if headless: if headless:
...@@ -442,7 +449,7 @@ class BaseCore: ...@@ -442,7 +449,7 @@ class BaseCore:
chrome_options.add_argument('user-agent=' + self.getRandomUserAgent()) chrome_options.add_argument('user-agent=' + self.getRandomUserAgent())
# 'user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36') # 'user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36')
driver = webdriver.Chrome(chrome_options=chrome_options, service=service) driver = webdriver.Chrome(options=chrome_options, service=service)
# with open(r'F:\zzsn\zzsn_spider\base\stealth.min.js') as f: # with open(r'F:\zzsn\zzsn_spider\base\stealth.min.js') as f:
# js = f.read() # js = f.read()
# #
...@@ -578,3 +585,4 @@ class BaseCore: ...@@ -578,3 +585,4 @@ class BaseCore:
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论