当前位置：首页 > 科技 > 正文

python爬虫——站酷数据获取

启示号
科技
6天前
188

1.站酷数据获取

其中需要注意，本文使用了IP代理，以及不同的作品类型，他们详情页url拼接方式不同

import random
import time
import datetime
import requests
import threading
from lxml import etree
import pymysql
class ZhankunSpider(object):
def __init__(self):
self.url = 'https://www.zcool.com.cn/p1/discover/first?p={}&ps=20'
self.mysql = pymysql.connect(host='localhost', database='tenders', port=3306, user='root',
password='123456')
self.cur = self.mysql.cursor()
self.blog = 1
def proxy_get(self):
procy = requests.get(
r'放入IP代理链接').json()['data'][0]
proxy = str(procy["ip"]) + ':' + str(procy["port"])
http = 'http://' + proxy
https = 'https://' + proxy
self.proxys = {'http': http,
'https': https}
print(self.proxys)
# result = requests.get('https://www.baidu.com/',verify=False)
result = requests.get('https://www.baidu.com/')
print(result.status_code)
if result.status_code != 200:
self.proxy_get()
time.sleep(0.2)
return
# self.expire_datetime = datetime.datetime.now() + datetime.timedelta(seconds=60)
def _check_expire(self):
self.expire_datetime = datetime.datetime.now() + datetime.timedelta(seconds=60)
if datetime.datetime.now() >= self.expire_datetime:
self.proxy_get()
# 发送请求
def get_html(self, url):
if self.blog <= 3:
try:
datas = {
'p': 'i',
'column': 5
}
headers = {'Cookie': '登陆后cookie',
'User-Agent':'',}
json_ids = requests.get(url=url, headers=headers, data=datas).json()
return json_ids
except Exception as e:
print(e)
self.blog += 1
self.get_html(url)
# 解析提取数据
def parse_html(self, url):
json_ids = self.get_html(url)
self._check_expire()
if json_ids:
time.sleep(1)
for dic in json_ids['datas']:
titles = dic['content']['title']  #题目
types = dic['content']['typeStr']
viewCountStrs = dic['content']['viewCountStr']   #浏览量
subCateStrs = dic['content']['subCateStr']
cateStrs = dic['content']['cateStr']
url13 = 'https://www.zcool.com.cn/p1/product/'+dic['content']['idStr']
urll = dic['content']['pageUrl']
headers1 = {
'Cookie': '',
'User-Agent': '', }
# self._check_expire()
if 'work' in urll:
url2 = 'https://www.zcool.com.cn/p1/product/' + dic['content']['idStr']
try:
json_idss = requests.get(url=url2, headers=headers1, proxies=self.proxys, timeout=3).json()
except:
self.proxy_get()
json_idss = requests.get(url=url2, headers=headers1, proxies=self.proxys, timeout=3).json()
time.sleep(1)
for dici in json_idss['data']['productImages']:
datass = dici['url']
else:
url2 = 'https://www.zcool.com.cn/p1/article/' + dic['content']['idStr']
try:
json_idss = requests.get(url=url2, headers=headers1, proxies=self.proxys, timeout=3).json()
except:
self.proxy_get()
json_idss = requests.get(url=url2, headers=headers1, proxies=self.proxys, timeout=3).json()
time.sleep(1)
# datass = json_idss['data']['id']
for dici in json_idss['data']['creatorObj']['contentCards']:
datass = dici['cover1x']
timeStamp = dic['content']['timeTitleStr']
# timeArray = time.localtime(timeStamp)  # 转化成对应的时间
# otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)  # 字符串
# date = otherStyleTime
photo = dic['content']['cover1x']
data = {
'title': titles,
'urls': url13,
'address': timeStamp,
'configuration': types,
'grade': viewCountStrs,
'collections': subCateStrs,
'price': cateStrs,
'unit': photo,
'photoadress': datass
}
print(data)
self.save_mysql(data)
def save_mysql(self, data):
# str_sql = "insert into ftx values(0, '{}', '{}');".format(data['first_category'],data['second_category'])
str_sql = "insert into meituan values(0, '{}', '{}', '{}', '{}', '{}', '{}', '{}', '{}', '{}');".format(
data['title'],  data['urls'],data['address'], data['configuration'], data['grade'], data['collections'],
data['price'], data['unit'], data['photoadress'])
self.cur.execute(str_sql)
self.mysql.commit()
def __del__(self):
self.cur.close()
self.mysql.close()
# 入口函数
def run(self):
try:
for i in range(1,5):
url = self.url.format(i)
print(i)
# self.get_html(url)
                self.parse_html(url)
time.sleep(random.randint(2, 4))
# 每次抓取一页要初始化一次self.blog
self.blog = 1
except Exception as e:
print('发生错误', e)
if __name__ == '__main__':
spider = ZhankunSpider()
spider.run()

2.结果展示

你可能想看：

整理python爬虫过程中会遇到的问题，以及如何解决这些问题的方法

在使用python爬虫的过程中，现在我们就来探讨下这些在python爬虫的过程中可能遇到的问题，一般网页的开发者为了不让自己的js代码轻易被别人拷贝，我们可以通过debug来找到js加密解密的代码，爬...

python的基本语法和脚本格式

我们在上一篇文章中已经学会了如何简单的运行python命令和脚本，当Python解释器读取源代码时，第二行注释是为了告诉Python解释器:Python在语义中存在着包、模块、类（当然还有函数）这几个...

对比Excel，轻松学习Python报表自动化实战，这篇教程有点肝!

轻松学习Python报表自动化》中关于报表自动化实战的内容。并教你用Python实现工作中的一个报表自动化实战，1.Excel的基本组成2.一份报表自动化的流程3.报表自动化实战 -当日各项指标同环...

python 知识点大全，建议收藏留用！

经常有读者问我 Java、C++、Python 这些语言怎么选择，这两门语言想要学好、学透都不容易，一些开发非常便捷、库非常丰富的语言也可以掌握一下，从后台开发 Flask、AI、数据分析、爬虫......

python中使用argparse.add_argument_group() 对命令行参数进行概念性分组

parser.add_argument('name':parser.add_argument('--bar_that')，parser.add_argument('--foo_that')。parse...

Photoshop 2022下载

并提供软件资源百度网盘下载，您可以轻松编辑、创建、整理和分享您的照片。您可以轻松编辑、创建、整理和共享照片，您还可以使用智能标签、面部识别等功能快速找到您的照片和视频，您的目录结构会自动备份以便于恢复...

Photoshop调出漂亮外景美女梦幻蓝色调

教程主要使用Photoshop调出漂亮外景美女梦幻蓝色调，其实处理照片时，我们首先需要的是对照片进行风格的设定，这些都是给自己确定自己想要处理成什么效果。接下来的就是对照片素材进行分析，查看照片素材是...

如何用photoshop制作水面倒影

学习如何用photoshop制作逼真的水面倒影，主要用到了置换滤镜和图层蒙版等。首先打开要制作倒影的素材-城堡。把2个图层的白色部分都删除，底部新建图层2，之后选择图层1，添加蒙版黑白直线渐变。选择图...

据称苹果iPhone 11和iPhone 11 Max模具表面照片泄露

并允许苹果提供一个后置人脸ID和更多的增强现实(AR)功能。iPhone XR的续集预计将搭载一个未知尺寸的LCD(液态视网膜)显示屏。我们应该会看到2019年的iphone与2018年的屏幕尺寸相同...

Photoshop软件安装，win系统一键安装介绍，主机配置推荐

有的色彩管理也删除系统色彩不准，adobe已经不支持win7连接服务器。推荐一款在win10+ps2022里面能胜任工作的配置，并不是推荐多么好得配置）一、要不要用最新版的Photoshop我觉得是没...

Photoshop抠图：只用一招，快速抠羽毛、玻璃、火焰等黑色背景图片

我们会看到很多黑色背景的图片，比如玻璃杯.羽毛和火焰等，这种素材的抠图方法很多。今天翼狐网小编要做的就是使用一种方法就能统统搞定了，我们用此法抠羽毛来举例。点击通道”键点击红色通道，如下图出现选区，填...

如何用photoshop批量处理图片大小

打开一张你要处理的图片，另存完后关掉图片。文件－自动－批处理在弹出的对话框中要选填的选项有，选择你要处理的图片所在的文件夹覆盖动作……包含子文件夹……禁止颜色配置警告这三个都勾选上目的，这个动作只能让...

circbase数据库环状RNA序列获取方法 | 环状RNA社区

小编邀请技术部的刘建宁老师继续为大家实例讲解circRNA的引物设计。我们以环状RNA数据库circbase（http:为小伙伴详细介绍从circRNA序列获取到引物设计的全过程。在Search上方的...

计算机犯罪研究系列（一）网络爬虫技术的刑事风险

爬虫的数据收集过程虽然与个人的上网行为类似但又有不同;利用爬虫技术获取数据的行为可能涉嫌非法获取计算机信息系统数据罪”利用爬虫技术获得的该部分数据行为则不存在违法犯罪的刑事风险。的数据时则存在涉嫌构成...

SEER数据库系列|SEER数据库基本介绍

美国国家癌症研究所（National Cancer Institute）的SEER数据库收集了大约30％的美国人口的癌症诊断。从简单地按人群中器官部位枚举癌症的发展到包括通过组织病理学和分子亚型（由驱...

你的数据到底有多重要？这些惊艳的数据可视化案例告诉你 | TED演讲

在本文中他分享了数据背后所蕴含的令人意想不到的重量，今天我想跟大家聊聊两件非常振奋人心的内容，但对苹果公司我不想说太多。没有事物可以像电脑那样改变我们的生活，但我其实也不想聊电脑的事儿。我想聊聊电脑上...

“See the joke”的意思可不是“ 看笑话”！理解错就尴尬了

有些看似很简单的英语句子，可能会导致偏差甚至闹出笑话”几个不能直译的英语句子吧：的意思是”You should speak to him like that.You're going too far....

Three.js框架，菜鸟上路

1．three.js是编写的WebGL第三方库。简单学习视频;支持、webGl的浏览器：Three.js核心库：渲染器对象;场景渲染输出的目标;6. 有关贴图的例子:7.stats.js是一个Java...

英语冠词a,an,the用法大总结！

冠词（Article）是一种虚词，零冠词指的是不用冠词的情况。只能放在名词前帮助说明名词所指的人或事物，1、不定冠词（例如英语中的a/an）用来表示这个冠词后面的名词是指某一类特定事物中的一个，2、定...

Pain in the ass可不是“屁股痛”，理解错就尴尬了

是一个特别常用的表达，这个表达的真实含义跟屁股真的没有关系哦，我们就可以使用这个表达，我知道该更新驾照了，这个新型冠状病毒真是令人讨厌，在美剧《生活大爆炸》里面：Penny评价Sheldon时:就用到...

R语言ggplot2画图-Pathway富集分析气泡图

# 设置工作路径到数据存放的文件夹下,header=T,pbubble = pp + geom_point(aes(size=R0vsR3，high="red") + labs(color=expre...

33thz.com

3thz.com，一个充满神秘色彩的数字域名，似乎隐藏着某种密码或密钥，在这个数字化时代，每一个网址都承载着特定的信息和目的，而33thz.com无疑引起了人们的好奇心，它可能是某个新兴网站的地址，也...

曹渊：还有谁想轻松打造会员系统获取源源不断的客户……

当然我们很多人还没有达到卖项目卖资格卖股权的这个层面。所以说你仅仅研究如何卖会员就足够你去赚的盆满钵满，当你自己想不出来自己这个行业用什么卖会员的方法的时候，就会自我设限的认为卖会员的方法在我这个行业...

如何获取互联网上最好赚钱的产品的6个黄金法则

互联网赚钱就是找到一款有人愿意掏钱购买的产品，通过网络赚钱只需要三步，为什么很多人都没有在互联网上获得高的收入。今天我们就谈下互联网选取产品的黄金法则？你要去卖那些能够治愈客户创伤或者是痛苦的产品：这...

如何识别并阻击多方炮获取利润？

多方炮是指连续的三根K线中，出现多方炮形态，表明第一天多方主导盘面向上开炮，第三天多方再次主导盘面向上开炮，则后期往往会有一波较大的涨幅，中长期趋势向上出现多方炮：一定要深入分析多方炮形成的内在原因及...

49资料图库彩图的获取

49资料图库彩图的获取在当今信息爆炸的时代，高质量的图像资源成为许多设计师、研究人员及爱好者不可或缺的工具，49资料图库以其丰富的彩图资源和专业的内容分类，成为了众多用户的首选平台之一，本文将详细介绍...

红姐资料免费获取

揭秘如何轻松掌握最新资讯在当今信息爆炸的时代,获取有价值的资料成为了许多人追求的目标，而“红姐资料”作为一种备受瞩目的信息资源，其免费获取的方式更是备受关注，如何才能轻松掌握最新的“红姐资料”呢？本文...

上一篇
Excel如何将多个单元格中的内容快速合并至一个单元格中？

下一篇
向他人提供赌博网站账号赌博的行为不构成开设赌场罪

python爬虫——站酷数据获取

最新文章

626969cm精准资料手机版

626969cm资料查询工具

626969手机资料网

最准626969资料查询

研读一本好书丨读《习近平讲党史故事》之“沂蒙六姐妹”故事有感

626969实时资料网

爱你，看不到你时胡思乱想；想你，想你时眼在流泪，心也跟着碎

626969cm精准资料网站

热门文章

欣赏丨世界著名的60幅女人体油画，裸露但不低俗~

小六壬完整解释

小六壬神断口诀大全，掐指一算直断生死！

荨麻疹图片和症状：手脸脖子荨麻疹初期症状图片大全

亲戚关系图（关于中国亲戚称谓）家庭称谓大全，再也不用担心叫错了称呼

珍贵舌诊：脾肾阳虚、虚寒泄泻、胃阴虚的舌苔照，看完记得存！

倪海厦经典配方全集（六）——桂枝汤、大小青龙汤、五苓散等

“四川泸州油纸伞” 的第七代传承人余万伦古法制伞一辈子