当前位置：首页 > 科技 > 正文

某网站小电影的爬取

启示号
科技
6天前
160

我们以爬取最新电影为例：

image.png

思路：先获取电影的URL，然后在根据URL来分析网页，最后提取我们需要的信息。

image.png

我们检查网页源码可以发现，我们所要提取的每一部电影的详细URL在

下面的每一个下面的href属性，只要找到每一部电影的URL，我们离爬取电影详情就更加靠近了。

获取每一部电影的详细URL

import requests
from lxml import etree
header = {"User-Agent" :
        "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
          "Referer" : "https://www.dytt8.net/"}
BASE_DOMAIN = 'https://www.dytt8.net/html/gndy/dyzz/list_23_1.html'
response = requests.get(BASE_DOMAIN, headers=header)
text = response.text
html = etree.HTML(text)
all_a = html.xpath("//div[@class='co_content8']//a")
for a in all_a:
    b = "https://www.dytt8.net"
    href = a.xpath("@href")[0]
    if href.startswith('/'):
        a_href = b + href
        # print(a_href)
        url = a_href
        print(url)

接下来就是最重要的了，对我们获取到的电影详细页面进行解析，提取我们需要的信息。

首先获取电影的发布时间和海报的链接：

response = requests.get(url, headers=header)
        text = response.content.decode('gbk')
        html = etree.HTML(text)
        movie = {}
        time = html.xpath("//div[@class='co_content8']/ul//text()")[0].strip()  # strip用来清除空格
        movie['time'] = time
        image = html.xpath("//div[@id='Zoom']//img/@src")[0]
        movie['image'] = image

接下来就是获取电影的名字，产地，导演等信息：

Zooms = html.xpath("//text()")
        for index, info in enumerate(Zooms):
            if info.startswith("◎年　　代"):
                info = info.replace("◎年　　代", "").strip()
                movie['info'] = info
            elif info.startswith("◎主　　演"):
                actors = []
                for x in range(index + 1, len(Zooms)):
                    actor = Zooms[x].strip()
                    # print(actor)
                    if actor.startswith("◎"):
                        break
                    actors.append(actor)
                movie['actor'] = actors
                print(movie)

最后就是我们的运行结果了（示例）：

image.png

之后我们可以按照需求，将我们最终爬取到的详细信息保存到或者是Mysql当中，这里就不在演示怎么保存了！好了，到这里我们这个爬虫小项目就算是完成了。

感兴趣的朋友可以自己即尝试一下，我们下期再见！

你可能想看：

练习手绘之压箱底秘籍！拿走，不谢！（内有小电影）

一看又快一周未更偷懒成习发现也好久没有自拍小视频了，这再不自导自演下估计要无缘今年的金鸡百花奥斯卡之岛国最佳男主角了回首之前玩的几个小视频，感觉确实比较low因为之前也没有什么视频编剪辑的机会，直接就...

举例说明JMETER的用法-某网站压力测试

注意jmeter在测试时会把生成的文件比如htm等直接放在bin目录里，即模拟多线程同时登录和查询。红色部分为软件设置说明没有包括在报告中。每个连接均执行1次登录及10次查询操作。右键单击循环控制器里...

【看电影学中医】中医类电影锦集

影片以厚重的中医文化底蕴和精彩的艺术形式，该片以厚重的中医文化底蕴和精彩的艺术呈现征服了好莱坞的40多位评委“这本凝聚了李时珍三十年心血的伟大药物学著作终于被刻版印出。叶天士出手治伤、治匪于膏肓、奇药...

花卉摄影的创作程式

花卉摄影的创作程式牡丹花尤其是写意、包含大写意花鸟画，几乎从少年到老年、从手机到单反，无论人物、建筑、风光、街拍、花花草草、鸟儿昆虫，拍出具有较高审美性和艺术性的作品，能够达到...

调理手颤、手麻、脚麻、面部神经麻痹，记住这几个立竿见影的穴位

可治手颤（左右手臂内侧），按揉足太阴脾经的公孙穴，若配以心包经的内关穴同时使用，手麻、胳膊麻、胳膊肘痛、食指痛。经络技巧公众号提示一旦心血管系统的功能出现障碍，所以脑供血不足手脚冰冷又和心脏血管有很大...

浅谈摄影的看图与读图

学习摄影的过程，也是提高摄影技艺和提升创作水平的重要方法，应该贯穿一个摄影人的全部摄影过程，艺术的表达方式也是不断发展的，摄影创作的思路也应该与时俱进，现就摄影不同阶段的看图、读图：虽然这个阶段对摄影...

和林徽因合影的“她”是谁？

【导读】五台山佛光寺东大殿知名度甚高，且集唐代彩塑、壁画、墨书题记等多种珍贵遗存于一殿”现存寺院塑像竟达14万余身，崔元和先生集多年心血而成的学术专著《五台山寺院造像稽考》（上、下）。为近年来五台山佛...

立杆见影的小方子

所涉及到各类药方、验方仅做信息分享，如有需要请在医生的指导下辩证使用,公布一个治痱子立杆见影的小方子,每次胃痛时开水送服3分,再对症下汤药治本：这是我屡试屡验的祖传秘方.今忍心将此公开：再放入煎好的川...

学习电影剪辑没有素材？这8个音视频网站够你用了！

Mixkit同样也是一个免费可商用的视频素材网站，该网站视频素材偏重于都市生活、办公化场景:这也是一个免费的视频素材网站，Pexels是一个免费无版权的图库以及视频素材网站，可在该网站上搜索下载高清图...

【广东】胡锦华《电影“长津湖”观后感》指导老师：邓丽红

电影《长津湖》观后感，我看了一部爱国主义电影---《长津湖》，这部影片讲的是1950年美军想占领朝鲜。我们伟大的领袖毛主席知道这场战役必将唇亡齿寒，也没有任何先进的武装设备的情况下还是决定出兵抗美援朝...

COVID-19将会彻底改变电影艺术

一种神秘的病毒在数天之内导致了无数痛苦的死亡，死亡人数在1700万到1亿之间——这一事件的数据至今仍不准确——并从根本上改变了社会的进程。唯一能做的就是将患者与社会上的其他人隔离开来，他们不知道这场大...

100部老电影欣赏【经典视听】

岁月的光影在记忆的年轮中老去，在一遍遍电影的回放中复活重生，电影就是孩子窥视世界的启蒙之门，想到电影中的景象，沉到怀旧的梦境中去，它的导游也会历数家珍般提到这个电影、拍电影的过程，老电影的情感表达也许...

5分钟讲完一部电影：如何通过影视解说号赚钱？

可能你会想起毒舌电影、乌鸦电影……曾经野蛮增长过的抖音影视解说市场中，出现了很多年收入百万到千万级别的自媒体账号，船员们正在准备进行自己第一批解说视频的制作。其中包含了影视解说号在起号阶段重点要做的心...

刷完25部007电影，科学家认为，邦德太不讲个人卫生了！

詹姆斯邦德遇到的与旅行相关的健康威胁。花费了大约 3113 分钟对 25 部 007 系列电影进行了系统分析法案发现——，全球跑的詹姆斯·邦德要是再不注意个人卫生，这个研究团队具体发现了哪些健康风险”...

电影《罗马假日》主题曲--《难以忘怀》吉姆·里夫斯

《Am I That Easy To Forget（难以忘怀）》是电影《罗马假日》的主题曲。故事讲述了一位欧洲某公国的公主与一个美国记者之间在意大利罗马一天之内发生的浪漫爱情故事。他甜美的男中音在温暖...

流浪题材不应让科幻沦为流浪——电影《流浪地球》面面观

只看美国科幻大片而不见相关中国作品的身影，中国人的艺术想象力超脱现实后就只限于盗墓西游和打怪吗？《流浪地球》非常迎合时宜地为中国探测器二次登月成功做了侧面注脚。中国人看了以后心里挺美、挺得意——我们中...

视觉法与心理预演：你脑内的电影院

我们以类似的方式学习几乎所有知道如何做的事情。大脑和身体如何达到所学习技能变得自动掌握的程度，一个人可以在他们的大脑中想像完成一个物理运动技能，他们通过想像自己在每天与第一组相同的时间长度的经验中心理...

36万人推荐！豆瓣9.0分：这部电影，道尽了人生八苦！

生动刻画了人生不同阶段面临的困惑：带我们再次温习了每个人的成长旅途,8岁小男孩洋洋一家参加舅舅婚礼，妈妈照顾外婆期间心理崩溃”洋洋用气球模仿舅妈怀孕的大肚子，或许这是杨德昌留给世人的思考吧。看见生命的...

让·雷诺阿电影经典：大幻灭

在狱中表现出了的不同的态度和性格（曾写过小说的雷诺阿在拍摄中非常善于刻画人物性格），非常生活化的交流和联欢让我们感觉到他们似乎是一群玩过家家游戏的孩子，三名军官却被重新调配到更高级的战俘集中营中以防备...

百部精典电影随你选随你看！

0893:42バーは酩酊する女子＜三＞点击以上片名:(即看精采电影)。

人民日报公布了24部儿童必看的电影，每一...

带孩子认识世界，教会孩子坚强，让孩子拥有直面困难的勇气。很多家长抱怨孩子在家就玩手机、看电视，其实父母可以转换一些思维，选择和孩子共同做一些事情。可以陪孩子看看儿童电影，通过电影的情节教育孩子，新手爸...

《闻香识女人》影评_影评_电影频道_鸿波网视

其实《闻香识女人》更是一部男人的电影，那还是因为影片男主人公的生活里面缺少着太多的情感生活，有点专注着描绘那些有关于闻香识女人的情形了，那一曲探戈舞几乎成为了这一部影片男主人公个性生活的一个活性注解。...

十部欧美经典电影经典语录、经典台词

有些鸟儿是注定不会被关在牢笼里的。3.Hope is a good thing and maybe the best of things. And no good thing ever dies.希望...

电影分析《摔跤吧！爸爸》

的热血养成史以及片中严厉苛刻的父亲形象在国内观众中引发了热议，却将为印度赢得世界金牌的梦想寄托在有惊人摔跤天赋的女儿吉塔和巴比塔身上，慢慢在这个过程中理解了父亲、找到了人生的意义与价值，就能够猜到是以...

《二十四孝》微电影 08 拾葚异器

蔡顺拾葚蔡顺丧父。拾葚奉母。赤黑分筐。汉蔡顺、少孤。事母孝。遭王莽乱。赤者自食。火遂越烧他室。人子于丁艰之际。抱而号哭。火越他宅。拾葚犹其余事耳。他服事母亲，那时候正逢着王莽的变乱，没有饭吃了。...

《二十四孝》微电影 09 埋儿奉母

《二十四孝》微电影 09 埋儿奉母。郭巨埋儿。汉郭巨、字文举。子尚幼。一日、子溺毙。妻惶泣。盍埋之。妻不敢违。遂掘坑三尺。始知子可再有。母不可复得之言。孰谓皇天无眼耶，他有个儿子还很幼小，郭巨的母亲常...

《二十四孝》微电影 10 芦衣顺母

孝哉闵子。父娶后妻。父令损御车。父察知之。欲逐后妻。损启父曰。父善其言而止。李文耕谓闵子留母之语。卒之全母全弟全父，姓闵名叫损的。生他的母亲，他的父亲娶了一个后妻，生了两个儿子。他的父亲叫闵损推车子出...

url

上一篇
港澳猪八戒唯一网站

下一篇
大清银币什么版本好卖？

某网站小电影的爬取

最新文章

626969cm精准资料手机版

626969cm资料查询工具

626969手机资料网

最准626969资料查询

研读一本好书丨读《习近平讲党史故事》之“沂蒙六姐妹”故事有感

626969实时资料网

爱你，看不到你时胡思乱想；想你，想你时眼在流泪，心也跟着碎

626969cm精准资料网站

热门文章

欣赏丨世界著名的60幅女人体油画，裸露但不低俗~

小六壬完整解释

小六壬神断口诀大全，掐指一算直断生死！

荨麻疹图片和症状：手脸脖子荨麻疹初期症状图片大全

亲戚关系图（关于中国亲戚称谓）家庭称谓大全，再也不用担心叫错了称呼

珍贵舌诊：脾肾阳虚、虚寒泄泻、胃阴虚的舌苔照，看完记得存！

倪海厦经典配方全集（六）——桂枝汤、大小青龙汤、五苓散等

“四川泸州油纸伞” 的第七代传承人余万伦古法制伞一辈子