爬虫练习1——获取电影天堂磁力链接

Domye

2024 年 11 月 07 日

604 次浏览

8 条评论

1819字数

项目笔记

目的

爬取盗版电影天堂
设置分类，获取指定类型的电影下载链接

流程

获取主页源码
筛选主页源码中各个类型电影的榜单
获取各个榜单中电影的详情页链接
获取各个详情页的源码
筛选详情页源码，获取需要的下载链接，并输出

分析代码

1. 获取网页

url= "https://www.dytt89.com"

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"}  ##设置UA，防止反爬

resp=requests.get(url,*headers*=headers)  ##通过request.get获取网页源码

resp.encoding = "gbk" ##根据网站编码类型调整

2. 摘取需要的内容

利用re模块，编写相应规则
使用re.compile编写规则
如obj=re.compile(r'<li>.*?href=\'(?P<link>.*?)\'', re.S)
re.S 是 Python 中 re 模块中的一个标志，它用于改变正则表达式的行为，使得点号（.）可以匹配包括换行符在内的所有字符

3. 获取榜单子页面链接

用re.finditer获取所有内容

obj1=re.compile(rf'{re.escape(movie_type)}.*?<ul>(?P<bangdan>.*?) </ul>', re.S)
result=obj1.finditer(resp.text)

其中定义所需要获取的内容为bangdan

利用{re.escape()}来引入变量

用循环输出所需要的内容

for i in result:
  ul=i.group("bangdan")

初始化一个空列表，用于存储链接

quanlianjie=[]

同步骤一的方法，获取每个榜单的链接

obj2=re.compile(r'<li>.*?href=\'(?P<link>.*?)\'', re.S)
result2=obj2.finditer(ul)
for a in result2:
    lianjie=url+a.group("link")
    quanlianjie.append(lianjie)

其中，利用append将合成好的链接放于列表中，方便下一次循环使用

4. 创建文件存储输出结果

with open(f'{movie_type}.txt', 'w', encoding='utf-8') as f

以写入模式（'w'）打开一个名为 movie_type.txt 的文件，其中 movie_type 是一个变量，当执行时会被替换为其值

encoding='utf-8'` 指定了文件的编码格式为 UTF-8

这行代码的上下文是将从电影详情页中提取的磁力链接写入到该文件中

5. 同上流程获取子页面源码，并筛选

for i in quanlianjie:    
        resp2=requests.get(i,headers=headers) 
        resp2.encoding = "gbk"
        obj3=re.compile(r'<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href=".*?">(?P<magnet>.*?)</a>', re.S)
        result3=obj3.finditer(resp2.text)
        for j in result3:
            magnet=j.group("magnet")

6. 写入文件

f.write(magnet + '\n')

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

鍗庣撼鍏徃鍚堜綔寮€鎴锋墍闇€鏉愭枡锛熺數璇濆彿鐮?5587291507 寰俊STS5099 搜狗浏览器 2.X Windows 10 中国北京新国信通信有限公司 CN AS
发送于 2025年11月9日 01:15

果博东方客服开户联系方式【182-8836-2750—】?薇- cxs20250806】
果博东方公司客服电话联系方式【182-8836-2750—】?薇- cxs20250806】
果博东方开户流程【182-8836-2750—】?薇- cxs20250806】
果博东方客服怎么联系【182-8836-2750—】?薇- cxs20250806】

回复
kfjbimjndb 搜狗浏览器 2.X Windows 10 亚太地区
发送于 2025年10月7日 09:10

2025年10月新盘做第一批吃螃蟹的人coinsrore.com
新车新盘嘎嘎稳嘎嘎靠谱coinsrore.com
新车首发，新的一年，只带想赚米的人coinsrore.com
新盘上车集合留下我要发发立马进裙coinsrore.com
做了几十年的项目我总结了最好的一个盘（纯干货）coinsrore.com
新车上路，只带前10个人coinsrore.com
新盘首开新盘首开征召客户！！！coinsrore.com
新项目准备上线，寻找志同道合的合作伙伴coinsrore.com
新车即将上线真正的项目，期待你的参与coinsrore.com
新盘新项目，不再等待，现在就是最佳上车机会！coinsrore.com
新盘新盘这个月刚上新盘新车第一个吃螃蟹！coinsrore.com

回复
wkjykcnmsx 搜狗浏览器 2.X Windows 10 中国湖北十堰电信 CN AS
发送于 2024年11月24日 04:15

《加百利的地狱3》剧情片高清在线免费观看：https://www.jgz518.com/xingkong/129053.html

回复
ohgsrvgrht 搜狗浏览器 2.X Windows 10 美国纽约州伊利 ColoCrossing有限公司 US NA
发送于 2024年11月23日 06:05

你的才华横溢，让人敬佩。 http://www.55baobei.com/ImIDHyBY1E.html

回复
ohvugsqpvj 搜狗浏览器 2.X Windows 10 美国纽约州伊利 ColoCrossing有限公司 US NA
发送于 2024年11月19日 06:09

看到你的文章，我仿佛感受到了生活中的美好。 https://www.yonboz.com/video/69089.html

回复
ulmfjpvpmf 搜狗浏览器 2.X Windows 10 美国纽约州伊利 ColoCrossing有限公司 US NA
发送于 2024年11月16日 05:39

看到你的文章，我仿佛感受到了生活中的美好。 https://www.yonboz.com/video/69089.html

回复
azmmkwyyxj 搜狗浏览器 2.X Windows 10 美国纽约州伊利 ColoCrossing有限公司 US NA
发送于 2024年11月15日 06:13

你的文章让我学到了很多知识，非常感谢。 http://www.55baobei.com/7HZ2VpKSvw.html

回复
greqbnllxb 搜狗浏览器 2.X Windows 10 美国纽约州伊利 ColoCrossing有限公司 US NA
发送于 2024年11月12日 05:57

你的文章让我感受到了快乐，每天都要来看一看。 https://www.yonboz.com/video/27894.html

回复

爬虫练习1——获取电影天堂磁力链接

目的

流程

分析代码

1. 获取网页

2. 摘取需要的内容

3. 获取榜单子页面链接

4. 创建文件存储输出结果

5. 同上流程获取子页面源码，并筛选

6. 写入文件

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

8 条评论

P2141 [NOIP2014 普及组] 珠心算测验题目分析

我与地坛，小感

P1055 [NOIP2008 普及组] ISBN 号码题目分析

爬虫练习1——获取电影天堂磁力链接

P1002 [NOIP2002 普及组] 过河卒题目分析

Redisson实现分布式锁

P2141 [NOIP2014 普及组] 珠心算测验题目分析

AHUT考勤系统自动签到分析

StringRedisTemplate使用笔记

JWT令牌详细解析

爬虫练习1——获取电影天堂磁力链接

目的

流程

分析代码

1. 获取网页

2. 摘取需要的内容

3. 获取榜单子页面链接

4. 创建文件存储输出结果

5. 同上流程获取子页面源码，并筛选

6. 写入文件

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

8 条评论

爬虫练习1——获取电影天堂磁力链接

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款