## 目的 1. 爬取盗版电影天堂 2. 设置分类,获取指定类型的电影下载链接 ## 流程 1. 获取主页源码 2. 筛选主页源码中各个类型电影的榜单 3. 获取各个榜单中电影的详情页链接 4. 获取各个详情页的源码 5. 筛选详情页源码,获取需要的下载链接,并输出 ## 分析代码 ### 1. 获取网页 ``` url= "https://www.dytt89.com" headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"} ##设置UA,防止反爬 resp=requests.get(url,*headers*=headers) ##通过request.get获取网页源码 resp.encoding = "gbk" ##根据网站编码类型调整 ``` ### 2. 摘取需要的内容 - 利用re模块,编写相应规则 - 使用re.compile编写规则 - 如`obj=re.compile(r'.*?href=\'(?P.*?)\'', re.S)` - `re.S` 是 Python 中 `re` 模块中的一个标志,它用于改变正则表达式的行为,使得点号(`.`)可以匹配包括换行符在内的所有字符 ### 3. 获取榜单子页面链接 1. 用re.finditer获取所有内容 ``` obj1=re.compile(rf'{re.escape(movie_type)}.*?(?P.*?) ', re.S) result=obj1.finditer(resp.text) ``` 其中定义所需要获取的内容为bangdan 利用`{re.escape()}`来引入变量 2. 用循环输出所需要的内容 ``` for i in result: ul=i.group("bangdan") ``` 3. 初始化一个空列表,用于存储链接 ``` quanlianjie=[] ``` 3. 同步骤一的方法,获取每个榜单的链接 ``` obj2=re.compile(r'.*?href=\'(?P.*?)\'', re.S) result2=obj2.finditer(ul) for a in result2: lianjie=url+a.group("link") quanlianjie.append(lianjie) ``` 其中,利用append将合成好的链接放于列表中,方便下一次循环使用 ### 4. 创建文件存储输出结果 ```python with open(f'{movie_type}.txt', 'w', encoding='utf-8') as f ``` 以写入模式(`'w'`)打开一个名为 `movie_type.txt` 的文件,其中 `movie_type` 是一个变量,当执行时会被替换为其值 encoding='utf-8'` 指定了文件的编码格式为 UTF-8 这行代码的上下文是将从电影详情页中提取的磁力链接写入到该文件中 ### 5. 同上流程获取子页面源码,并筛选 ``` for i in quanlianjie: resp2=requests.get(i,headers=headers) resp2.encoding = "gbk" obj3=re.compile(r'(?P.*?)', re.S) result3=obj3.finditer(resp2.text) for j in result3: magnet=j.group("magnet") ``` ### 6. 写入文件 ``` f.write(magnet + '\n') ``` 目的爬取盗版电影天堂设置分类,获取指定类型的电影下载链接流程获取主页源码筛选主页源码中各个类型电影的榜单获取各个榜单中电影的详情页链接获取各个详情页的源码筛选详情页源码,获取需要的下载链接,并输出分析代码1. 获取网页url= "https://www.dytt89.com" headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"} ##设置UA,防止反爬 resp=requests.get(url,*headers*=headers) ##通过request.get获取网页源码 resp.encoding = "gbk" ##根据网站编码类型调整2. 摘取需要的内容利用re模块,编写相应规则使用re.compile编写规则如obj=re.compile(r'<li>.*?href=\'(?P<link>.*?)\'', re.S)re.S 是 Python 中 re 模块中的一个标志,它用于改变正则表达式的行为,使得点号(.)可以匹配包括换行符在内的所有字符3. 获取榜单子页面链接用re.finditer获取所有内容obj1=re.compile(rf'{re.escape(movie_type)}.*?<ul>(?P<bangdan>.*?) </ul>', re.S) result=obj1.finditer(resp.text)其中定义所需要获取的内容为bangdan利用{re.escape()}来引入变量用循环输出所需要的内容for i in result: ul=i.group("bangdan")初始化一个空列表,用于存储链接quanlianjie=[]同步骤一的方法,获取每个榜单的链接obj2=re.compile(r'<li>.*?href=\'(?P<link>.*?)\'', re.S) result2=obj2.finditer(ul) for a in result2: lianjie=url+a.group("link") quanlianjie.append(lianjie)其中,利用append将合成好的链接放于列表中,方便下一次循环使用4. 创建文件存储输出结果with open(f'{movie_type}.txt', 'w', encoding='utf-8') as f以写入模式('w')打开一个名为 movie_type.txt 的文件,其中 movie_type 是一个变量,当执行时会被替换为其值encoding='utf-8'` 指定了文件的编码格式为 UTF-8这行代码的上下文是将从电影详情页中提取的磁力链接写入到该文件中5. 同上流程获取子页面源码,并筛选for i in quanlianjie: resp2=requests.get(i,headers=headers) resp2.encoding = "gbk" obj3=re.compile(r'<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href=".*?">(?P<magnet>.*?)</a>', re.S) result3=obj3.finditer(resp2.text) for j in result3: magnet=j.group("magnet")6. 写入文件f.write(magnet + '\n') 最后修改:2025 年 07 月 18 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏 文章引用 反向引用 Loading... 暂未引用其他文章 暂未被其它文章引用 下一篇 上一篇 发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论,继续评论表示您已同意该条款 评论 * 私密评论 名称 * 🎲 邮箱 * 地址 发表评论 提交中... 8 条评论 Loading... 鍗庣撼鍏徃鍚堜綔寮€鎴锋墍闇€鏉愭枡锛熺數璇濆彿鐮?5587291507 寰俊STS5099 搜狗浏览器 2.X Windows 10 中国 北京 新国信通信有限公司 CN AS 发送于 2025年11月9日 01:15 果博东方客服开户联系方式【182-8836-2750—】?薇- cxs20250806】 果博东方公司客服电话联系方式【182-8836-2750—】?薇- cxs20250806】 果博东方开户流程【182-8836-2750—】?薇- cxs20250806】 果博东方客服怎么联系【182-8836-2750—】?薇- cxs20250806】 回复 kfjbimjndb 搜狗浏览器 2.X Windows 10 亚太地区 发送于 2025年10月7日 09:10 2025年10月新盘 做第一批吃螃蟹的人coinsrore.com 新车新盘 嘎嘎稳 嘎嘎靠谱coinsrore.com 新车首发,新的一年,只带想赚米的人coinsrore.com 新盘 上车集合 留下 我要发发 立马进裙coinsrore.com 做了几十年的项目 我总结了最好的一个盘(纯干货)coinsrore.com 新车上路,只带前10个人coinsrore.com 新盘首开 新盘首开 征召客户!!!coinsrore.com 新项目准备上线,寻找志同道合 的合作伙伴coinsrore.com 新车即将上线 真正的项目,期待你的参与coinsrore.com 新盘新项目,不再等待,现在就是最佳上车机会!coinsrore.com 新盘新盘 这个月刚上新盘 新车第一个吃螃蟹!coinsrore.com 回复 wkjykcnmsx 搜狗浏览器 2.X Windows 10 中国 湖北 十堰 电信 CN AS 发送于 2024年11月24日 04:15 《加百利的地狱3》剧情片高清在线免费观看:https://www.jgz518.com/xingkong/129053.html 回复 ohgsrvgrht 搜狗浏览器 2.X Windows 10 美国 纽约州 伊利 ColoCrossing有限公司 US NA 发送于 2024年11月23日 06:05 你的才华横溢,让人敬佩。 http://www.55baobei.com/ImIDHyBY1E.html 回复 ohvugsqpvj 搜狗浏览器 2.X Windows 10 美国 纽约州 伊利 ColoCrossing有限公司 US NA 发送于 2024年11月19日 06:09 看到你的文章,我仿佛感受到了生活中的美好。 https://www.yonboz.com/video/69089.html 回复 ulmfjpvpmf 搜狗浏览器 2.X Windows 10 美国 纽约州 伊利 ColoCrossing有限公司 US NA 发送于 2024年11月16日 05:39 看到你的文章,我仿佛感受到了生活中的美好。 https://www.yonboz.com/video/69089.html 回复 azmmkwyyxj 搜狗浏览器 2.X Windows 10 美国 纽约州 伊利 ColoCrossing有限公司 US NA 发送于 2024年11月15日 06:13 你的文章让我学到了很多知识,非常感谢。 http://www.55baobei.com/7HZ2VpKSvw.html 回复 greqbnllxb 搜狗浏览器 2.X Windows 10 美国 纽约州 伊利 ColoCrossing有限公司 US NA 发送于 2024年11月12日 05:57 你的文章让我感受到了快乐,每天都要来看一看。 https://www.yonboz.com/video/27894.html 回复 爬虫练习1——获取电影天堂磁力链接 Domye • 2024 年 11 月 07 日 文章目录