包虫病

注册

 

发新话题 回复该主题

Python提取百度网盘的文件名列表 [复制链接]

1#

大家好我是蚂蚁,给大家分享一个提取网页信息的小技巧。

#背景

我自己录制了很多视频课程,都放在百度网盘。

我想要把一个课程的视频列表名称复制下来,复制到一个word文档。

这些文件,在百度网盘是这样的:

一个个复制?NONO,我是程序员,我只复制代码,这种文本让我一个个复制,我会疯掉的。

#解决方案

做一个百度网盘爬虫,先下载解析?成本太大了,其实我的课程不多,也就10门课。

那么,爬取的步骤,只需要用手工保存就行了,把保存的HTML自己做解析就可以了。

#步骤1:手工保存当前网页

这是进入不同的百度网盘页面,保存的HTML静态网页内容。

#步骤2:打开jupyternotebook写代码

##步骤2.1读取文件内容到beautifoulsoup

##步骤2.2分析网页的文件标题所在的HTML位置

用chrome的f12就可以分析

可以看到div的class=file_name就可以定位到文件

##步骤2.3用beautifulsoup解析即可

然后复制这里的文本,就搞定了。

#广告时间

给大家推荐下我的Python视频系列,套餐包含10们Python课程。

扫码购买,购买后加VX:ant_learn_python答疑

点击下方阅读原文,可以直达课程页面。

预览时标签不可点收录于话题#个上一篇下一篇
分享 转发
TOP
发新话题 回复该主题