大家好我是蚂蚁,给大家分享一个提取网页信息的小技巧。
#背景
我自己录制了很多视频课程,都放在百度网盘。
我想要把一个课程的视频列表名称复制下来,复制到一个word文档。
这些文件,在百度网盘是这样的:
一个个复制?NONO,我是程序员,我只复制代码,这种文本让我一个个复制,我会疯掉的。
#解决方案
做一个百度网盘爬虫,先下载解析?成本太大了,其实我的课程不多,也就10门课。
那么,爬取的步骤,只需要用手工保存就行了,把保存的HTML自己做解析就可以了。
#步骤1:手工保存当前网页
这是进入不同的百度网盘页面,保存的HTML静态网页内容。
#步骤2:打开jupyternotebook写代码
##步骤2.1读取文件内容到beautifoulsoup
##步骤2.2分析网页的文件标题所在的HTML位置
用chrome的f12就可以分析
可以看到div的class=file_name就可以定位到文件
##步骤2.3用beautifulsoup解析即可
然后复制这里的文本,就搞定了。
#广告时间
给大家推荐下我的Python视频系列,套餐包含10们Python课程。
扫码购买,购买后加VX:ant_learn_python答疑
点击下方阅读原文,可以直达课程页面。
预览时标签不可点收录于话题#个上一篇下一篇