本文约字,建议阅读时间6~8分钟
关键字:python,html,xhtml,超标记语言解析器,html.parser
html.parser模块定义了一个解析HTML(超文本标记语言)和XHTML(可扩展超文本标记语言)文本文件的基本服务类HTMLParser。
1、html解析器对象的创建
一个html解析器实例通过html数据生成,并且当遇到标签开始/结束、文本、注释以及其他标记的元素时可以调用相应的处理方法,用户还可以通过创建类HTMLParser的子类来重写相应的方法从而实现预期的行为。但html解析器不会检查结束的标签是否与开始标签匹配或者调用与外部元素靠近的结束标签处理器。
fromhtml.parserimportHTMLParser
html=HTMLParser(convert_charrefs=True)
#convert_charrefs为True(默认)时,所有的字符引用(除了script/style元素)将被自动转换为相应的unicode字符
2、html解析器实例方法
(1)html数据传送
html_data=’htmlheadtitleYouarewel