需要安装BeautifulSoup库。可以使用pip命令进行安装:
pip install beautifulsoup4
在代码中导入BeautifulSoup:
from bs4 import BeautifulSoup
使用BeautifulSoup解析HTML很简单,只需要传入HTML文本和解析器即可:
soup = BeautifulSoup(html_doc, 'html.parser')
其中,html_doc是包含HTML内容的字符串,'html.parser'是使用的解析器。
BeautifulSoup提供许多方法来搜索和遍历HTML文档,如 find()
、find_all()
、select()
等。这些方法可以根据标签名、属性、文本内容等条件查找元素。
遍历文档树也很简单,可以使用 children
、descendants
、parents
等属性。
使用BeautifulSoup还可以修改HTML文档,如添加、删除或修改标签和属性。修改后,可以使用 prettify()
方法将文档保存为格式良好的HTML。