[스크립트] python beautifulsoup4

Python BeautifulSoup4 Parser

BeautifulSoup4는 HTML 또는 XML 문서를 파싱하여 데이터를 쉽게 추출할 수 있도록 도와주는 Python 라이브러리입니다.

Parser	사용 예시	장점	단점
Python html.parser	BeautifulSoup(markup, "html.parser")	- Python 기본 내장 - 별도 설치 불필요 - 적당한 속도)	- lxml보다 느림 - html5lib보다 관용성이 낮음
lxml HTML parser	BeautifulSoup(markup, "lxml")	- 매우 빠른 속도 - 관용적인 HTML 파싱	- 외부 C 라이브러리 필요
lxml XML parser	BeautifulSoup(markup, "lxml-xml") BeautifulSoup(markup, "xml")	- 매우 빠른 속도 - XML 파싱 지원	- 외부 C 라이브러리 필요
html5lib	BeautifulSoup(markup, "html5lib")	- 가장 관대한 파싱 - 브라우저와 동일한 방식으로 HTML 파싱	- 속도가 매우 느림 - 외부 Python 라이브러리 필요

BeautifulSoup는 기본적으로 Python 내장 parser(html.parser) 를 사용할 수 있지만, 더 빠른 성능을 위해 lxml 사용을 권장합니다.

BeautifulSoup 설치

pip install beautifulsoup4

lxml 설치 (권장)

pip install lxml

html5lib 설치

pip install html5lib

from bs4 import BeautifulSoup

html = "<html><body><h1>Hello</h1></body></html>"

soup = BeautifulSoup(html, "lxml")

print(soup.h1.text)

참고URL

728x90