[MẸO] Cách sửa thẻ HTML - Python

By JoeVu, at: 10:46 Ngày 09 tháng 6 năm 2024

Thời gian đọc ước tính: __READING_TIME__ phút

[TIPS] How to correct HTML tags - Python
[TIPS] How to correct HTML tags - Python

Để sửa các thẻ HTML bị lỗi bằng Python, bạn có thể sử dụng các thư viện như BeautifulSoup từ mô-đun bs4. BeautifulSoup rất mạnh mẽ để phân tích cú pháp và sửa HTML.

 

Đây là hướng dẫn từng bước về cách sử dụng nó:

 

Bước 1: Cài đặt BeautifulSoup

 

Nếu bạn chưa cài đặt BeautifulSoup và lxml (một thư viện phân tích cú pháp), bạn có thể cài đặt chúng bằng pip:

 

pip install beautifulsoup4 lxml

 

Bước 2: Sử dụng BeautifulSoup để Phân tích cú pháp và Sửa HTML

 

Đây là một ví dụ về một script đọc một chuỗi HTML, phân tích cú pháp nó bằng BeautifulSoup, sau đó xuất ra HTML đã được sửa.

 

from bs4 import BeautifulSoup

# Ví dụ về nội dung HTML bị lỗi
messed_up_html = """ NỘI DUNG HTML LỖI CỦA BẠN """

# Phân tích cú pháp HTML
soup = BeautifulSoup(messed_up_html, 'lxml')

# In HTML đã được sửa đẹp mắt
corrected_html = soup.prettify()
print(corrected_html)

 

Đây là nội dung các thẻ html bị lỗi

 

Messy html tags content

 

Giải thích

 

  • BeautifulSoup: Một thư viện Python để phân tích cú pháp các tài liệu HTML và XML. Nó tạo một cây phân tích cú pháp từ mã nguồn trang web có thể được sử dụng để trích xuất dữ liệu từ HTML.

 

  • lxml: Một trình phân tích cú pháp cho BeautifulSoup. Nó nhanh hơn và linh hoạt hơn với HTML bị hỏng so với trình phân tích cú pháp mặc định.

 

Kết quả

 

Phương thức prettify định dạng HTML một cách đẹp mắt. HTML đã được sửa sẽ trông giống như sau:

 

from bs4 import BeautifulSoup

# Chuỗi HTML bị lỗi từ trước
messy_html = """

Chào mừng đến với Trang web năm 1999 của tôi!!


 
 

Đây là một đoạn văn mà không bao giờ thực sự kết thúc vì các thẻ thì ở khắp mọi nơi.
Kiểm tra văn bản cuộn này!

 
Định dạng bảng không tốt Không có thẻ đóng



Nhấn vào đây!!


 
Bản quyền 2025 - Xem tốt nhất trong Netscape Navigator

"""

 

# Khởi tạo thư viện với 'html.parser'
# Bạn cũng có thể sử dụng 'lxml' để sửa lỗi mạnh mẽ hơn nữa
soup = BeautifulSoup(messy_html, 'html.parser')

# Phương thức .prettify() sửa lỗi lồng nhau và thêm thụt lề
clean_html = soup.prettify()

print(clean_html)

 

Các lựa chọn thay thế

 

Có một số dịch vụ trực tuyến để bạn xác thực các thẻ html và sửa chúng:

 

  1. https://validator.w3.org/#validate_by_input
     
  2. https://www.freeformatter.com/html-validator.html
     
  3. https://www.htmlcorrector.com/
     
  4. https://jsonformatter.org/html-validator
Tag list:
- BeautifulSoup
- html
- extract html tags
- html tags
- correct html tags

Liên quan

Experience Python

Đọc thêm
Python Automation

Đọc thêm

Theo dõi

Theo dõi bản tin của chúng tôi và không bao giờ bỏ lỡ những tin tức mới nhất.