tôi nghĩ rằng đây là đủ: "text"
#!python
import re
pattern = re.compile(r'<title>([^<]*)</title>', re.MULTILINE|re.IGNORECASE)
pattern.search(text)
... giả định rằng văn bản của bạn (HTML) là một biến có tên Điều này cũng giả định rằng không có các thẻ HTML khác có thể được nhúng hợp pháp bên trong thẻ HTML TITLE và không có cách nào để hợp pháp nhúng bất kỳ ký tự < nào khác trong vùng chứa/khối đó.
Tuy nhiên ...
Không sử dụng biểu thức thông thường cho HTML phân tích cú pháp bằng Python. Sử dụng trình phân tích cú pháp HTML! (Trừ khi bạn định viết một trình phân tích cú pháp đầy đủ, đây sẽ là một công việc phụ khi các trình phân tích cú pháp HTML, SGML và XML khác nhau đã có trong các thư viện chuẩn.
Nếu xử lý của bạn "thế giới thực" tag soup HTML (thường là không phù hợp với bất kỳ trình xác thực SGML/XML nào), sau đó sử dụng gói BeautifulSoup. Nó không nằm trong thư viện chuẩn (chưa) nhưng được đề xuất rộng rãi cho mục đích này. được viết cho HTML có cấu trúc phù hợp (tiêu chuẩn tuân thủ) nhưng có tùy chọn dự phòng để sử dụng BeautifulSoup làm trình phân tích cú pháp: ElementSoup.
Nguồn
2009-08-25 10:35:29
wow Tôi không thể tin tất cả các câu trả lời gọi để phân tích cú pháp toàn bộ trang HTML chỉ để trích xuất một tiêu đề đơn giản. Điều gì quá mức cần thiết! – hoju
Tiêu đề câu hỏi cho biết tất cả - ví dụ đã cho _happens_ là HTML, nhưng vấn đề chung là ... chung. – Phil