Tôi đã được cung cấp một url và tôi muốn trích xuất nội dung của thẻ <BODY>
từ url. Tôi đang sử dụng Python3. Tôi đã xem qua sgmllib
nhưng không có sẵn cho Python3.Phân tích cú pháp thẻ html bằng Python
Ai đó có thể vui lòng hướng dẫn tôi về điều này không? Tôi có thể sử dụng HTMLParser
cho việc này không?
Đây là những gì tôi đã cố gắng:
import urllib.request
f=urllib.request.urlopen("URL")
s=f.read()
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_data(self, data):
print("Encountered some data:", data)
parser = MyHTMLParser()
parser.feed(s)
này mang lại cho tôi lỗi: Lỗi Loại: Không thể chuyển đổi đối tượng 'byte' để str ngầm
"hãy hướng dẫn tôi": Sẽ thực hiện. Tìm kiếm. Nó đã được hỏi. Rất rất nhiều lần. Sau khi bạn thực hiện tìm kiếm (ở góc trên bên phải), hãy hỏi ** các câu hỏi ** cụ thể dựa trên các câu trả lời đã được đưa ra. –
để cụ thể, chúng tôi có thể phân tích cú pháp url trong phương thức parser.feed() không? – Nerd
@ghbhatt: cho chúng tôi xem ví dụ về những gì bạn cần. Nếu không nhìn thấy câu trả lời của tôi là những gì bạn đang yêu cầu. – RanRag