Vì vậy, tôi đã phân tích cú pháp trang html với .findAll
(BeautifulSoup) thành biến có tên result
. Nếu tôi gõ result
bằng Python vỏ sau đó nhấn Enter, tôi thấy văn bản bình thường như mong đợi, nhưng như tôi muốn xử lý sau kết quả này là đối tượng chuỗi, tôi nhận thấy rằng str(result)
lợi nhuận rác, giống như mẫu này:Cách chuyển đổi BeautifulSoup.ResultSet thành chuỗi
\xd1\x87\xd0\xb8\xd0\xbb\xd0\xbd\xd0\xb8\xd1\x86\xd0\xb0</a><br />\n<hr />\n</div>
Html nguồn trang là utf-8
được mã hóa
Tôi có thể xử lý điều này bằng cách nào?
Mã là cơ bản này, trong trường hợp quan trọng:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(urllib.open(url).read())
result = soup.findAll(something)
Python là 2,7
hiển thị mã yêu cầu của bạn – cetver