Tôi đang sử dụng BeautifulSoup để phân tích cú pháp một số nội dung từ trang html.Đề xuất về get_text() tại BeautifulSoup
Tôi có thể trích xuất từ html nội dung tôi muốn (ví dụ: văn bản có trong một số span
được xác định bởi class
myclass).
result = mycontent.find(attrs={'class':'myclass'})
tôi có được kết quả này:
<span class="myclass">Lorem ipsum<br/>dolor sit amet,<br/>consectetur...</span>
Nếu tôi cố gắng để trích xuất các văn bản sử dụng:
result.get_text()
tôi có được:
Lorem ipsumdolor sit amet,consectetur...
Như bạn có thể nhìn thấy khi thẻ <br>
bị xóa ở đó không có khoảng trống giữa nội dung và hai từ được concated.
Tôi làm cách nào để giải quyết vấn đề này?
Sử dụng 'nội dung', sau đó thay thế
? – Floris
bạn có thể đặt điều này vào một ví dụ để tôi có thể chấp nhận câu trả lời không? cảm ơn – user601836
Trên iPhone ngay bây giờ. Cần phải đến gần một máy tính để tạo mã thử nghiệm. Tôi hy vọng người khác sẽ tạo ví dụ cho bạn trong thời gian chờ đợi. – Floris