Tôi đã nhìn thấy một số câu hỏi về loại bỏ các thẻ HTML từ chuỗi, nhưng tôi vẫn còn một chút không rõ ràng về cách trường hợp cụ thể của tôi cần được xử lý.Loại bỏ thẻ hình ảnh html và tất cả mọi thứ ở giữa từ một chuỗi
I have seen that nhiều bài viết khuyên bạn không dùng biểu thức thông thường để xử lý HTML, nhưng tôi nghi ngờ trường hợp của tôi có thể đảm bảo gian lận đắn của quy tắc này.
Tôi đang cố gắng để phân tích các tập tin PDF và tôi đã thành công trong việc chuyển đổi mỗi trang từ tập tin PDF mẫu của tôi vào một chuỗi UTF-32 văn bản. Khi hình ảnh xuất hiện, một thẻ kiểu HTML được chèn vào có chứa tên và vị trí của hình ảnh (được lưu ở nơi khác).
Trong một phần riêng biệt của ứng dụng của tôi, tôi cần phải thoát khỏi những thẻ hình ảnh. Vì chúng tôi chỉ chỉ xử lý các thẻ hình ảnh, tôi nghi ngờ việc sử dụng regex có thể được đảm bảo.
Câu hỏi của tôi là hai khía cạnh:
- Tôi có nên sử dụng một regex để loại bỏ các thẻ, hoặc nên tôi vẫn sử dụng một mô-đun phân tích cú pháp HTML như BeautifulSoup?
- Tôi nên sử dụng cấu trúc regex hoặc BeautifulSoup nào? Nói cách khác, tôi nên viết mã này như thế nào?
Để rõ ràng, các thẻ được cấu trúc như <img src="/path/to/file"/>
Cảm ơn!
Có bất kỳ HTML nào khác trong tệp này không? Hoặc là nó không có nghĩa là gì ngoài văn bản thuần tuý và các thẻ ''? – senderle
@senderle Không, không có HTML bên cạnh những thẻ, do đó lưỡng lự của tôi trong việc sử dụng một lib HTML đầy đủ. Định dạng là * luôn * cách tôi mô tả ở trên. – blz
Tôi chỉ đăng một câu trả lời, nhưng đã tự hỏi, có thực sự là một dấu nháy đơn sau khi đóng> của mỗi hình ảnh, hoặc là một lỗi đánh máy? – joshcartme