Đây là câu hỏi Perl nhanh:Tôi làm cách nào để giải mã các thực thể HTML?
Làm cách nào để chuyển đổi các ký tự đặc biệt HTML như ü
hoặc '
thành văn bản ASCII bình thường?
tôi bắt đầu với một cái gì đó như thế này:
s/\&#(\d+);/chr($1)/eg;
và có thể viết nó cho tất cả các ký tự HTML, nhưng một số chức năng như thế này có lẽ đã tồn tại?
Lưu ý rằng tôi không cần một trình chuyển đổi văn bản HTML đầy đủ. Tôi đã phân tích cú pháp HTML với HTML::Parser
. Tôi chỉ cần chuyển đổi văn bản với các ký tự đặc biệt mà tôi nhận được.
Đối với những người thích CLI một lớp lót: 'perl -MHTML :: Entities -le 'in decode_entities (" & iquest; ' ")' –