Có công cụ thoát HTML và unescaping tốt hơn so với CGI cho Ruby không?

CGI.escapeHTML là khá xấu, nhưng CGI.unescapeHTML hoàn toàn bị bẻ khóa. Ví dụ:Có công cụ thoát HTML và unescaping tốt hơn so với CGI cho Ruby không?

require 'cgi' 

CGI.unescapeHTML('&#8230;') 
# => "…"     # correct - an ellipsis 

CGI.unescapeHTML('&hellip;') 
# => "&hellip;"    # should be "…" 

CGI.unescapeHTML('&#162;') 
# => "\242"     # correct - a cent 

CGI.unescapeHTML('&cent;') 
# => "&cent;"    # should be "\242" 

CGI.escapeHTML("…") 
# => "…"     # should be "&#8230;"

Dường như unescapeHTML biết về tất cả các mã số cộng &, <, >, và ". Và escapeHTML chỉ biết về bốn người cuối cùng - nó không thực hiện bất kỳ mã số nào. Tôi hiểu rằng thoát thường không cần phải mạnh mẽ vì HTML sẽ cho phép các phiên bản chữ của hầu hết các ký tự ngoại trừ bốn ký tự mà CGI.escapeHTML biết. Nhưng unescaping thực sự nên được tốt hơn.

Có công cụ nào tốt hơn không, ít nhất là để không thoát?

Nguồn

2008-12-18 James A. Rosen

Nó không xử lý — một trong hai. – Chloe

Các htmlentities đá quý nên làm các trick:

require 'rubygems' 
require 'htmlentities' 

coder = HTMLEntities.new 

coder.decode('&#8230;') # => "…" 
coder.decode('&hellip;') # => "…" 
coder.decode('&#162;') # => "¢" 
coder.decode('&cent;') # => "¢" 
coder.encode("…", :named) # => "&hellip;" 
coder.encode("…", :decimal) # => "&#8230;"

Nguồn

2008-12-20 18:17:41 titanous

require 'rubygems' 
require 'hpricot' 

Hpricot('&#8230;', :xhtml_strict => true).to_plain_text

Mặc dù bạn có thể phải loay hoay với mã hóa ký tự.

Nguồn

2008-12-18 23:21:06

Sử dụng đá quý htmlentities thay vì hpricot. –

Có công cụ thoát HTML và unescaping tốt hơn so với CGI cho Ruby không?

Trả lời

Các vấn đề liên quan