thể trùng lặp:
Which characters make a url invalid?Ký tự nào hợp lệ trong URL?
Tôi đang cố gắng để loại bỏ các phần không URL của một chuỗi lớn. Hầu hết các regex tôi tìm thấy giống như [A-Za-z0-9-_.!~*'()]
, nhưng có nhiều thứ có thể chứa url hơn. Giống như http://127.0.0.1:8080/test?v=123#this
ví dụ:
Vì vậy, các ký tự mới nhất cho URL hợp lệ là gì?
EDIT:
Họ dường như là:
A-Za-z0-9 -._ ~:?!/# [] @ $ & '() * +,; = và% tiếp theo giá trị hex
Bạn đã xem RFC chưa? http://www.faqs.org/rfcs/rfc1738.html – ale