URL normalization (hoặc URL canonicalization) là quá trình theo đó URL được sửa đổi và chuẩn hóa theo cách nhất quán. Mục tiêu của quá trình chuẩn hóa là chuyển đổi URL thành URL chuẩn hoặc chuẩn để có thể xác định xem hai URL khác nhau về cú pháp có tương đương hay không.Làm cách nào để chuẩn hóa URL trong Java?
Chiến lược bao gồm thêm dấu gạch chéo, https => http, v.v. Trang Wikipedia liệt kê nhiều.
Có phương pháp yêu thích để thực hiện việc này trong Java? Có lẽ một thư viện (Nutch?), Nhưng tôi đang mở. Phụ thuộc nhỏ hơn và ít hơn là tốt hơn.
Tôi sẽ mã hóa nội dung nào đó ngay bây giờ và theo dõi câu hỏi này.
EDIT: Tôi muốn tích cực chuẩn hóa để đếm các URL giống nhau nếu chúng tham chiếu đến cùng một nội dung. Ví dụ: tôi bỏ qua các thông số utm_source, utm_medium, utm_campaign. Ví dụ: tôi bỏ qua tên miền phụ nếu tiêu đề giống nhau.
Tốt nhất! Tuy nhiên, nó không đủ gần với tôi. Điều đầu tiên tôi đã làm là giúp đưa ra các thông số sau: utm_source, utm_medium, utm_campaign.Chúng có nhiều URL trong tự nhiên, nhưng việc loại bỏ chúng cũng giống nhau về mặt ngữ nghĩa cho các mục đích phân tích nội dung chúng đề cập đến. – dfrankow
@dfrankow Điều đó không nhất thiết phải đúng. Không có gì để ngăn trang web phân phối nội dung khác nhau dựa trên các thông số đó. –
Chắc chắn, nhưng thực tế nói, chúng được sử dụng bởi một số gói tiếp thị (Google analytics?) Để theo dõi các chiến dịch, vì vậy chúng sẽ không thay đổi. – dfrankow