tôi đang cố gắng để làm sạch và loại bỏ các thư mục từ một danh sách các URL trong RTháo cuối của một chuỗi URL trong R
Những gì tôi có:
http://domain.com/123
http://www.sub.domain1.com/222
http://www.domain2.com/1233/abc
Những gì tôi muốn:
domain.com
sub.domain1.com
domain2.com
tôi có một cách hơi dài để làm sạch đầu của URL
url <- c("http://domain.com/123", "http://www.sub.domain1.com/222","http://www.domain2.com/1233/abc"
cleanurl <- gsub("http://","",url)
cleanurl2 <- gsub("www.","",cleanurl)
(Vui lòng cho tôi biết nếu có cách đơn giản hơn để xóa http: // và www. quá.)
Bây giờ tôi đang gặp sự cố với regex và xóa mọi thứ sau /
ở cuối. Tôi đã thử này
cleanurl3 <- gsub("/*","",cleanurl2)
Nhưng nó chỉ là loại bỏ tất cả mọi thứ /
và không đặt phía sau.
Cảm ơn trước sự giúp đỡ của bạn!
Hãy thử sử dụng "\/*" (có một dấu chéo ngược trong đó). Tôi nghĩ rằng dấu gạch chéo nên được thoát. Xem có hiệu quả không. – feralin
Tôi đã thử điều đó nhưng nó cho tôi lỗi này> cleanurl3 <- gsub ("\/*", "", cleanurl2) Lỗi: '\ /' là lối thoát không xác định trong chuỗi ký tự bắt đầu "\ /" – NicoM
Biểu thức thứ hai của bạn không loại bỏ dấu gạch chéo, vì '/ *' khớp với bất kỳ số ký tự '/' nào. Thay vào đó, bạn muốn '/.*'. –