tôi có một loạt các biểu hiện như:Extract văn bản giữa các ký hiệu nhất định sử dụng Regular Expression trong R
"<i>the text I need to extract</i></b></a></div>"
tôi cần phải trích xuất các văn bản giữa các <i>
và </i>
"biểu tượng". Đây là, kết quả nên là:
"the text I need to extract"
Tại thời điểm tôi đang sử dụng gsub trong R để tự loại bỏ tất cả những biểu tượng mà không phải là văn bản. Tuy nhiên, tôi muốn sử dụng một biểu thức chính quy để thực hiện công việc. Có ai biết một biểu thức chính quy để trích xuất giữa <i>
và </i>
?
Cảm ơn.
+1 để chỉ ra trình phân tích html nên được sử dụng cho văn bản này –