Hai bài viết dưới đây là ví dụ tuyệt vời của phương pháp tiếp cận khác nhau của giải nén dữ liệu từ các trang web và phân tích nó thành R.Extract Liên kết từ trang web sử dụng R
Scraping html tables into R data frames using the XML package
How can I use R (Rcurl/XML packages ?!) to scrape this webpage
Tôi rất mới để lập trình và tôi chỉ mới bắt đầu với R, vì vậy tôi hy vọng câu hỏi này khá cơ bản, nhưng với những bài viết trên, tôi tưởng tượng nó là như vậy.
Tất cả những gì tôi muốn làm là trích xuất các liên kết phù hợp với một mẫu nhất định. Tôi cảm thấy như tôi có thể có thể sử dụng RCurl để đọc trong các trang web và trích xuất chúng phương pháp bạo lực bằng cách sử dụng biểu thức chuỗi. Điều đó nói rằng, nếu trang web được hình thành khá tốt, tôi sẽ làm như thế nào bằng cách sử dụng gói XML.
Khi tôi tìm hiểu thêm, tôi muốn "xem" dữ liệu khi tôi khắc phục sự cố. Vấn đề là một số cách tiếp cận này tạo ra danh sách danh sách các danh sách, v.v., vì vậy rất khó cho một người mới (như tôi) đi qua nơi tôi cần phải đi.
Một lần nữa, tôi rất mới với tất cả những gì là lập trình, vì vậy bất kỳ trợ giúp hoặc đoạn mã nào sẽ được đánh giá cao.
Cảm ơn. Khi tôi đang nghĩ đến việc sử dụng regex, tôi chắc chắn sẽ sử dụng gói của hadley. Tôi sẽ cung cấp cho một shot hàng đầu, nhưng tôi definatley nghĩ rằng đây là những gì tôi cần. – Btibert3
Tôi thực sự thích việc sử dụng miễn phí (doc), tôi thậm chí không biết một chức năng như vậy tồn tại và tôi sẽ luôn luôn sử dụng nó từ bây giờ. –