Tôi nhận được nhật ký điện thoại rất dài dưới dạng tệp văn bản và tôi đã cố gắng đọc nó vào R nhưng nó không thực sự hoạt động. Văn bản có cấu trúc nhưng chắc chắn nó không phải là một bảng. Cấu trúc của nó như sauLàm thế nào để đọc một tệp văn bản vào R khi dữ liệu không có trong bảng
- Mỗi bản ghi bao gồm nhiều dòng để readlines không phải là khá thích hợp
- Mỗi dòng của mỗi bản ghi là một lĩnh vực riêng biệt
- Một số hồ sơ có một trường bổ sung sau khi trường thứ hai
- Mỗi bản ghi mới được ghi chú bằng một dòng trống.
readLines
hoặcscan
sẽ làm việc nếu ai có thể xác định rằng hồ sơ đã được ngăn cách bởi "\ n \ n" và rằng các trường (hoặc cột) được phân cách bằng "\ n"
Dưới đây là một ví dụ:
TheInstitute 5467
telephone line 4125526987 x 4567
datetime 2011110516 12:56
blay blay blah who knows what, but anyway it may have a comma
TheInstitute 5467
telephone line 4125526987 x 4567
datetime 2011110516 12:58
blay blay blah who knows what
TheInstitute 5467
telephone line 412552999 x 4999
bump phone line 4125527777
datetime 2011110516 12:59
blay blay blah who knows what
TheInstitute 5467
telephone line 4125526987 x 4567
bump phone line 4125527777
datetime 2011110516 13:51
blay blay blah who knows what, but anyway it may have a comma
TheInstitute 5467
telephone line 4125526987 x 4567
datetime 2011110516 14:56
blay blay blah who knows what
Tôi làm cách nào để thực hiện điều này trong R? Tôi đã thử các thủ thuật với quét, dán, strsplit nhưng tôi đang quay vòng tròn. Tôi có thể phải đưa nó vào danh sách vì nó có thể xử lý số phần tử không bằng nhau. Tôi muốn nhận được tất cả các hồ sơ để có cùng một số lĩnh vực và cho những hồ sơ mà không có một lĩnh vực (ở đây gọi là bump điện thoại) Tôi muốn họ chỉ có một NA là giá trị trong lĩnh vực đó. Tôi sẽ đánh giá cao sự giúp đỡ ngay cả chỉ để bắt đầu. Từ đó tôi có thể chơi và chơi đồ chơi.
+1 Rất đẹp ... – Andrie
... nhưng tôi đoán bạn cần phải tiếp tục phân chia 'place', 'tline' và 'cline1' vào các cột phụ? – Tommy
Tôi nghĩ rằng nhiệm vụ tiếp theo sẽ là di chuyển xung quanh dữ liệu 'datetime' và 'bump lines', nhưng tôi không nghĩ rằng người hỏi đã yêu cầu phân tích các nhận xét. –