Tôi có một tập tin .csv, trong đó có chứa các dữ liệu sau:Không thể đọc unicode .csv vào R
"Ա","Բ"
1,10
2,20
tôi không thể đọc nó vào R để các tên cột được hiển thị như họ đang có trong tập tin.
d <- read.csv("./Data/1.csv", fileEncoding="UTF-8")
head(d)
Tạo điều sau đây:
> d <- read.csv("./Data/1.csv", fileEncoding="UTF-8")
Warning messages:
1: In read.table(file = file, header = header, sep = sep, quote = quote, :
invalid input found on input connection './Data/1.csv'
2: In read.table(file = file, header = header, sep = sep, quote = quote, :
incomplete final line found by readTableHeader on './Data/1.csv'
> head(d)
[1] X.
<0 rows> (or 0-length row.names)
Trong khi đó, làm như vậy mà không chỉ định các fileEncoding sản xuất này:
> d <- read.csv("./Data/1.csv")
> head(d)
Ô. Ô²
1 1 10
2 2 20
Khi tôi chạy "tập tin" tiện ích để tìm hiểu mã hóa của tệp, nó nói là UTF-8:
Data\1.csv: UTF-8 Unicode text, with CRLF line terminators
Tôi đang sử dụng RStudio, Windows 7, R phiên bản 2.15.2, 32 bit.
Xin cảm ơn trước.
Hoạt động hoàn hảo với tôi với R 2.15.3 trên Linux. (Cảnh báo thứ hai có thể chỉ là một thiếu "nhập" trên dòng cuối cùng của tập tin) – Spacedman
Tôi có thể tái tạo vấn đề. Tôi chưa bao giờ sử dụng các tham số này, nhưng thay vào đó sử dụng 'encoding', nghĩa là' read.csv (..., encoding = "UTF-8") 'đọc trong tệp nhưng tiêu đề không được hiển thị dưới dạng chữ cái, mà là' XUFEFF..U.0531. X.U.0532.' để thay thế. – eddi
một quan sát: '> a =" Ա "; > a; [1] "Ա" 'hoạt động ok, nhưng điều này không:' data.frame (a); # a # 1 ' – eddi