2011-10-08 34 views
7

Tôi đang nghĩ đến việc viết một chức năng từ điển dữ liệu trong R mà, lấy một khung dữ liệu như một cuộc tranh cãi, sẽ làm như sau:từ điển dữ liệu đóng gói vào R

1) Tạo một file văn bản đó:

a. Tóm tắt khung dữ liệu bằng cách liệt kê số biến theo lớp, số quan sát, số quan sát hoàn chỉnh… vv

b. Đối với mỗi biến, tóm tắt các thông tin chính về biến đó: trung bình, phút, tối đa, chế độ, số quan sát còn thiếu ... v.v.

2) Tạo một pdf chứa biểu đồ cho mỗi biến số hoặc số nguyên và biểu đồ thanh cho mỗi biến thuộc tính.

Ý tưởng cơ bản là tạo từ điển dữ liệu của một khung dữ liệu với một hàm.

Câu hỏi của tôi là: có gói nào đã thực hiện việc này không? Và nếu không, mọi người nghĩ đây có phải là một chức năng hữu ích không? Cảm ơn

+0

cách tốt nhất là đánh dấu quá :) để phần còn lại có thể được hoàn thành bởi nhà phân tích dữ liệu hoặc chủ sở hữu DB. – Espanta

Trả lời

6

Có nhiều chức năng describe trong các gói khác nhau. Người tôi quen thuộc nhất là HMisc :: mô tả. Dưới đây là mô tả từ trang trợ giúp:

"Chức năng này xác định biến là ký tự, hệ số, danh mục, nhị phân, số rời rạc và số liên tục và in tóm tắt thống kê ngắn gọn theo từng biến. rời rạc nếu nó có < = 10 giá trị duy nhất Trong trường hợp này, số lượng không được in Bảng tần số được in cho bất kỳ biến số nhị phân nào nếu nó không có nhiều hơn 20 giá trị duy nhất. 5 giá trị thấp nhất và cao nhất được in. "

Và một ví dụ về kết quả:

Hmisc::describe(work2[, c("CHOLEST","HDL")]) 
work2[, c("CHOLEST", "HDL")] 

2 Variables  5325006 Observations 
---------------------------------------------------------------------------------- 
CHOLEST 
     n missing unique Mean  .05  .10  .25  .50  .75  .90 
4410307 914699  689 199.4  141  152  172  196  223  250 
    .95 
    268 

lowest : 0 10 19 20 31, highest: 1102 1204 1213 1219 1234 
---------------------------------------------------------------------------------- 
HDL 
     n missing unique Mean  .05  .10  .25  .50  .75  .90 
4410298 914708  258 54.2  32  36  43  52  63  75 
    .95 
    83 

lowest : -11.0 0.0 0.2 1.0 2.0, highest: 241.0 243.0 248.0 272.0 275.0 
---------------------------------------------------------------------------------- 

Bên cạnh đó, trên quan điểm của bạn về việc biểu đồ, phương pháp Hmisc :: mủ cho một mô tả đối tượng sẽ tạo ra biểu đồ xen kẽ trong đầu ra minh họa ở trên. (Bạn cần cài đặt LaTeX để tận dụng lợi thế của điều này.) Tôi chắc rằng bạn có thể tìm thấy minh họa về đầu ra trên trang web của Harrell hoặc với bản trình bày "Nhìn bên trong" của Amazon về cuốn sách "Chiến lược mô hình hồi quy" ". Cuốn sách có rất nhiều tài liệu hữu ích về phân tích dữ liệu.

+0

Cảm ơn thông tin - rất hữu ích - tôi có thể kết hợp điều này vào chức năng của tôi –

Các vấn đề liên quan