2013-11-28 15 views
31

Tôi đang cố gắng hiểu định nghĩa của scale mà R cung cấp. Tôi có dữ liệu (mydata) mà tôi muốn tạo bản đồ nhiệt với, và có một khuynh hướng tích cực rất mạnh. Tôi đã tạo một bản đồ nhiệt với một dendrogram cho cả hai scale(mydata)log(my data), và dendrograms là khác nhau cho cả hai. Tại sao? Chia tỷ lệ dữ liệu của tôi có nghĩa là gì, so với nhật ký biến đổi dữ liệu của tôi? Và điều gì sẽ thích hợp hơn nếu tôi muốn xem chương trình biểu diễn minh họa mối quan hệ giữa các cột dữ liệu của tôi?Hiểu `thang đo` trong R

Cảm ơn bạn đã được trợ giúp! Tôi đã đọc các định nghĩa nhưng chúng đang rình mò trên đầu tôi.

Trả lời

54

log chỉ cần lấy logarit (cơ sở e, theo mặc định) của từng phần tử của vectơ.
scale, với cài đặt mặc định, sẽ tính giá trị trung bình và độ lệch chuẩn của toàn bộ vectơ, sau đó "chia tỷ lệ" từng phần tử theo các giá trị đó bằng cách trừ giá trị trung bình và chia cho sd. (Nếu bạn sử dụng scale(x, scale=FALSE), nó sẽ chỉ trừ giá trị trung bình nhưng không chia cho độ lệch tiêu chuẩn.)

Lưu ý rằng điều này sẽ cung cấp cho bạn các giá trị cùng

set.seed(1) 
    x <- runif(7) 

    # Manually scaling 
    (x - mean(x))/sd(x) 

    scale(x) 
+0

cảm ơn cho câu trả lời! Nhưng tầm quan trọng của thang đo() là gì? Điều gì có thể lý luận của tôi được sử dụng nó (nó làm cho dữ liệu trông đẹp hơn, vv). Tôi chỉ đang cố gắng hiểu 'điểm' của thang đo(). Cảm ơn! – Jen

+14

'scale' có ý nghĩa hơn khi bạn có nhiều biến số mà bạn đang cân nhắc trên các thang đo khác nhau. ví dụ, một var là thứ tự của độ lớn 100 trong khi một var là thứ tự của độ lớn 1000000 –

+10

@Jen: Một (rất mất) cách suy nghĩ về nó: khi sử dụng 'scale', bạn không thay đổi dữ liệu, thay vì bạn đang thay đổi thang đo (giá trị trục khi vẽ đồ thị). Hãy nghĩ đến việc lấy trục ở hai đầu và kéo dài hoặc nén nó. Đó là quy mô. Ngược lại, 'log' thực sự thay đổi dữ liệu. Tác động của nhật ký là "mạnh hơn" cho các giá trị lớn hơn và tối thiểu hơn cho các giá trị nhỏ hơn. –

6

Nó cung cấp không có gì khác mà là một tiêu chuẩn của dữ liệu. Các giá trị mà nó tạo ra được biết đến dưới một vài tên khác nhau, một trong số chúng là z-score ("Z" vì phân phối bình thường còn được gọi là "phân phối Z").

thêm có thể được tìm thấy ở đây:

http://en.wikipedia.org/wiki/Standard_score

Các vấn đề liên quan