2011-02-09 35 views
38

Tôi không thể tìm thấy mô tả về điểm kết thúc của các dòng của hộp thoại đại diện.Trong ggplot2, kết thúc của các dòng hộp là gì?

Ví dụ: dưới đây là các giá trị điểm trên và dưới, nơi các dòng kết thúc. enter image description here

(Tôi nhận thấy phần trên cùng và dưới cùng của ô là 25 và 75 phần trăm và đường giữa là 50). Tôi giả sử, vì có những điểm trên và dưới các dòng mà chúng không đại diện cho các giá trị max/min.

Trả lời

48

"Dấu chấm" ở cuối ô mẫu thể hiện các ngoại lệ. Có một số quy tắc khác nhau để xác định xem một điểm có phải là ngoại lệ hay không, nhưng phương pháp R và sử dụng ggplot là "quy tắc 1.5". Nếu một điểm dữ liệu là:

  • ít hơn Q1 - 1,5 * IQR
  • lớn hơn Q3 + 1,5 * IQR

thì thời điểm đó được phân loại như là một "outlier". Râu được định nghĩa là:

thượng râu ria = min (max (x), Q_3 + 1,5 * IQR)

râu ria thấp = max (min (x), Q_1 - 1,5 * IQR)

trong đó IQR = Q_3 - Q_1, chiều dài hộp. Vì vậy, râu trên nằm ở nhỏ hơn giá trị x tối đa và Q_3 + 1,5 IQR, trong khi râu thấp hơn nằm ở lớn hơn giá trị x nhỏ nhất và Q_1 - 1,5 IQR.

thông tin bổ sung

  • Xem wikipedia boxplot trang cho các quy tắc outlier thay thế.
  • Thực tế có nhiều cách tính toán lượng tử. Có một cái nhìn tại `? Quantile cho mô tả của chín các phương pháp khác nhau.

Ví dụ

Hãy xem xét ví dụ sau

> set.seed(1) 
> x = rlnorm(20, 1/2)#skewed data 
> par(mfrow=c(1,3)) 
> boxplot(x, range=1.7, main="range=1.7") 
> boxplot(x, range=1.5, main="range=1.5")#default 
> boxplot(x, range=0, main="range=0")#The same as range="Very big number" 

này cho cốt truyện sau: enter image description here

Như chúng ta đã giảm khoảng 1,7-1,5 chúng tôi sẽ giảm chiều dài của râu ria. Tuy nhiên, range=0 là trường hợp đặc biệt - nó tương đương với "dải = vô cùng"

+1

Xem các trang trợ giúp cho '? Boxplot' hoặc'? Boxplot.stats'. ggplot sử dụng các hàm R tiêu chuẩn cho các phép tính này. – csgillespie

+0

Trong ggplot2, râu trên được tính là max (x [x cho ria mép thấp hơn. – TemplateRex

13

Tôi nghĩ ggplot sử dụng giá trị mặc định chuẩn, giống như hộp mẫu: "râu mở rộng đến điểm dữ liệu cực đoan nhất không quá [1.5] ] lần so với chiều dài của hộp ra khỏi hộp"

Xem: boxplot.stats

+4

Tôi gọi đây là hộp chìa khóa Tukey để tiết kiệm sự nhầm lẫn với vô số các loại hộp hình tồi tệ khác mà người ta đã tạo ra. – hadley

+0

Theo như tôi hiểu '? Boxplot.stats', tiêu chí là' +/- 1.58 * IQR/sqrt (n) 'và không' [1.5] lần chiều dài của ô'. Tôi có hiểu nhầm điều gì đó không? – Henrik

+1

@Henrik: bạn đang bối rối với những cái râu với các bậc. – Tyler

0

P1IMSA Tutorial 8 - Understanding Box and Whisker Plots video cung cấp một bước-by-step giải thích hình ảnh của (Tukey) hộp và lô râu ria.

Vào 4m 23s, tôi giải thích ý nghĩa của đầu râu và mối quan hệ của nó với 1,5 * IQR.

Mặc dù biểu đồ được hiển thị trong video được hiển thị bằng cách sử dụng D3.js thay vì R, giải thích của nó phù hợp với việc triển khai R của ô được đề cập.

Các vấn đề liên quan