Tôi có một tệp đầu vào với danh sách ~ 50000 cụm và sự hiện diện của một số yếu tố trong mỗi nhóm (~ 10 triệu mục trong tổng số), xem ví dụ nhỏ dưới đây:Sơ đồ Venn từ danh sách các cụm và các yếu tố đồng xuất hiện
set.seed(1)
x = paste("cluster-",sample(c(1:100),500,replace=TRUE),sep="")
y = c(
paste("factor-",sample(c(letters[1:3]),300, replace=TRUE),sep=""),
paste("factor-",sample(c(letters[1]),100, replace=TRUE),sep=""),
paste("factor-",sample(c(letters[2]),50, replace=TRUE),sep=""),
paste("factor-",sample(c(letters[3]),50, replace=TRUE),sep="")
)
data = data.frame(cluster=x,factor=y)
với một chút sự giúp đỡ từ một câu hỏi khác, tôi đã nhận nó để tạo ra một piechart cho đồng xảy ra các yếu tố như thế này:
counts = with(data, table(tapply(factor, cluster, function(x) paste(as.character(sort(unique(x))), collapse='+'))))
pie(counts[counts>1])
Nhưng bây giờ tôi muốn có một sơ đồ venn cho sự xuất hiện của các yếu tố. Lý tưởng nhất, cũng theo cách có thể mất một ngưỡng cho số lượng tối thiểu cho mỗi yếu tố. Ví dụ, một biểu đồ venn cho các yếu tố khác nhau sao cho mỗi một trong số chúng phải có mặt n> 10 trong mỗi cụm được tính đến.
Tôi đã cố gắng tìm cách tạo ra tổng số bảng với tổng hợp, nhưng không thể làm cho nó hoạt động.
bạn đã xem xét bất kỳ gói R cho sơ đồ Venn? Xem [ví dụ gần đây này] (http://stats.stackexchange.com/questions/16802/derive-pc-ab-from-coxs-two-rules/18209#18209) bởi G. Jay Kerns bằng cách sử dụng thư viện 'venneuler' hoặc bài viết ngắn này trong Tạp chí Phần mềm Stat bằng cách sử dụng thư viện 'venn' ([Murdoch, 2004] (http://www.jstatsoft.org/v11/c01)). Nếu điều này hoàn toàn là về lập trình R, nó nên được di chuyển sang SO. –
Avilella, câu hỏi này có thể không nhận được bất kỳ câu trả lời nào vì nó không nằm trong chủ đề. Bạn có thể làm tốt hơn trên SO, trong đó có một cộng đồng người dùng R đang hoạt động. Nhưng xin đừng qua đường bưu điện: chỉ cần gắn cờ câu hỏi cho sự chú ý của người kiểm duyệt nếu bạn muốn nó di chuyển. – whuber
Tôi đã gắn cờ nó, nhưng tôi không thể thấy nó được chuyển sang SO ... – 719016