Trước hết, điều này có thể là Diễn đàn sai cho câu hỏi này, vì nó khá darn R + Bioconductor cụ thể. Đây là những gì tôi có:R + Bioconductor: kết hợp đầu dò trong một ExpressionSet
library('GEOquery')
GDS = getGEO('GDS785')
cd4T = GDS2eSet(GDS)
cd4T <- cd4T[!fData(cd4T)$symbol == "",]
Bây giờ cd4T là một đối tượng ExpressionSet bao gồm ma trận lớn với 19794 hàng (đầu dò) và 15 cột (mẫu). Dòng cuối cùng loại bỏ tất cả các đầu dò không có biểu tượng gen tương ứng. Bây giờ rắc rối là hầu hết các gen trong tập hợp này được gán cho nhiều hơn một đầu dò. Bạn có thể thấy điều này bằng cách thực hiện
gene_symbols = factor(fData(cd4T)$Gene.symbol)
length(gene_symbols)-length(levels(gene_symbols))
[1] 6897
Vì vậy, chỉ có 6897 đầu dò 19794 của tôi có bản đồ gen -> ánh xạ gen. Tôi muốn bằng cách nào đó kết hợp các mức biểu hiện của mỗi đầu dò liên kết với mỗi gen. Tôi không quan tâm nhiều về id thăm dò thực tế cho mỗi đầu dò. Tôi muốn rất nhiều để kết thúc với một ExpressionSet chứa thông tin hợp nhất như tất cả các phân tích hạ lưu của tôi được thiết kế để làm việc với lớp này.
Tôi nghĩ rằng tôi có thể viết một số mã sẽ làm điều này bằng tay và tạo một biểu thức mới được đặt từ đầu. Tuy nhiên, tôi giả định rằng đây không phải là một vấn đề mới và mã tồn tại để làm điều đó, bằng cách sử dụng một phương pháp thống kê âm thanh để kết hợp các mức biểu hiện gen. Tôi đoán có một tên thích hợp cho điều này, nhưng googles của tôi không hiển thị nhiều sử dụng. Có ai giúp được không?
Bạn nên thử biostar.stackexchange.com - đây là trang web loại StackOverflow dành riêng cho các câu hỏi về tin sinh học. –
(mặc dù tôi nghĩ đây cũng là một câu hỏi thích hợp ở đây). –
tuyệt vời - cũng đã đưa nó lên biostar. –