2010-05-05 23 views
8

Trước hết, điều này có thể là Diễn đàn sai cho câu hỏi này, vì nó khá darn R + Bioconductor cụ thể. Đây là những gì tôi có:R + Bioconductor: kết hợp đầu dò trong một ExpressionSet

library('GEOquery') 
GDS = getGEO('GDS785') 
cd4T = GDS2eSet(GDS) 
cd4T <- cd4T[!fData(cd4T)$symbol == "",] 

Bây giờ cd4T là một đối tượng ExpressionSet bao gồm ma trận lớn với 19794 hàng (đầu dò) và 15 cột (mẫu). Dòng cuối cùng loại bỏ tất cả các đầu dò không có biểu tượng gen tương ứng. Bây giờ rắc rối là hầu hết các gen trong tập hợp này được gán cho nhiều hơn một đầu dò. Bạn có thể thấy điều này bằng cách thực hiện

gene_symbols = factor(fData(cd4T)$Gene.symbol) 
length(gene_symbols)-length(levels(gene_symbols)) 
[1] 6897 

Vì vậy, chỉ có 6897 đầu dò 19794 của tôi có bản đồ gen -> ánh xạ gen. Tôi muốn bằng cách nào đó kết hợp các mức biểu hiện của mỗi đầu dò liên kết với mỗi gen. Tôi không quan tâm nhiều về id thăm dò thực tế cho mỗi đầu dò. Tôi muốn rất nhiều để kết thúc với một ExpressionSet chứa thông tin hợp nhất như tất cả các phân tích hạ lưu của tôi được thiết kế để làm việc với lớp này.

Tôi nghĩ rằng tôi có thể viết một số mã sẽ làm điều này bằng tay và tạo một biểu thức mới được đặt từ đầu. Tuy nhiên, tôi giả định rằng đây không phải là một vấn đề mới và mã tồn tại để làm điều đó, bằng cách sử dụng một phương pháp thống kê âm thanh để kết hợp các mức biểu hiện gen. Tôi đoán có một tên thích hợp cho điều này, nhưng googles của tôi không hiển thị nhiều sử dụng. Có ai giúp được không?

+1

Bạn nên thử biostar.stackexchange.com - đây là trang web loại StackOverflow dành riêng cho các câu hỏi về tin sinh học. –

+0

(mặc dù tôi nghĩ đây cũng là một câu hỏi thích hợp ở đây). –

+0

tuyệt vời - cũng đã đưa nó lên biostar. –

Trả lời

2

Tôi không phải là một chuyên gia, nhưng từ những gì tôi đã thấy trong những năm qua mọi người đều có cách kết hợp yêu thích của riêng mình. Hai phương pháp mà tôi đã thấy được sử dụng nhiều nhất trên một quy mô lớn đã chỉ sử dụng đầu dò có phương sai lớn nhất trên ma trận biểu thức và phương thức khác để lấy giá trị trung bình của các đầu dò và tạo ra một siêu đầu dò . Đối với các khối thăm dò nhỏ hơn, tôi đã thấy mọi người sử dụng các phương pháp chuyên sâu hơn liên quan đến việc xem xét các ô trên đầu dò để có được cảm giác về những gì đang diễn ra ... phần còn lại không phải là rất tốt.

Tôi chưa thấy mã tổng quát để làm điều này - như một ví dụ mà gần đây chúng tôi đã nhận ra trong phòng thí nghiệm của mình rằng một vài người trong chúng ta có các chức năng riêng của mình để làm điều tương tự.

0

Từ bạn đang tìm kiếm là 'nsFilter' trong R gói genefilter. Chức năng này chỉ định hai thứ chính, nó chỉ tìm kiếm gen entrez ids, phần còn lại của đầu dò sẽ được lọc ra. Khi một id entrez có nhiều đầu dò, thì giá trị lớn nhất sẽ được giữ lại và các giá trị khác được loại bỏ. Bây giờ bạn có ma trận ánh xạ id gen entrez duy nhất. Hi vọng điêu nay co ich.

Các vấn đề liên quan