2012-03-23 41 views
8

tôi muốn tải xuống dữ liệu biểu hiện gen bắt nguồn từ các thử nghiệm microarray. tôi không biết quá nhiều về chủ đề này, nhưng như tôi hiểu, các hàng thường tương ứng với các gen và các cột tương ứng với các mẫu. lý tưởng, tôi mong đợi một ma trận dữ liệu biểu hiện gen.nơi nào tôi tải xuống dữ liệu biểu hiện gen?

Tôi đã tìm kiếm trên internet và mặc dù có vẻ như có nhiều nơi để tải xuống dữ liệu đó, khi tôi thực sự tải xuống dữ liệu, tôi không nhận được ma trận biểu hiện gen. ai đó có thể xin vui lòng cho tôi biết nếu có một nơi hoặc làm thế nào để tải dữ liệu biểu hiện gen ở định dạng mà tôi mong đợi ở trên?

bất kỳ trợ giúp nào được đánh giá cao.

+0

Câu hỏi này không liên quan đến lập trình. Vui lòng hỏi nó trên BioStar http://biostar.stackexchange.com/ – gotgenes

+0

@gotgenes cảm ơn! tôi đã thực sự cố gắng để xem nếu có kênh stackexchange khác trước khi gửi bài ở đây. nhưng bây giờ tôi biết chắc chắn! may mắn tôi đã nhận được phản hồi tuyệt vời và trang web thích hợp ngay bây giờ. –

Trả lời

6

Nếu bạn xem ví dụ: this entry trong Gene Expression Omnibus, một trong các định dạng tệp là "TXT" và chứa ma trận giống như bạn đang yêu cầu, sau một số siêu dữ liệu.

+0

cho tệp TXT đó là các cột (ví dụ: GSM339455, GSM339456, GSM339457, v.v ...) và các mẫu hàng? –

+0

Tôi đang xem phân tích cụm. có vẻ như GSM là mẫu và các hàng tương ứng với gen. Bạn có thể giải thích các quy ước đặt tên không? tức là Tại sao nên sử dụng GSM cho tiêu đề cột và sau đó là 998_at hoặc 9890_at cho số nhận dạng hàng? –

+0

Số GSM là id gia nhập cho các mẫu (bạn có thể tìm thấy từng mẫu trong GEO bằng id). "Id nền tảng chuỗi" được liệt kê trong tệp là GPL7144 và nếu bạn truy vấn GEO với id đó, bạn sẽ nhận được ánh xạ từ các số nhận dạng hàng theo nhiều cách khác nhau để tham chiếu đến các gen. –

5

Về nguyên tắc dữ liệu microarray có thể được biểu diễn (xin vui lòng tha thứ cho trò chơi chữ) làm ma trận với các mẫu làm cột và hàng làm gen. Trong thực tế, nó là một chút phức tạp hơn để lấy được một biểu diễn như vậy cho dữ liệu thô của một thử nghiệm. Nếu bạn chỉ nhận được một tập dữ liệu được xử lý trước, bạn có ít đảm bảo rằng dữ liệu thô được xử lý theo cách làm cho nó có thể so sánh với các thử nghiệm khác hoặc dữ liệu thô cơ bản có chất lượng cao.

Bạn cũng sẽ cần siêu dữ liệu chất lượng cao để lấy được bất kỳ ý nghĩa nào từ ma trận dữ liệu. Điều kiện sinh học và nguồn gốc mà từ đó các mẫu được lấy là gì? Những gen nào làm các đầu dò trên mảng cụ thể được sử dụng tương ứng với? (Lưu ý rằng 9890_at là "id đầu dò", một định danh duy nhất của một đầu dò phân tử của một thiết kế trình tự cụ thể mà sau đó cần được ánh xạ tới một gen, các đầu dò khác nhau cho cùng một gen sẽ không cung cấp chính xác cùng một phản hồi.)

Cơ sở dữ liệu microrarray công cộng do đó cung cấp nhiều thông tin bổ sung ngoài ma trận dữ liệu đã xử lý. Ngoài GEO đã được đề cập, tôi sẽ giới thiệu ArrayExpress theo ý kiến ​​của tôi có giao diện tìm kiếm tốt hơn.

Công cụ lựa chọn để làm việc với dữ liệu microarray cho nhiều bộ là bioconductor bộ phần mềm cho ngôn ngữ lập trình thống kê R.

Bioconductor cung cấp API để tải xuống dữ liệu thô với siêu dữ liệu đi kèm từ cả hai kho lưu trữ, xem GEO bioc packageArrayExpress bioc package.

Cả hai gói, điểm chung với hầu hết các phần mềm bioconductor đi kèm với "họa tiết" tuyệt vời mà giới thiệu các phần mềm: GEO bioc vignetteArrayexpress bioc vignette

Những họa tiết cũng nên cung cấp cho bạn những ví dụ về việc các dữ liệu thô và bắt nguồn "Esets" (tập hợp biểu thức) từ dữ liệu thô. Tại thời điểm đó, bạn có thể truy cập ma trận biểu hiện gen trong đối tượng Eset bioconductor, và bạn có một đối tượng và API để thẩm vấn siêu dữ liệu cần thiết.

Lưu ý rằng có nhiều loại microarray khác nhau. Tôi khuyên bạn nên bắt đầu với dữ liệu từ mảng Affymetrix vì chúng có thể là các API phân tích đơn giản nhất.

+0

cảm ơn alex, điều đó cũng rất hữu ích. tôi đánh giá rất cao phản ứng. –

Các vấn đề liên quan