Tôi đang làm việc với tập dữ liệu sinh học lớn.Tính tương quan cặp giữa tất cả các cột
Tôi muốn tính PCC (hệ số tương quan Pearson) của tất cả các kết hợp 2 cột trong bảng dữ liệu của tôi và lưu kết quả dưới dạng tệp DataFrame hoặc CSV.
Bảng dữ liệu giống như dưới đây: cột là tên của các gen và các hàng là mã của tập dữ liệu. Các số phao có nghĩa là số lượng gen được kích hoạt trong tập dữ liệu.
GeneA GeneB GeneC ...
DataA 1.5 2.5 3.5 ...
DataB 5.5 6.5 7.5 ...
DataC 8.5 8.5 8.5 ...
...
Là một đầu ra, tôi muốn xây dựng bảng (DataFrame hoặc file csv) như dưới đây, vì scipy.stats.pearsonr trở về chức năng (PCC, p-value). Trong ví dụ của tôi, XX và YY là kết quả của pearsonr ([1.5, 5.5, 8.5], [2.5, 6.5, 8.5]). Trong cùng một cách, ZZ và AA có nghĩa là kết quả của pearsonr ([1.5, 5.5, 8.5], [3.5, 7.5, 8.5]). Tôi không cần dữ liệu thừa như GeneB_GeneA hoặc GeneC_GeneB trong bài kiểm tra của mình.
PCC P-value
GeneA_GeneB XX YY
GeneA_GeneC ZZ AA
GeneB_GeneC BB CC
...
Vì số lượng cột và hàng nhiều (trên 100) và tên của chúng phức tạp, việc sử dụng tên cột hoặc tên hàng sẽ khó.
Nó có thể là một vấn đề đơn giản cho các chuyên gia, tôi không biết làm thế nào để đối phó với loại bảng này với thư viện python và gấu trúc. Đặc biệt làm cho DataFrame mới và thêm kết quả có vẻ là rất khó khăn.
Xin lỗi vì lời giải thích kém của tôi, nhưng tôi hy vọng ai đó có thể giúp tôi.
Điều này được trả lời ở đây: [link] (http://stackoverflow.com/questions/3949226/calculating-pearson-correlation-and-significance-in-python) – Glostas
Cảm ơn bạn đã bình luận của bạn. Tôi nghĩ tiêu đề không đủ tốt. Những gì tôi muốn biết không phải là làm thế nào để tính toán PCC, nhưng tính toán PCC của tất cả các cột cặp, và lưu kết quả như là một DataFrame mới. – z991