Câu hỏi của bạn có chút mơ hồ, nhưng có một kỹ thuật thống kê thú vị có thể là những gì bạn đang nghĩ đến được gọi là Principal Component Analysis, điều tương tự (và tình cờ vẽ kết quả từ đó là công việc lập trình thế giới thực đầu tiên của tôi)
Đó là một kỹ thuật gọn gàng nhưng thông minh được áp dụng rộng rãi đáng kể. Tôi đã áp dụng nó vào những điểm tương đồng giữa các chuỗi amino acid amino, nhưng tôi đã thấy nó được sử dụng để phân tích mọi thứ từ các mối quan hệ giữa vi khuẩn với rượu whisky mạch nha.
Hãy xem xét đồ thị của một số thuộc tính của tập hợp những thứ có một biến độc lập - để phân tích mối quan hệ trên một biến rõ ràng trên hai chiều và bạn có thể thấy một điểm phân tán.nếu bạn có ba biến, bạn có thể sử dụng biểu đồ 3D, nhưng sau đó biến bắt đầu hết kích thước.
Trong PCA người ta có thể có hàng chục hoặc thậm chí một trăm hoặc nhiều yếu tố độc lập, tất cả đều cần phải được vẽ trên trục vuông góc. Sử dụng PCA thực hiện điều này, sau đó phân tích đồ thị đa chiều kết quả để tìm tập hợp của hai hoặc ba trục trong biểu đồ có chứa lượng thông tin lớn nhất. Ví dụ: Tọa độ chính đầu tiên sẽ là trục tổng hợp (nghĩa là ở một góc nào đó qua không gian n chiều) có thông tin nhất khi các điểm được vẽ dọc theo nó. Trục thứ hai vuông góc với điều này (hãy nhớ đây là không gian n-chiều, vì vậy có rất nhiều perpendiculars) trong đó có số lượng lớn thứ hai của thông tin, vv
Vẽ đồ thị kết quả trong 2D hoặc 3D thường sẽ cung cấp cho bạn một trực quan hóa dữ liệu chứa một lượng đáng kể thông tin trong tập dữ liệu gốc. Thông thường, kỹ thuật được coi là hợp lệ để tìm kiếm một biểu diễn chứa khoảng 70% dữ liệu gốc - đủ để hình dung các mối quan hệ với một số sự tự tin mà nếu không sẽ không rõ ràng trong các thống kê thô. Lưu ý rằng kỹ thuật này đòi hỏi tất cả các yếu tố đều có cùng trọng số, nhưng cho rằng đó là một phương pháp cực kỳ phổ biến, đáng được biết rộng rãi và có sẵn trong hầu hết các gói thống kê (tôi đã thực hiện công việc của mình trên ICL 2700 vào năm 1980) mạnh mẽ như một chiếc iPhone)
bạn đang nói về 'giảm kích thước'? –
Hoặc có lẽ 'khai thác dữ liệu'? – Tarydon
có giảm kích thước – Yasmeen