2009-04-01 66 views
5

Tôi muốn kết hợp một vài số liệu của các nút trong biểu đồ mạng xã hội thành một giá trị duy nhất cho thứ tự sắp xếp các nút:Cách chính xác để chuẩn hóa/chia tỷ lệ/chuẩn hóa nhiều biến sau phân phối pháp luật quyền lực để sử dụng trong kết hợp tuyến tính

in_degree + betweenness_centrality = informal_power_index

vấn đề là in_degreebetweenness_centrality được đo trên quy mô khác nhau, nói 0-15 vs 0-35.000 và làm theo một bản phân phối định luật hàm mũ (ít nhất là chắc chắn không phải là phân phối chuẩn)

có một cách tốt để rescale các biến để một w không thống trị người khác trong việc xác định informal_power_index?

Ba cách tiếp cận rõ ràng là:

  • Chuẩn hoá các biến (trừ mean và chia stddev). Điều này dường như nó sẽ đè bẹp phân phối quá nhiều, che giấu sự khác biệt lớn giữa một giá trị ở đuôi dài và một ở gần đỉnh.
  • Biến tỷ lệ lại thành phạm vi [0,1] bằng cách trừ min(variable) và chia cho max(variable). Điều này có vẻ gần hơn để khắc phục vấn đề vì nó sẽ không thay đổi hình dạng của bản phân phối, nhưng có lẽ nó sẽ không thực sự giải quyết vấn đề? Đặc biệt, các phương tiện sẽ khác nhau.
  • Cân bằng phương tiện bằng cách chia từng giá trị cho mean(variable). Điều này sẽ không giải quyết sự khác biệt về tỷ lệ, nhưng có lẽ giá trị trung bình quan trọng hơn cho so sánh?

Bất kỳ ý tưởng nào khác?

Trả lời

1

bạn có thể dịch từng tỷ lệ phần trăm và sau đó áp dụng từng phần tử cho một số lượng đã biết. Sau đó, sử dụng tổng của giá trị mới.

((1 - (in_degee/15) * 2000) + ((1 -?. (Betweenness_centrality/35000) * 2000) =

+0

Không cách tiếp cận này có cùng vấn đề với phương pháp chuẩn hóa, nó sẽ phân phối phân phối sao cho phần trăm 95 và 99 trông khá gần mặc dù chúng là thế giới ngoài (nghĩ rằng tài khoản ngân hàng của Bill Gate so với ... của tôi!) –

+0

Phương pháp này đặt mọi thứ trong một tỷ lệ phần trăm. Nó không dựa trên cách số lượng lệch khỏi giá trị trung bình. Nhưng, tôi có thể không rõ ràng về bạn phương pháp đó. 2000 đã bị phong toả. Lớn hơn nó là các giá trị duy nhất có thể được tạo ra. – Thad

4

Bạn dường như có một ý thức mạnh mẽ của phân bố cơ bản Một rescaling tự nhiên Hoặc nếu mô hình của bạn chưa hoàn thành, hãy chọn một phép biến đổi gần như đạt được điều đó. Nếu không, đây là một cách tiếp cận có liên quan: Nếu bạn có nhiều dữ liệu đơn biến để xây dựng một biểu đồ (của mỗi variate), bạn có thể chuyển đổi từng thang điểm 10 điểm dựa trên thang điểm 0-10% hoặc 10-20%-trăm phần trăm ... 90-100% percentile. phân phối trên 1,2, ..., 10 và bạn có thể kết hợp chúng theo bất kỳ cách nào bạn muốn.

+0

Đó là một ý tưởng rất hay. Tôi sẽ thử nó! –

0

bình thường hóa thành [0,1] sẽ là đề xuất trả lời ngắn của tôi để kết hợp 2 giá trị vì nó sẽ duy trì hình dạng phân phối như bạn đã đề cập và giải quyết vấn đề kết hợp các giá trị.

nếu phân phối 2 biến khác nhau, điều này có vẻ không thực sự cung cấp cho bạn những gì tôi nghĩ sau, đó là thước đo kết hợp của mỗi biến nằm trong phân phối nhất định của nó. bạn sẽ phải đưa ra một số liệu xác định vị trí của giá trị phân phối, điều này có thể được thực hiện theo nhiều cách, một trong số đó sẽ xác định có bao nhiêu độ lệch chuẩn so với giá trị đã cho, bạn có thể kết hợp 2 giá trị này theo một cách nào đó để lấy chỉ mục của bạn. (bổ sung có thể không còn đủ)

bạn phải tìm ra điều gì có ý nghĩa nhất đối với các tập dữ liệu bạn đang xem.độ lệch chuẩn có thể là vô nghĩa đối với ứng dụng của bạn, nhưng bạn cần phải xem xét các biện pháp thống kê liên quan đến phân phối và kết hợp chúng, thay vì chải các giá trị tuyệt đối, được chuẩn hóa hay không.

+0

Đoạn thứ hai của bạn dường như mô tả cách tiếp cận chuẩn hóa, nơi bạn đi từ giá trị số liệu thô đến số độ lệch chuẩn mà giá trị là từ giá trị trung bình. Tất cả điều này dường như hoạt động tốt nhất với các bản phân phối bình thường, và ít hơn với các cách khác –

+0

đồng ý, như tôi đã chỉ ra trong đoạn thứ ba bạn cần xem xét các phép đo thống kê liên quan đến tập dữ liệu của bạn, nếu chúng là phân phối điện , xiên, và có thể là kurtosis –

1

Câu hỏi rất thú vị. Có thể một cái gì đó giống như công việc này:

phép giả định rằng chúng tôi muốn mở rộng cả các biến để một loạt các [-1,1] Lấy ví dụ về betweeness_centrality mà có một loạt các 0-35000

  1. Chọn một số lớn theo thứ tự phạm vi của biến. Ví dụ: chọn 25.000
  2. tạo 25.000 thùng trong phạm vi ban đầu [0-35000] và 25.000 thùng trong phạm vi mới [-1,1]
  3. Cho mỗi số xi tìm ra thùng # thùng rơi thùng ban đầu. Hãy để điều này là B-i
  4. Tìm phạm vi của B-i trong phạm vi [-1,1].
  5. Sử dụng giá trị tối đa/phút của dải B-i trong [-1,1] làm phiên bản thu nhỏ của x-i.

Điều này bảo toàn phân phối pháp luật về quyền lực trong khi cũng giảm tỷ lệ xuống [-1,1] và không gặp vấn đề như (x-mean)/sd.

Các vấn đề liên quan