Tôi có tập dữ liệu chứa cả thuộc tính phân loại (danh nghĩa và thứ tự) và số. Tôi muốn tính toán ma trận tương tự (dis) trên các quan sát của tôi bằng cách sử dụng các thuộc tính hỗn hợp này. Sử dụng daisy() chức năng của gói cụm trong R, tôi có thể dễ dàng có được một ma trận không giống nhau như sau:Python tương đương với daisy() trong gói cụm của R
if(!require("cluster")) { install.packages("cluster"); require("cluster") }
data(flower)
as.matrix(daisy(flower, metric = "gower"))
này sử dụng gower số liệu để đối phó với các biến danh nghĩa. Có tương đương Python của hàm daisy()
trong R không?
Hoặc có thể là bất kỳ chức năng mô-đun nào khác cho phép sử dụng chỉ số Gower hoặc điều gì đó tương tự để tính toán ma trận tương tự (dis) cho tập dữ liệu với thuộc tính hỗn hợp (danh nghĩa, số)?
Cảm ơn bạn, bạn có biết của bất kỳ ra khỏi số liệu khoảng cách hộp có sẵn trong scikitlearn có thể cùng nhau đối phó với các biến phân loại và số? – Rhubarb
Tôi thì không. Tài liệu của họ tốt, vì vậy việc tìm kiếm sẽ tiết lộ kết quả nhanh chóng nếu nó tồn tại. Tuy nhiên, cách tiếp cận của tôi là xác định hàm khoảng cách nhỏ của riêng tôi để xử lý điều này theo cách tôi muốn và chuyển nó thành 'pdist'. Bằng cách đó tôi có thể kiểm soát tầm quan trọng tương đối của các khía cạnh khác nhau của phép tính đó.Nếu điều này trở nên chậm chạp, tôi sẽ sử dụng numba hoặc Cython để nhắm mục tiêu triển khai thực hiện chức năng đó ở mức thấp hơn để tăng tốc nó. – ely