50000 trường hợp và 7 thứ nguyên không thực sự lớn và không được thực thi.
Mặc dù không có ràng buộc python, hãy thử dùng thử ELKI. Các thiết lập tiêu chuẩn họ sử dụng trên trang chủ của họ là 110250 trường hợp trong 8 kích thước, và họ chạy k-có nghĩa là nó trong 60 giây rõ ràng, và OPTICS cao cấp hơn nhiều trong 350 giây.
Tránh phân cụm theo cấp bậc. Nó thực sự chỉ dành cho các tập dữ liệu nhỏ. Cách nó thường được triển khai trên các hoạt động ma trận là O(n^3)
, là thực sự là không hợp lệ đối với các tập dữ liệu lớn. Vì vậy, tôi không ngạc nhiên khi hai người này hẹn giờ cho bạn.
DBSCAN và OPTICS khi được triển khai với hỗ trợ chỉ mục là O(n log n)
. Khi được triển khai một cách ngây thơ, chúng nằm trong số O(n^2)
. K-nghĩa là thực sự nhanh, nhưng thường kết quả là không thỏa đáng (bởi vì nó luôn tách ở giữa). Nó sẽ chạy trong O(n * k * iter)
thường hội tụ trong không quá nhiều lần lặp (iter<<100
). Nhưng nó sẽ chỉ hoạt động với khoảng cách Euclide, và không hoạt động tốt với một số dữ liệu (các chiều cao, rời rạc, nhị phân, các cụm với các kích thước khác nhau, ...)
Nguồn
2012-06-19 06:06:18
Điều gì đã xảy ra với k-means runtime là 'O (n * k * i)' với 'k, i << n'? –