Mục tiêu của tôi là cụm từ dựa trên mức độ tương tự của chúng đối với một tập hợp tài liệu văn bản. Tôi đã tính toán tương tự Jaccard giữa mỗi cặp từ. Nói cách khác, tôi có một ma trận khoảng cách thưa thớt có sẵn với tôi. Bất cứ ai có thể chỉ cho tôi bất kỳ thuật toán phân cụm (và có thể là thư viện của nó trong Python) mà mất ma trận khoảng cách như đầu vào? Tôi cũng không biết số lượng cụm trước. Tôi chỉ muốn cụm từ những từ này và có được những từ được nhóm lại với nhau.Phân cụm dựa trên ma trận khoảng cách
Trả lời
Gói phân cụm scipy có thể hữu ích (scipy.cluster). Có các hàm phân cụm theo cấp bậc trong scipy.cluster.hierarchy. Tuy nhiên, lưu ý rằng những yêu cầu đó cần một ma trận ngưng tụ làm đầu vào (hình tam giác trên của ma trận khoảng cách). Hy vọng rằng các trang tài liệu sẽ giúp bạn cùng.
Bạn có thể sử dụng hầu hết các thuật toán trong việc học bằng scikit với ma trận khoảng cách được tính trước. Thật không may bạn cần số lượng cụm cho nhiều thuật toán. DBSCAN là người duy nhất không cần số cụm và cũng sử dụng ma trận khoảng cách tùy ý. Bạn cũng có thể thử MeanShift, nhưng điều đó sẽ giải thích khoảng cách là tọa độ - cũng có thể hoạt động.
Ngoài ra còn có affinity propagation, nhưng tôi chưa thực sự thấy rằng hoạt động tốt. Tuy nhiên, nếu bạn muốn có nhiều cụm, điều đó có thể hữu ích.
tiết lộ: Tôi là một nhà phát triển cốt lõi về kiến thức.
bạn có thể cung cấp một ví dụ [reproducible example] (http://stackoverflow.com/help/mcve) của thuật toán scikit-learn sử dụng ma trận khoảng cách làm đầu vào không? – Bryan
Có một ở đây: http://scikit-learn.org/dev/auto_examples/cluster/plot_segmentation_toy.html –
- 1. Thư viện phân cụm dựa trên mật độ lấy ma trận khoảng cách làm đầu vào
- 2. Clustering với ma trận khoảng cách
- 3. Cách tạo ma trận nhị phân của khoảng không quảng cáo trên mỗi hàng? (R)
- 4. Phân cụm hiệu quả của ma trận tương tự
- 5. Xây dựng song song ma trận khoảng cách
- 6. k-có nghĩa là phân cụm trong R trên ma trận rất lớn, thưa thớt?
- 7. Sắp xếp một ma trận dựa trên một ma trận khác
- 8. R, ma trận lọc dựa trên phương sai cắt
- 9. Ma trận đầu vào cho các cụm công nghiệp opencv phân cụm
- 10. Numpy: Cách phân chia ngẫu nhiên/chọn ma trận thành ma trận n khác nhau
- 11. Sắp xếp ma trận khối u dựa trên đường chéo
- 12. Tìm tọa độ điểm từ ma trận khoảng cách
- 13. SVG ma trận phân hủy
- 14. Vẽ đồ thị hoặc mạng từ ma trận khoảng cách?
- 15. Tọa độ từ ma trận khoảng cách trong R
- 16. Khoảng cách Euclide giữa hai vectơ (ma trận một hàng)
- 17. Thuật toán để phân cụm ảnh dựa trên ngày chụp
- 18. Tìm các cụm khối lượng trong ma trận/bitmap
- 19. Sắp xếp ma trận 2D nhị phân?
- 20. Ma trận của Ma trận trong Perl
- 21. Định hình lại ma trận 3d thành ma trận 2d
- 22. gluLookAt() sử dụng tốt nhất, trên ma trận GL_PROJECTION hoặc trên ma trận GL_MODELVIEW
- 23. Clustering với scipy - cluster thông qua ma trận khoảng cách, cách lấy lại các đối tượng gốc
- 24. Nhân ma trận lớn trên gpu
- 25. Phép toán Boolean trên ma trận scipy.sparse
- 26. Làm cách nào để lấy trọng tâm từ phân cụm kết tụ phân cấp của SciPy?
- 27. Ma trận biến đổi ma trận bù đắp
- 28. Tách chuỗi dựa trên cụm từ thông dụng
- 29. Tìm ma trận tương quan
- 30. R: áp dụng chức năng trên ma trận và giữ kích thước ma trận
hãy xem http://code.google.com/p/em-python/ và "http://en.wikipedia.org/wiki/Expectation–maximization_algorithm" – Moj
cũng có http: // www .pymix.org/pymix/index.php? n = PyMix.Tutorial – Moj
@Moj Tôi xin lỗi ... Tôi không thể tìm ra cách thông tin chứa trong các liên kết bạn đã đề cập có liên quan ở đây – user2115183