2010-10-27 30 views
16

Có ai cố gắng áp dụng số liệu đánh giá mượt mà hơn trước khi áp dụng phương pháp L để xác định số cụm k-nghĩa trong tập dữ liệu không? Nếu vậy, nó có cải thiện kết quả không? Hoặc cho phép số lượng thử nghiệm k-means thấp hơn và do đó tăng tốc độ lớn hơn nhiều? Bạn đã sử dụng thuật toán/phương pháp làm mịn nào?Sử dụng mượt mà hơn với Phương pháp L để xác định số cụm K-Means

Các "L-Phương pháp" được trình bày chi tiết trong: Determining the Number of Clusters/Segments in Hierarchical Clustering/Segmentation Algorithms, Salvador & Chan

này tính toán các số liệu đánh giá cho một loạt các tội cụm thử nghiệm khác nhau. Sau đó, để tìm đầu gối (xảy ra với số lượng cụm tối ưu), hai đường thẳng được trang bị sử dụng hồi quy tuyến tính. Một quá trình lặp đi lặp lại đơn giản được áp dụng để cải thiện khớp gối - điều này sử dụng các phép tính số liệu đánh giá hiện có và không yêu cầu bất kỳ lần chạy lại nào của k-means.

Đối với chỉ số đánh giá, tôi đang sử dụng một nghịch đảo của một phiên bản đơn giản của Chỉ số Dunns. Đơn giản hóa cho tốc độ (về cơ bản đường kính của tôi và các tính toán liên cụm được đơn giản hóa). Các đối ứng là để chỉ số hoạt động theo đúng hướng (tức là thấp hơn nói chung là tốt hơn).

K-means là thuật toán ngẫu nhiên, vì vậy thông thường nó được chạy nhiều lần và phù hợp nhất được chọn. Điều này làm việc khá tốt, nhưng khi bạn đang làm điều này cho 1..N cụm thời gian nhanh chóng tăng lên. Vì vậy, tôi muốn giữ số lần chạy trong séc. Thời gian xử lý tổng thể có thể xác định xem việc triển khai của tôi có thực tế hay không - tôi có thể bỏ qua chức năng này nếu tôi không thể tăng tốc.

+0

tư duy về điều này hơn nữa, tôi không nghĩ rằng một thậm chí (tức là chạy trung bình) mượt mà hơn sẽ có bất kỳ hiệu ứng đáng chú ý, bởi vì L-Phương pháp sau đó phù hợp với dòng sử dụng hình vuông ít nhất. Tuy nhiên, một hình mượt mà hơn như Gaussian có thể hoạt động khác nhau. Tôi sẽ cố gắng và thực hiện một Gaussian kích thước vừa phải (nửa chiều rộng khoảng 6-10 dường như về quyền cho tôi). Nó sẽ là một thử nghiệm định tính. – winwaed

+0

Tôi nghĩ đây sẽ là một dự án nghiên cứu có quy mô vừa phải. Nếu có bất kỳ sinh viên đại học nào tìm kiếm một dự án, tôi sẽ quan tâm đến việc cộng tác/tư vấn/đồng tác giả. Dự án như vậy nên thực hiện so sánh định lượng và tổng quát hơn ứng dụng cụ thể của tôi. Tôi sẽ thêm thẻ ý tưởng dự án vào câu hỏi. – winwaed

+0

Tôi có một số kết quả rất thô sơ, không khoa học và định tính: Tôi đã thử bộ lọc Gaussian của HalfWidthHalfHeight là 5 và 3. Trong cả hai trường hợp, nó tăng số lượng ước tính của các cụm, nhưng lỗi ước tính bị giảm (tôi chạy thử nghiệm khoảng 8-10 lần chạy với mỗi cấu hình). Đây là dữ liệu thực tế, và sự gia tăng trong ước tính là chính đáng. Vì vậy, tôi nghĩ rằng điều này cung cấp đủ để đảm bảo một dự án nghiên cứu nhỏ với dữ liệu được kiểm soát và trong điều kiện tốt hơn. – winwaed

Trả lời

5

Tôi đã yêu cầu similar question trong quá khứ tại đây về SO. Câu hỏi của tôi là về việc tìm ra một cách nhất quán để tìm đầu gối đến hình chữ L mà bạn mô tả. Các đường cong được đề cập đại diện cho sự cân bằng giữa sự phức tạp và một thước đo phù hợp của mô hình.

Các best solution là tìm điểm với khoảng cách tối đa d theo hình hiển thị:

alt text

Lưu ý: Tôi đã không đọc những giấy bạn liên kết với chưa ..

+0

Cảm ơn bạn đã trả lời. Điều đó có vẻ là có một cách tiếp cận hình học hơn cho bài báo, nhưng tôi sẽ không ngạc nhiên nếu nó giảm xuống cùng một (hoặc rất tương tự) toán học. Câu hỏi của tôi là liệu có tốt hơn để làm mịn dữ liệu trước hay không và cho một ứng dụng rất cụ thể (các điểm dữ liệu là các biện pháp phù hợp cho các cụm có số lượng khác nhau). – winwaed

+0

@Amro: Bạn có thấy kỹ thuật này hoạt động tốt hơn thử nghiệm phái sinh thứ hai không? Có một tên chuẩn cho kỹ thuật này bằng bất kỳ cơ hội nào không? – Legend

+0

Phương pháp L là những gì giấy gọi nó. Tôi nghĩ rằng tôi có quá nhiều tiếng ồn cho một đạo hàm thứ hai để tìm chính xác đầu gối. – winwaed

Các vấn đề liên quan