2013-02-24 43 views
6

Tôi cần tìm các lớp danh từ xuất hiện tự nhiên dựa trên phân bố của chúng với các giới từ khác nhau (như tác nhân, công cụ, thời gian, địa điểm, v.v.). Tôi đã cố gắng sử dụng cụm từ k, nhưng ít trợ giúp hơn, nó không hoạt động tốt, có rất nhiều sự chồng chéo lên các lớp mà tôi đang tìm kiếm (có lẽ do hình dạng không hình cầu của lớp và sự khởi tạo ngẫu nhiên trong k-means).Ước lượng tham số trong DBSCAN

Tôi hiện đang làm việc về sử dụng DBSCAN, nhưng tôi gặp khó khăn khi hiểu giá trị epsilon và giá trị điểm nhỏ trong thuật toán phân cụm này. Tôi có thể sử dụng các giá trị ngẫu nhiên hay tôi cần tính toán chúng. Ai có thể giúp. Đặc biệt với epsilon, ít nhất là cách tính nó nếu tôi cần.

Trả lời

6

Sử dụng kiến ​​thức về miền để chọn tham số. Epsilon là bán kính. Bạn có thể nghĩ nó như là một kích thước cluster tối thiểu.

Rõ ràng giá trị ngẫu nhiên sẽ không hoạt động tốt. Là một người thừa kế, bạn có thể thử nhìn vào một âm mưu k-khoảng cách; nhưng nó cũng không tự động.

Điều đầu tiên cần làm theo cách này là chọn chức năng khoảng cách tốt cho dữ liệu của bạn. Và thực hiện bình thường hóa thích hợp.

Đối với "minPts", nó lại phụ thuộc vào dữ liệu của bạn và cần. Một người dùng có thể muốn một giá trị rất khác so với một người dùng khác. Và tất nhiên minPts và Epsilon được kết hợp. Nếu bạn tăng gấp đôi epsilon, bạn sẽ cần phải tăng minPts của bạn thêm 2^d (cho khoảng cách Euclide, bởi vì đó là cách khối lượng của một hypersphere tăng lên!)

Nếu bạn muốn nhiều cụm chi tiết nhỏ và tốt, hãy chọn một minpts thấp. Nếu bạn muốn các cụm lớn hơn và ít hơn (và nhiều tiếng ồn hơn), hãy sử dụng một số phút lớn hơn. Nếu bạn không muốn bất kỳ cụm nào, hãy chọn số lượng lớn hơn kích thước tập dữ liệu của bạn ...

+0

Tôi sẽ không thể cho bạn biết thông số tại đây. Bạn cần * thử nghiệm *. Nhưng nghiêm túc, trước tiên hãy cố gắng tìm ra cách để đo lường sự giống nhau. Một kết quả phân cụm DBSCAN sẽ luôn luôn chỉ tốt như chức năng tương tự của bạn. –

+0

Tôi giả định cấu trúc phân cấp trong dữ liệu của mình, với 3 lớp chính. Tôi có khoảng 32K điểm với 15 chiều. Điểm dữ liệu của tôi: danh từ, số đếm (prep1)/tổng số danh từ, số đếm (prep2)/tổng số ....... (prep15)/tổng. Tôi đang sử dụng chức năng khoảng cách Euclide, tôi chưa thử người khác. Ý của bạn là gì khi chuẩn hóa, làm thế nào tôi phải chuẩn hóa dữ liệu, tôi đã chuẩn hóa các bản phân phối theo tổng tần suất của một danh từ đã cho. Một câu hỏi nữa, về k-means, tôi có thể chọn centroid trước khi tay không, vì tôi có thể đoán nguyên mẫu của từng lớp được cung cấp cho kiến ​​thức miền của tôi. – Riyaz

Các vấn đề liên quan