2010-08-31 38 views
14

Tôi đang thực hiện một ít nghiên cứu về cách phân cụm bài viết thành 'tin bài' ala Google News.Thuật toán phân cụm gia tăng để nhóm các bài viết tin tức?

Nhìn vào các câu hỏi trước ở đây về chủ đề, tôi thường thấy đề xuất chỉ cần rút ra một vectơ các từ trong một bài viết, cân nhắc một số từ nhiều hơn nếu chúng ở trong các phần nhất định của bài viết.), và sau đó sử dụng một cái gì đó giống như một thuật toán k-means để phân cụm các bài báo.

Nhưng điều này dẫn đến một vài câu hỏi:

  • Với k-means, làm thế nào để bạn biết trước bao nhiêu k nên được? Trong một môi trường tin tức động, bạn có thể có một số lượng câu chuyện rất khác nhau và bạn sẽ không biết trước bao nhiêu câu chuyện mà một tập hợp các bài báo đại diện.

  • Với thuật toán phân cụm phân cấp, làm thế nào để bạn quyết định cụm nào sẽ sử dụng làm câu chuyện của bạn? Bạn sẽ có các cụm ở dưới cùng của cây chỉ là các bài viết đơn, mà bạn rõ ràng sẽ không muốn sử dụng, và một cụm ở gốc cây có tất cả các bài viết, một lần nữa bạn sẽ không muốn ... nhưng làm thế nào để bạn biết các cụm ở giữa nên được sử dụng để đại diện cho những câu chuyện? Cuối cùng, với thuật ngữ k hoặc thuật toán phân cấp, hầu hết các tài liệu tôi đã đọc dường như cho rằng bạn có một bộ sưu tập sẵn các tài liệu bạn muốn phân cụm và nó gộp chúng cùng một lúc. Nhưng những gì của một tình huống mà bạn có bài viết mới đến trong mỗi rất thường xuyên. Chuyện gì xảy ra? Bạn có phải cụm tất cả các bài viết từ đầu, bây giờ có thêm một bài viết không? Đây là lý do tại sao tôi tự hỏi nếu có phương pháp tiếp cận cho phép bạn 'thêm' bài viết như bạn đi mà không tái phân cụm từ đầu. Tôi không thể tưởng tượng điều đó rất hiệu quả.

Trả lời

2

Tôi sẽ thực hiện tìm kiếm các thuật toán phân cụm K thích hợp. Có một phần tốt của nghiên cứu dành cho các vấn đề bạn mô tả. Đây là một trong số paper (pdf)

+0

Cảm ơn Eric! Đó là một bài viết hữu ích :) Nó giải quyết vấn đề xác định trước số cụm, và tôi đoán sự lựa chọn ngưỡng là rất quan trọng về chất lượng của các cụm ... nhưng đó là thứ có thể được thử nghiệm với. Tôi tự hỏi ... bạn có biết thuật toán này có hoạt động tốt trong ngữ cảnh gia tăng không? Ý tôi là, nếu một bài viết mới xuất hiện, và tôi gán nó cho một cụm dựa trên khoảng cách ít nhất đến các cụm hiện có, điều này sẽ dẫn đến kết quả tương tự như việc tính toán lại các cụm từ đầu hoặc kết quả cho tất cả các mục đích và mục đích ' là tốt '? – Peter

+0

Dựa trên đoạn kết luận của mình, tôi tin rằng câu trả lời là có, nó sẽ thực hiện "tốt" như thể bạn đã tính toán lại các cụm từ đầu giả sử tính toán khoảng cách của bạn được thực hiện đúng. Tôi không nghĩ rằng nó sẽ đưa bạn quá lâu để thực hiện một nguyên mẫu trong một ngôn ngữ kịch bản (dễ dàng phân tích cú pháp nhiều định dạng dữ liệu một cách nhanh chóng, và cung cấp các thư viện tốt cho hình ảnh cụm). Sau đó, bạn có thể có một mô hình chiến lược, một chiến lược sử dụng các phương tiện k thích nghi và một chiến lược sử dụng các phương tiện k bình thường để tính toán lại mỗi lần. –

+0

k-gần-láng giềng có thể giúp phân cụm trực tuyến các bài viết mới. – crizCraig

3

Tôi đã làm việc trên một công ty khởi nghiệp đã xây dựng chính xác điều này: một công cụ phân cụm gia tăng cho các bài báo. Chúng tôi dựa trên thuật toán của chúng tôi trên bài báo này: Nhóm tài liệu web bằng cách sử dụng biểu đồ chỉ mục tài liệu (http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851). Làm việc tốt cho chúng tôi với 10 nghìn bài báo/ngày.

Có hai ưu điểm chính: 1) Tăng dần, giải quyết vấn đề bạn phải đối phó với luồng bài viết đến (chứ không phải phân cụm cùng một lúc) 2) Sử dụng mô hình dựa trên cụm từ, trái ngược với chỉ "túi chữ", kết quả là độ chính xác cao hơn nhiều.

Tìm kiếm của Google bật lên http://www.similetrix.com, họ có thể có những gì bạn đang tìm kiếm.

Các vấn đề liên quan