5

Tôi đang lập kế hoạch viết một công cụ để phát hiện chủ đề trên Twitter. Tôi đã suy nghĩ về một biện pháp tương tự tốt (khoảng cách) giữa hai tweets, và làm thế nào để đại diện cho họ, lấy trong đếm:Đại diện và một biện pháp tương tự tốt giữa các Tweet để phát hiện chủ đề

  • Các #hashtags (Tôi nghĩ hashtags là rất quan trọng khi phát hiện chủ đề trên Twitter)
  • các câu trả lời (nếu ai đó trả lời một tweet, những tweets thể được nói về cùng một chủ đề, mặc dù hai người có thể bắt đầu nói về samsung galaxy và kết thúc nói về iphone jailbreaking, v.v.)

Tôi đang suy nghĩ về việc triển khai những gì tôi có cho đến nay và thực hiện một số thử nghiệm. Tôi sẽ thực hiện các mô hình cổ điển (như TF*IDF và sử dụng ơclit khoảng cách, góc cosin, vv), và các mô hình boolean với một vài biện pháp tương tự (Hamming, Jaccard, vv).

Bất kỳ ý tưởng nào về cách điều chỉnh một số mô hình hiện có thành Twitter hoặc một vài ý tưởng về cách tạo mô hình mới?

Trả lời

5

Similarity Metrics on Twitter thảo luận một số chi tiết về các biện pháp tương tự khác nhau mà bạn có thể sử dụng để phân cụm dữ liệu từ twitter với nhau. Chúng tôi đã thực hiện một số nghiên cứu về phân cụm người dùng trên twitter dựa trên kết nối người dùng, đề cập của người dùng, vị trí địa lý, nội dung tương tự giữa tweet, nội dung giống nhau giữa mô tả người dùng và #hashtags phổ biến.

Để tìm chủ đề phổ biến trên twitter, việc tìm kiếm kết nối giữa người dùng thảo luận về các chủ đề thực sự hữu ích và chúng tôi nhận thấy rằng nhóm người dùng có xu hướng thảo luận một chủ đề chung. Có một số chi tiết về điều này trong nửa sau của this post.

+0

Cảm ơn bạn đã trả lời. Bây giờ tôi sẽ xem xét các bài viết đó :) –

+0

Hi Pulkit, bạn có một bài báo mô tả công việc mà bạn đã làm về điều này mà tôi có thể đọc không? – KillBill

Các vấn đề liên quan