Tôi muốn tạo thuật toán để phân biệt những người viết trên diễn đàn dưới các biệt hiệu khác nhau.Khám phá người dùng phía sau nhiều tài khoản người dùng khác nhau theo các từ anh ấy sử dụng
Mục đích là để khám phá những người đăng ký tài khoản mới với diễn đàn ngọn lửa ẩn danh, không theo tài khoản chính của họ.
Khái niệm cơ bản Tôi đã suy nghĩ về các từ gốc mà họ sử dụng và so sánh người dùng theo sự tương đồng hoặc những từ này.
Như đã trình bày trên hình ảnh có User3 và user4 người sử dụng cùng một từ. Nó có nghĩa là có lẽ một người đứng sau máy tính.
Rõ ràng là có rất nhiều từ phổ biến đang được tất cả người dùng sử dụng. Vì vậy, tôi nên tập trung vào các từ "người dùng cụ thể".
Input được (liên quan đến hình ảnh trên):
<word1, user1>
<word2, user1>
<word2, user2>
<word3, user2>
<word4, user2>
<word5, user3>
<word5, user4>
... etc. The order doesnt matter
Output nên là:
user1
user2
user3 = user4
tôi đang làm điều này trong Java nhưng tôi muốn câu hỏi này là ngôn ngữ độc lập.
Bất kỳ ý tưởng nào về cách thực hiện?
1) cách lưu trữ từ/người dùng? Cấu trúc dữ liệu gì?
2) cách loại bỏ các từ thông dụng mà mọi người sử dụng? Tôi phải bằng cách nào đó bỏ qua chúng trong số các từ cụ thể của người dùng. Có lẽ tôi chỉ có thể bỏ qua chúng bởi vì họ bị lạc. Tôi sợ rằng họ sẽ ẩn sự khác biệt đáng kể của "các từ dành riêng cho người dùng"
3) cách nhận ra cùng một người dùng? - bằng cách nào đó đếm cùng một từ giữa mỗi người dùng?
Tôi rất biết ơn mọi lời khuyên trước.