Tôi đang làm việc trên một vấn đề phân loại văn bản, tôi đang cố gắng phân loại một tập hợp các từ thành thể loại, có rất nhiều thư viện để phân loại, vì vậy vui lòng không trả lời nếu bạn đang đề nghị sử dụng chúng.Phân loại văn bản thành các hạng mục
Hãy để tôi giải thích những gì tôi muốn triển khai. (Lấy ví dụ)
Danh sách từ:
- java
- lập trình
- ngôn ngữ
- c-sắc nét
Danh sách Categories.
- java
- c-sắc nét
ở đây chúng tôi sẽ đào tạo các thiết lập, như:
- bản đồ java để loại 1. java
- lập trình bản đồ để loại 1. java
- bản đồ lập trình thành thể loại 2.c-sharp
- bản đồ ngôn ngữ để loại 1.java
- bản đồ ngôn ngữ để loại 2.c-sắc nét
- bản đồ c-sắc nét để loại 2.c-sắc nét
Bây giờ chúng ta có một cụm từ "tốt nhất lập trình java cuốn sách " từ cụm từ cho từ sau một trận đấu để chúng ta "Danh sách Words":.
- java
- lập trình
"lập trình" có hai danh mục được ánh xạ "java" & "c-sharp" do đó, nó là một từ phổ biến.
"java" được ánh xạ tới danh mục "java".
Vì vậy, danh mục phù hợp của chúng tôi cho các cụm từ là "java"
Đây là những gì xuất hiện trong đầu của tôi, là giải pháp tốt này, nó có thể được thực hiện, đề xuất của bạn là gì, bất cứ điều gì tôi bỏ lỡ, sai sót , vv ..
không có gì, đó là câu hỏi, điều này có hiệu quả không, tôi có nên dành thời gian để thực hiện điều này không? –