Tôi đang làm việc trên một dự án mà tôi cần phân tích một trang văn bản và tập hợp các trang văn bản để xác định các từ chi phối. Tôi muốn biết nếu có một thư viện (thích C# hoặc java) sẽ xử lý việc nâng hạng nặng cho tôi. Nếu không, có một thuật toán hoặc nhiều thuật toán sẽ đạt được mục tiêu của tôi bên dưới.Thuật toán hoặc thư viện để phân tích văn bản, cụ thể: từ, cụm từ trên văn bản và tập hợp văn bản
Điều tôi muốn làm tương tự với các đám mây từ được tạo từ url hoặc nguồn cấp dữ liệu rss mà bạn tìm thấy trên web, ngoại trừ tôi không muốn hiển thị. Chúng được sử dụng tất cả các thời gian để phân tích các bài phát biểu ứng viên tổng thống để xem những gì các chủ đề hoặc từ được sử dụng nhiều nhất là.
Biến chứng, là tôi cần thực hiện việc này trên hàng nghìn tài liệu ngắn, sau đó là các bộ sưu tập hoặc danh mục của các tài liệu này.
Kế hoạch ban đầu của tôi là phân tích cú pháp tài liệu, sau đó lọc các từ phổ biến - của, anh ấy, cô ấy, v.v. Sau đó đếm số lần các từ còn lại hiển thị trong văn bản (và bộ sưu tập/danh mục tổng thể)).
Vấn đề là trong tương lai, tôi muốn xử lý các hình thức gốc, số nhiều, vv .. Tôi cũng muốn xem liệu có cách nào để xác định các cụm từ quan trọng hay không. (Thay vì đếm một từ, tổng số cụm từ gồm 2-3 từ cùng nhau)
Bất kỳ hướng dẫn nào về chiến lược, thư viện hoặc thuật toán sẽ được đánh giá cao.
Tôi đã thêm thẻ "ngôn ngữ tự nhiên" vào bài đăng. –