Bạn cần cụ thể hơn về những "đặc điểm chung" này. Trong NLP "đặc điểm chung" của một câu có thể có nghĩa là hàng triệu thứ khác nhau - phân tích tình cảm (tức là thái độ của người nói), phần cơ bản của gắn thẻ lời nói, sử dụng đại từ cá nhân, câu có chứa hoạt động hoặc thụ động không động từ, những gì là căng thẳng và giọng nói của các động từ ...
Tôi không ngại nếu bạn mơ hồ về mô tả nó, nhưng nếu chúng tôi không biết những gì bạn đang yêu cầu nó rất khó chúng tôi có thể cụ thể giúp bạn.
Đề xuất chung của tôi, đặc biệt là cho NLP, bạn nên có công cụ được thiết kế tốt nhất cho công việc thay vì giới hạn bản thân bằng một ngôn ngữ cụ thể. Hạn chế bản thân với một ngôn ngữ cụ thể là tốt cho một số nhiệm vụ mà các công cụ chung được thực hiện ở khắp mọi nơi, nhưng NLP không phải là một trong số đó.
Vấn đề khác khi làm việc với Twitter là rất nhiều câu sẽ có một nửa được nén hoặc nén theo những cách kỳ lạ và tuyệt vời - mà hầu hết các công cụ NLP không được đào tạo. Để giúp đỡ, NUS SMS Corpus bao gồm "khoảng 10.000 tin nhắn SMS được thu thập bởi sinh viên". Do các hạn chế và cách sử dụng tương tự, việc phân tích có thể hữu ích trong các khám phá của bạn với Twitter.
Nếu bạn cụ thể hơn, tôi sẽ thử và liệt kê một số công cụ sẽ hữu ích.
Tại sao không thử wit.ai? Đó là một dịch vụ bên ngoài miễn phí. Tôi đã viết một viên ngọc kết thúc tốt đẹp chức năng của họ: [wit_bot] (// bensites.com/wit_bot) –