Tôi đang thực hiện một dự án cho một lớp học đại học mà tôi đang theo học.Khai thác văn bản với PHP
Tôi đang sử dụng PHP để xây dựng một ứng dụng web đơn giản phân loại các tweet là "tích cực" (hoặc hạnh phúc) và "tiêu cực" (hoặc buồn) dựa trên một bộ từ điển. Thuật toán tôi đang nghĩ đến bây giờ là phân loại Naive Bayes hoặc cây quyết định.
Tuy nhiên, tôi không thể tìm thấy bất kỳ thư viện PHP nào giúp tôi thực hiện một số xử lý ngôn ngữ nghiêm túc. Python có NLTK (http://www.nltk.org). Có điều gì giống như vậy đối với PHP không?
Tôi dự định sử dụng WEKA làm mặt sau của ứng dụng web (bằng cách gọi Weka trong dòng lệnh từ bên trong PHP), nhưng dường như không hiệu quả.
Bạn có biết tôi nên sử dụng gì cho dự án này không? Hoặc tôi nên chuyển sang Python?
Cảm ơn
Bộ phân loại Naive Bayes không thực sự khó viết nếu bạn hiểu các nguyên tắc cơ bản. Bạn có thể thực sự làm tất cả mọi thứ trong PHP theo cách đó. San Jacinto đã bao gồm mọi thứ tôi đã nói về phần NLP. Một điều khác tôi có thể nói với bạn từ một dự án tương tự mà tôi đã làm chỉ một vài tuần trước là phân loại tình cảm bằng cách sử dụng phương pháp tiếp cận túi tiêu chuẩn không thực sự hoạt động tốt. Tôi đã không thử bất cứ thứ gì như n-gram, mặc dù ... Tôi có cảm giác rằng họ sẽ thực hiện tốt hơn, nhưng tất nhiên điều đó sẽ cung cấp cho bạn tấn kích thước bổ sung ... –
Không có bất kỳ dấu hiệu nào trong cả hai bài đăng hoặc liên kết của bạn với tư cách là giải pháp phù hợp. –
Text_LanguageDetect của PEAR có thể nhận dạng 52 ngôn ngữ của con người từ các mẫu văn bản và trả về điểm số tin cậy cho mỗi mẫu. Đây không phải là một lựa chọn thú vị để đưa vào tài khoản? – nuqqsa