Một thời gian trong tương lai gần, tôi sẽ cần phải thực hiện một số lượng từ vựng, hoặc nếu điều đó là không thể, một số ký tự chéo ngôn ngữ.Một thư viện/lớp học PHP để đếm từ bằng các ngôn ngữ khác nhau?
Theo số lượng từ, tôi muốn nói chính xác số từ có trong văn bản đã cho, lấy ngôn ngữ của văn bản. Ngôn ngữ của văn bản được đặt bởi người dùng và sẽ được giả định là chính xác.
Theo số ký tự, tôi có nghĩa là tổng số ký tự "có thể trong một từ" trong văn bản đã cho, với cùng thông tin ngôn ngữ được mô tả ở trên.
Tôi rất thích số lượng cũ, nhưng tôi biết những khó khăn liên quan. Tôi cũng biết rằng số sau dễ dàng hơn nhiều, nhưng rất thích cái cũ, nếu có thể.
Tôi rất thích nếu tôi chỉ cần nhìn vào tiếng Anh, nhưng tôi cần phải xem xét mọi ngôn ngữ ở đây, tiếng Trung, tiếng Hàn, tiếng Anh, tiếng Ả Rập, tiếng Hindi, v.v.
Tôi muốn biết nếu Stack Overflow có bất kỳ dẫn về nơi để bắt đầu tìm kiếm một sản phẩm/phương pháp hiện có để làm điều này trong PHP, như tôi là một người lười biếng lập trình tốt *
A simple test thể hiện như thế nào str_word_count với set_locale không hoạt động và chức năng từ trang str_word_count của php.net.
* http://blogoscoped.com/archive/2005-08-24-n14.html
CJK sẽ là khó khăn nhất, vì họ không sử dụng không gian để từ riêng biệt. – Turnor
Quan sát cấp bách. Đây là lý do tôi đăng câu hỏi của tôi ở đây;) –
Đây là câu hỏi tôi đã hỏi trước đây như một câu trả lời: Bạn có thể cụ thể hơn về ý nghĩa của từ "đếm chữ" không? Bạn có muốn xác minh rằng một từ thực sự tồn tại trong từ điển của ngôn ngữ đó hay bạn chỉ đang tìm kiếm một số cụm từ được phân cách bằng dấu phân cách của ngôn ngữ đó? – Grantismo