Tôi đang xây dựng một dự án liên quan đến xử lý ngôn ngữ tự nhiên, vì mô-đun nlp hiện chỉ xử lý văn bản tiếng anh, nên tôi phải đảm bảo người dùng gửi nội dung (không lâu, chỉ một vài từ) là bằng tiếng Anh. Có cách nào để đạt được điều này không? Cách Python hoặc Javascript được ưu tiên.Làm thế nào để đảm bảo người dùng chỉ gửi văn bản tiếng Anh
Trả lời
Nếu nội dung đủ dài, tôi sẽ đề xuất một số frequency analysis trên các chữ cái.
Nhưng đối với một vài từ tôi nghĩ rằng đặt cược tốt nhất của bạn là so sánh chúng với một từ điển tiếng Anh và chấp nhận đầu vào nếu một nửa trong số chúng phù hợp.
Bạn có thể chia cụm từ thành các từ và kiểm tra từ điển (có một số bạn có thể tải xuống, this có thể quan tâm), nhưng điều đó yêu cầu từ điển bạn đã sử dụng đủ tốt.
Nó cũng sẽ rơi cho danh từ thích hợp (tên của tôi không có trong từ điển chẳng hạn).
Hãy thử:
http://wordlist.sourceforge.net/
Đối với một danh sách các từ tiếng Anh.
Bạn cần phải cẩn thận về tên, ví dụ: "Canberra" hoặc "Bill Clinton". Chúng sẽ không xuất hiện trong danh sách từ. Tôi đề nghị chỉ kiểm tra xem chữ cái đầu tiên được viết hoa như là một nỗ lực đầu tiên.
Tôi nghĩ rằng cách hiệu quả nhất sẽ được yêu cầu người sử dụng phải nộp văn bản tiếng anh chỉ :)
Bạn có thể hiển thị một lựa chọn ngôn ngữ thả xuống trên vùng văn bản của bạn với tiếng Anh/khác theo các tùy chọn. Khi người dùng chọn "Khác", hãy tắt vùng văn bản bằng thông báo chỉ hỗ trợ ngôn ngữ tiếng Anh [tại thời điểm này].
Nhưng bạn phải xác nhận điều đó, nếu không mô-đun nlp sẽ gặp sự cố. – btw0
Có bạn đã đúng. Nhưng trong các ứng dụng như vậy, nó thường là tốt để căng thẳng "Garbage in, Garbage Out" quy tắc để có ít người sử dụng lỗi. –
Kiểm tra Language Recognition Chart
Có một thuật toán đã biết để sử dụng biểu đồ này không? Tôi có nghĩa là bạn sẽ tính điểm cho mỗi ngôn ngữ và sau đó sắp xếp kết quả? Hoặc chúng ta có thể sử dụng giá trị ngưỡng cho mỗi ngôn ngữ? –
Thử nhận dạng ngôn ngữ thống kê dựa trên n-gram. Đây là một link cho một bản demo của một thuật toán sử dụng kỹ thuật này, đó cũng là một liên kết đến một bài báo mô tả thuật toán đó. Hãy thử demo, nó thực hiện khá tốt ngay cả trên văn bản rất ngắn (3-4 từ).
Bạn đã làm NLP, nếu mô-đun của bạn không hiểu ngôn ngữ văn bản thì mô-đun đó không hoạt động hoặc đầu vào không đúng ngôn ngữ.
Dictionary Switcher Tiện ích mở rộng của Firefox có tùy chọn phát hiện đúng từ điển khi tôi nhập.
Tôi đoán nó sẽ kiểm tra các từ đối với các từ điển đã cài đặt và chọn từ cho ít lỗi hơn ...
Bạn không thể mong đợi tất cả các từ trong từ điển: chữ viết tắt, danh từ thích hợp, lỗi chính tả. Bên cạnh đó, một số từ phổ biến đối với một số ngôn ngữ: một nhóm nhạc rock Pháp thậm chí còn làm cho danh hiệu đĩa của họ có ý nghĩa khác nhau cả bằng tiếng Pháp và tiếng Anh. Vì vậy, nó là một điều thống kê: nếu hơn x% từ được tìm thấy trong một từ điển tiếng Anh tốt, rất có thể là kiểu người dùng bằng ngôn ngữ này (ngay cả khi có lỗi, như có thể trong câu trả lời này, vì tôi không phải là tiếng Anh bản ngữ) .
Google có API javascript có triển khai phát hiện ngôn ngữ. Tôi chỉ chơi thử nghiệm với nó, không bao giờ sử dụng nó trong sản xuất.
http://code.google.com/apis/ajaxlanguage/documentation/#Detect
Maybe "Ensuring that the user submits only English text [PHP]" Bài viết này sẽ giúp bạn. Mã được viết bằng PHP, nhưng đủ nhỏ để dễ dàng viết lại.
- 1. Làm cách nào để sử dụng VIM hiệu quả để chỉnh sửa văn bản tiếng Anh?
- 2. Làm thế nào để bảo đảm Elmah.axd?
- 3. Phát hiện xem văn bản bằng tiếng Anh có python
- 4. Làm thế nào để sử dụng FormatMessage C++ để nhận chỉ những thông điệp tiếng Anh
- 5. Làm cách nào để đảm bảo người dùng xem toàn bộ video?
- 6. Rails cho việc đảm bảo các văn bản S3
- 7. Làm thế nào để đảm bảo gửi tin nhắn với cần tây?
- 8. InputConnection.commitText (văn bản CharSequence, int newCursorPosition) chỉ có thể cam kết các ký tự và số bằng tiếng Anh?
- 9. Làm cách nào để đảm bảo ai đó không gửi dữ liệu giả mạo?
- 10. Làm thế nào để thay đổi tên văn bản của người gửi khi gửi thư bằng Swift_Message?
- 11. Làm cách nào để đảm bảo rằng văn bản được mã hóa trong biểu mẫu là utf8
- 12. Tên phông chữ trên Windows chỉ có tiếng Anh?
- 13. Rails gửi văn bản nút (formtastic) - làm thế nào để thay đổi nhãn của nút gửi?
- 14. Nhận UIButton văn bản từ người gửi
- 15. Làm cách nào để xác minh rằng một chuỗi bằng tiếng Anh?
- 16. Tài nguyên lập trình cho người không nói tiếng Anh
- 17. Gửi yêu cầu POST đến hành động được bảo đảm
- 18. Làm thế nào để bảo đảm Jetty chỉ cho phép truy cập từ loopback (localhost)
- 19. Văn bản tìm kiếm của Oracle với các ký tự không phải tiếng Anh
- 20. Google dịch chuyển văn bản thành giọng nói bằng tiếng Anh
- 21. Đảm bảo không đảm bảo VirtualMachineError
- 22. Cách tốt nhất để đảm bảo người dùng đã đăng nhập chỉ thấy dữ liệu của họ
- 23. Làm thế nào quan trọng là phản ánh giao diện người dùng _entire_ cho người nói tiếng Ả Rập?
- 24. Làm cách nào để đảm bảo URL là hình ảnh bằng JavaScript + jQuery?
- 25. Có một thuật toán trích xuất các thẻ có ý nghĩa của văn bản tiếng Anh
- 26. Nhiều ngôn ngữ (tiếng Anh, tiếng Pháp) trên ASP.NET Page
- 27. Động từ tiếng Anh
- 28. Đảm bảo JSONP?
- 29. Đảm bảo yêu cầu ajax
- 30. ckeditor - văn bản, thoại xem trước hình ảnh là bằng tiếng Anh
Ý tưởng thứ hai của bạn sẽ loại bỏ mọi nhận xét trên YouTube. – Tyson
@ Tyson, Tuyệt vời, một ưu điểm khác mà tôi chưa từng nghĩ đến ;-) – Pat