2008-10-13 24 views
9

Tôi đang xây dựng một dự án liên quan đến xử lý ngôn ngữ tự nhiên, vì mô-đun nlp hiện chỉ xử lý văn bản tiếng anh, nên tôi phải đảm bảo người dùng gửi nội dung (không lâu, chỉ một vài từ) là bằng tiếng Anh. Có cách nào để đạt được điều này không? Cách Python hoặc Javascript được ưu tiên.Làm thế nào để đảm bảo người dùng chỉ gửi văn bản tiếng Anh

Trả lời

7

Nếu nội dung đủ dài, tôi sẽ đề xuất một số frequency analysis trên các chữ cái.

Nhưng đối với một vài từ tôi nghĩ rằng đặt cược tốt nhất của bạn là so sánh chúng với một từ điển tiếng Anh và chấp nhận đầu vào nếu một nửa trong số chúng phù hợp.

+1

Ý tưởng thứ hai của bạn sẽ loại bỏ mọi nhận xét trên YouTube. – Tyson

+3

@ Tyson, Tuyệt vời, một ưu điểm khác mà tôi chưa từng nghĩ đến ;-) – Pat

0

Bạn có thể chia cụm từ thành các từ và kiểm tra từ điển (có một số bạn có thể tải xuống, this có thể quan tâm), nhưng điều đó yêu cầu từ điển bạn đã sử dụng đủ tốt.

Nó cũng sẽ rơi cho danh từ thích hợp (tên của tôi không có trong từ điển chẳng hạn).

1

Hãy thử:

http://wordlist.sourceforge.net/

Đối với một danh sách các từ tiếng Anh.

Bạn cần phải cẩn thận về tên, ví dụ: "Canberra" hoặc "Bill Clinton". Chúng sẽ không xuất hiện trong danh sách từ. Tôi đề nghị chỉ kiểm tra xem chữ cái đầu tiên được viết hoa như là một nỗ lực đầu tiên.

5

Tôi nghĩ rằng cách hiệu quả nhất sẽ được yêu cầu người sử dụng phải nộp văn bản tiếng anh chỉ :)

Bạn có thể hiển thị một lựa chọn ngôn ngữ thả xuống trên vùng văn bản của bạn với tiếng Anh/khác theo các tùy chọn. Khi người dùng chọn "Khác", hãy tắt vùng văn bản bằng thông báo chỉ hỗ trợ ngôn ngữ tiếng Anh [tại thời điểm này].

+0

Nhưng bạn phải xác nhận điều đó, nếu không mô-đun nlp sẽ gặp sự cố. – btw0

+0

Có bạn đã đúng. Nhưng trong các ứng dụng như vậy, nó thường là tốt để căng thẳng "Garbage in, Garbage Out" quy tắc để có ít người sử dụng lỗi. –

6
+0

Có một thuật toán đã biết để sử dụng biểu đồ này không? Tôi có nghĩa là bạn sẽ tính điểm cho mỗi ngôn ngữ và sau đó sắp xếp kết quả? Hoặc chúng ta có thể sử dụng giá trị ngưỡng cho mỗi ngôn ngữ? –

3

Thử nhận dạng ngôn ngữ thống kê dựa trên n-gram. Đây là một link cho một bản demo của một thuật toán sử dụng kỹ thuật này, đó cũng là một liên kết đến một bài báo mô tả thuật toán đó. Hãy thử demo, nó thực hiện khá tốt ngay cả trên văn bản rất ngắn (3-4 từ).

3

Bạn đã làm NLP, nếu mô-đun của bạn không hiểu ngôn ngữ văn bản thì mô-đun đó không hoạt động hoặc đầu vào không đúng ngôn ngữ.

0

Dictionary Switcher Tiện ích mở rộng của Firefox có tùy chọn phát hiện đúng từ điển khi tôi nhập.
Tôi đoán nó sẽ kiểm tra các từ đối với các từ điển đã cài đặt và chọn từ cho ít lỗi hơn ...

Bạn không thể mong đợi tất cả các từ trong từ điển: chữ viết tắt, danh từ thích hợp, lỗi chính tả. Bên cạnh đó, một số từ phổ biến đối với một số ngôn ngữ: một nhóm nhạc rock Pháp thậm chí còn làm cho danh hiệu đĩa của họ có ý nghĩa khác nhau cả bằng tiếng Pháp và tiếng Anh. Vì vậy, nó là một điều thống kê: nếu hơn x% từ được tìm thấy trong một từ điển tiếng Anh tốt, rất có thể là kiểu người dùng bằng ngôn ngữ này (ngay cả khi có lỗi, như có thể trong câu trả lời này, vì tôi không phải là tiếng Anh bản ngữ) .

Các vấn đề liên quan