2009-01-16 44 views
21

Tôi cần danh sách từ tiếng Anh đầy đủ nhất mà tôi có thể tìm thấy đối với một số loại hoạt động xử lý ngôn ngữ, nhưng tôi không thể tìm thấy bất kỳ thứ gì trên internet có chất lượng đủ tốt.Từ tiếng Anh tự nhiên

Có 1.000.000 từ bằng tiếng Anh bao gồm các từ nước ngoài và/hoặc kỹ thuật.

Bạn có thể đề xuất nguồn đó (hoặc gần 500k từ) có thể tải xuống từ internet có thể được phân loại một chút không? Bạn sử dụng đầu vào nào cho các ứng dụng xử lý ngôn ngữ của mình?

+1

Nếu từ điển của bạn có 1 triệu từ, bạn có thể đặt cược rằng lỗi chính tả của các từ phổ biến sẽ bị nhầm lẫn với một số từ ít ỏi trong một triệu. Điều đó có thể ảnh hưởng đến tính hữu ích của một từ điển lớn như vậy. –

+0

@Germstorm: bạn đã nhận được con số 1 triệu này ở đâu? Bạn có một tài liệu tham khảo cụ thể, hoặc là tin đồn này? –

+0

Tôi chỉ nghe ở đâu đó, tôi không thể xác nhận nó – Germstorm

Trả lời

25

Kevin's wordlists là điều tốt nhất tôi biết chỉ cho danh sách các từ.

WordNet là tốt hơn nếu bạn muốn biết về những thứ đang được các danh từ, động từ vv, từ đồng nghĩa, vv

+0

Tôi đã sử dụng danh sách của Kevin trước đây. Tôi kết hợp một nhóm chúng lại với nhau để có được một danh sách lớn để tôi có thể tạo ra tất cả các từ có thể từ một tập hợp các ký tự. – dotjoe

+0

@dotjoe họ có một [giao diện web] đẹp (http://app.aspell.net/create) bây giờ sẽ làm điều đó cho bạn (: – drevicko

3

Ai nói với bạn là có 1 triệu lời? Theo số Wikipedia, từ điển tiếng Anh Oxford chỉ có 600.000. Và OED cố gắng bao gồm tất cả các thuật ngữ kỹ thuật và tiếng lóng được sử dụng.

+1

Sức mạnh của hai người bạn giữa hai người là gì? – zaratustra

+0

Tiếng Anh là một ngôn ngữ tổng hợp.Tôi cũng đã nghe số 1M, thường là giới hạn thấp hơn về số lượng từ mà bạn có thể tạo khi đang bay. – rmeador

4

Tôi đã nghiên cứu Purdue về chế biến kiến ​​thức miền tiếng Anh và ngôn ngữ tự nhiên được kiểm soát/tự nhiên.

Tôi sẽ xem dự án tryo: http://attempto.ifi.uzh.ch/site/description/ là dự án giúp xây dựng tiếng Anh tự nhiên được kiểm soát.

Bạn có thể tải xuống toàn bộ từ vựng của từ tại: http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip nó có ~ 100.000 từ tiếng Anh tự nhiên.

Bạn cũng có thể cung cấp từ vựng của riêng mình cho các từ cụ thể trong miền, đây là những gì chúng tôi đã làm trong nghiên cứu của chúng tôi. Họ cung cấp dịch vụ web để phân tích cú pháp và định dạng văn bản tiếng Anh tự nhiên.

0

Không có quá nhiều từ cơ sở (171k theo this- oxford Đó là những gì tôi nhớ được kể lại trong chương trình CS của tôi ở trường đại học nhưng nếu bao gồm tất cả các hình thức của words- sau đó nó tăng lên đáng kể.

Điều đó nói rằng, tại sao không làm một mình? Nhận một Wikipedia đổ và phân tích nó và tạo ra một tập của tất cả các thẻ bạn gặp phải.

Expect lỗi chính tả mặc dù- giống như mọi thứ c rowd-sources sẽ có lỗi.

Các vấn đề liên quan