2011-09-27 26 views
9

Tôi có thể sử dụng phương pháp nào để dự đoán quốc tịch của một người trong họ?cách đoán quốc tịch của một người trong họ?

Tôi có một danh sách lớn các văn bản và họ của các tác giả. Tôi muốn xác định văn bản nào được viết bởi những người nói tiếng Latinh và những văn bản nào được viết bởi những người nói tiếng Anh bản địa, để nghiên cứu xem một số mẫu văn bản khác nhau có khác biệt trong một nhóm hay không.

Tôi đã tìm kiếm trên google và trong cơ sở dữ liệu về họ, nhưng tôi không thể tìm thấy bất kỳ truy cập nào miễn phí. Một cách tiếp cận khác là sử dụng một số regex, ví dụ ". * Ez" để xác định một số họ gốc Tây Ban Nha như 'rodriguez', nhưng nó không đưa tôi đến rất xa.

Bạn có đề xuất nào không? Vì tôi sẽ sửa lại tất cả các hiệp hội theo cách thủ công sau khi đưa ra dự đoán, tôi không cần độ chính xác cao, nhưng bất kỳ trợ giúp hoặc ý tưởng nào sẽ được hoan nghênh.

+4

Người nào đó tại TSA có thể biết. – awm

+1

Chà. Điều đó có vẻ như là một nhiệm vụ khá. Tôi nghi ngờ bạn sẽ có thể đạt được bất kỳ độ chính xác tuyệt vời như họ có thể thay đổi rõ ràng từ thế hệ này sang thế hệ khác và mọi người không phải lúc nào cũng coi mình là quốc tịch cụ thể ngay cả khi họ của họ đến từ quốc gia đó. Bạn cần loại chính xác nào về điều này? Tôi cho rằng nếu bạn có quyền truy cập vào dữ liệu như sách điện thoại/điều tra dân số từ các quốc gia khác nhau, bạn chắc chắn có thể tìm kiếm các tên và điểm tương đồng với họ chung đó. Ví dụ một sự khác biệt của 1 ký tự về cơ bản là cùng một tên. – Thor84no

+0

Bởi vì bạn có một tên tiếng Tây Ban Nha không ngụ ý rằng bạn không phải là người nói tiếng Anh bản xứ, cũng như nó không hoạt động theo một hướng khác. – bitmask

Trả lời

4

Tôi không nghĩ bạn có thể làm điều này với bất kỳ mức độ tin cậy nào. Một Rodriguez cũng có thể có một tên gốc Tây Ban Nha, nhưng cũng có thể đã được sinh ra và lớn lên bất cứ nơi nào. Họ có thể là người Anh thế hệ thứ hai, và không bao giờ có tiếng Tây Ban Nha nói xung quanh họ, và vì vậy hãy đi vào thể loại người nói tiếng Anh bản ngữ.

+8

Đây không phải là câu trả lời mà là một bình luận. – bitmask

2

Không có cách nào có ý nghĩa để thực hiện việc này. Không có lý do tại sao những người có tên gốc Tây Ban Nha không thể là người nói tiếng Anh bản địa.

Nếu bạn định sửa đổi nó, tại sao không sử dụng dữ liệu bạn có?

+0

Tôi cần làm điều này cho một danh sách lớn các văn bản, vì vậy tôi cần điều này để thiết lập các giá trị mặc định và làm cho công việc dễ dàng hơn. – dalloliogm

3

Nếu tác giả thực tế thì có thể bạn có thể là người nhện và kiểm tra chi tiết 'Thông tin tác giả' của họ?

Tôi không nghĩ bạn có thể đoán được. Ví dụ. Tên cuối cùng của Ireland - ước tính có khoảng 80.000.000 người có di sản Ireland nhưng trên 4,5 triệu người sống ở Ireland/đã trải qua giáo dục Ireland.

1

Giả sử bạn có ý định thực hiện so sánh có lập trình các văn bản, bạn phải phân loại văn bản theo cách thủ công. Các dự đoán sai sẽ dẫn bạn đến việc xây dựng một thuật toán bị hỏng để phân tích văn bản. Điều này đặc biệt có vấn đề với việc học máy, chẳng hạn như mạng thần kinh nhân tạo.

Các vấn đề liên quan