2009-11-26 43 views
120

Tôi cần có danh sách dài tên người ("Robert", "Jeniffer", "Andrew", v.v.)Danh sách nguyên tên người

Bao lâu? 100 sẽ ổn thỏa, nhưng hàng ngàn sẽ tốt hơn.

Tôi muốn nó thô, không phải trong một trang web HTML hoặc một cái gì đó, vì vậy tôi có thể dễ dàng nhập nó vào mã của tôi.

+1

Đây là một ví dụ hoàn hảo về cách một số câu hỏi hữu ích nhất trên StackOverflow được đóng vì chúng không vừa với các giao thức kiểm duyệt SO. Cảm ơn tất cả vì câu hỏi và câu trả lời tiết kiệm thời gian! – rinogo

Trả lời

104

Các Census Bureau Hoa Kỳ đã three lists tạo ra từ một điều tra dân số 1990:

(Những có tội giống như từ một câu trả lời liên kết đến deron.meranda.us)

Trích dẫn dùng diễn đàn:

Mỗi phòng trong số ba tác phẩm, (dist.all.last), (dist. male.first) và (dist female.first) chứa bốn mục dữ liệu. Bốn mặt hàng bao gồm:

A "Tên" Tần số theo phần trăm Tần số tích lũy trong Rank trăm Trong file (dist.all.last) một bài dự thi xuất hiện như:

MOORE  0.312  5.312  9 

Trong mẫu khu vực tìm kiếm của chúng tôi, MOORE xếp thứ 9 về tần số. 5.312 phần trăm dân số mẫu được bao phủ bởi MOORE và 8 tên xuất hiện nhiều hơn thường xuyên hơn MOORE. Họ, MOORE, được sở hữu bởi 0.312 phần trăm mẫu dân số của chúng tôi.

Googling xung quanh, có vẻ như dữ liệu này đã được tiếp tục tinh chế thành một danh sách duy nhất của 5163 mục (link 1, link 2), trong format:

<namestyle> <first/last indicator> <name> 
đang

Namestyle:

  • MF: được sử dụng làm nam hoặc nữ
  • MO: sử dụng như nam chỉ
  • FO: sử dụng như nữ chỉ

Đầu tiên/cuối chỉ:

  • LY: Được sử dụng như một tên cuối cùng
  • LN: Không được sử dụng như một cuối cùng tên

Ví dụ:

MF LY AARON 
    FO LY ABBEY 
    FO LN ABBIE 
    FO LY ABBY 

UPDATE 1: Hơi off topic từ bài gốc, nhưng nó có thể được sử dụng cho những người khác tìm kiếm này. Nếu bạn đang tìm kiếm một cái gì đó liên quan nhiều hơn (không chỉ tên người, nhưng giới tính của nhiều danh từ và cụm từ), bạn có thể nhìn vào kho văn bản được tạo ra bởi Shane Bergsma và Dekang Lin. The data is available as a single gzip file từ the CoNLL shared task.

CẬP NHẬT 2: www.census.gov đã tái cấu trúc trang web của họ, vì vậy tôi đã cập nhật liên kết để phản ánh vị trí mới của tệp.

CẬP NHẬT 3: www.census.gov cũng có một survey from 2000 cho tên họ xuất hiện 100 lần trở lên, chứa tổng cộng 151.671 tên (direct link to zip).

+2

liên kết bị hỏng có danh sách mới cho năm 2012 không? – chovy

+1

Được đề cập trong bản cập nhật từ một thời gian trước, nhưng các liên kết đã được sửa. –

+0

Tài nguyên tuyệt vời, chỉ công việc dọn dẹp và trích xuất những tên cuối cùng ... –

0

Danh mục Vettrasoft Z như một phần của tập dữ liệu địa lý-topo bao gồm bảng "first_names" có tên, bất kỳ dạng viết tắt hoặc cách viết khác (ví dụ: Angela/Angie; Daniel - Dan - Danny), sex (M/F/B /?; B là cả hai và? Có nghĩa là chưa biết). Bảng này có 12.779 mục nhập và dưới dạng tệp có định dạng .unl (trường phân tách). Cùng với tên đầu tiên, tập dữ liệu bao gồm các sân bay (8.200 mục), mã vùng, quốc gia, mã bưu điện (hoặc mã zip), tiểu bang, múi giờ và nhiều hơn nữa. Dữ liệu đến như là một gói tích hợp cùng với thư viện o-o có các chương trình con truy cập dữ liệu này. Trong trường hợp tên đầu tiên, bạn có thể viết mã C++ như vậy:

main() 
{ 
    person_o p = "Daniel Boone"; 
    p.store_add(); 
} 

sẽ lưu Daniel Boone vào cơ sở dữ liệu (hiện tại: mySQL và SQL Server). Đối tượng người sẽ sử dụng bảng first_names DB để tự động tìm kiếm giới tính được liên kết với "Daniel" và ghi lại là "M" (cũng như phân tích cú pháp tên, lưu "Daniel" thành cột first_name và "Boone" thành cột tên cuối cùng). Thư mục Z hoạt động theo cách tương tự để lưu và truy xuất các đối tượng miền người khác như doanh nghiệp, nhân viên, địa chỉ email, số điện thoại, v.v.

16

đây là prolly quá muộn cho các poster ban đầu, nhưng có lẽ hữu ích cho người tìm kiếm ... ở đây: http://www.ssa.gov/OACT/babynames/limits.html

là một file văn bản có thể tải về liệt kê tất cả các tên theo năm sinh xuống để tên mà ít nhất 5 đứa trẻ đã được đưa ra, do đó, nó có một tấn dữ liệu.

1

chức năng sẽ giúp bạn trích xuất bảng chữ cái từ chữ và số chuỗi

Dim input As String = "SMITH 1.006 1.006 1" 
     Dim output As String = New String((From c As Char In input Select c Where   Char.IsLetter(c)).ToArray()) 
     MsgBox(output) 

đầu ra sẽ là: SMITH

Nhờ: https://stackoverflow.com/users/1842065/bj%C3%B8rn-roger-kringsj%C3%A5

17

Thanh toán tên tôi tập hợp dữ liệu tôi đã thực hiện nghiên cứu NLP. Tất cả các tên đã được trích xuất từ ​​các nguồn công cộng. http://mbejda.github.io Tất cả đều là định dạng CSV.

(Tuyên bố từ chối trách nhiệm: Tôi đã tạo chúng).

+0

Điều này rất hữu ích. – AHungerArtist

+0

Wow, rất ấn tượng, danh sách các ngành nghề sẽ rất hữu ích trong dự án tiếp theo của tôi: https://gist.github.com/mbejda/f08bd3348afad3f06ac1 – Dorian

+1

Đáng kinh ngạc! Cảm ơn bạn – bashis

Các vấn đề liên quan