Danh sách đồng bộ, máy tính có thể phân tách các tên phổ biến đầu tiên?

Tôi cần một danh sách các tên gọi chung cho mọi người, như "Bill", "Gordon", "Jane", v.v. Có một số danh sách miễn phí rất nhiều tên đã biết, thay vì tôi phải loại chúng ra? Một cái gì đó mà tôi có thể dễ dàng phân tích cú pháp với chương trình để điền vào một mảng ví dụ?Danh sách đồng bộ, máy tính có thể phân tách các tên phổ biến đầu tiên?

Tôi không lo lắng về việc:

Biết nếu một tên là nam tính hay nữ tính (hoặc cả hai)
Nếu dữ liệu có một đống toàn bộ dương tính giả
Nếu có là những cái tên không có trên nó, rõ ràng là không có tập dữ liệu như thế này sẽ được hoàn thành.
Nếu có 'trùng lặp', nghĩa là tôi không quan tâm liệu tập dữ liệu có liệt kê "Bill" và "William" và "Billy" là các tên khác không. Tôi muốn có dữ liệu hơn ít
Tôi không quan tâm đến biết sự phổ biến tên

Tôi biết Wikipedia có list of most popular given names, nhưng đó là tất cả trong một trang HTML và manged lên với cú pháp wiki khủng khiếp . Có cách nào tốt hơn để có được một số dữ liệu mẫu như thế này mà không cần phải màn hình wikipedia cạo?

Nguồn

2009-09-20 Rory

A CSV từ General Register Office of Scotland với tất cả các forenames đăng ký có trong 2007.
Another large set of first names ở định dạng định dạng và SQL CSV quá (nhưng họ không nói mà DB đổ SQL).
GitHub page với 1000 tên bé hàng đầu từ 1880 đến 2009, đã được phân tích cú pháp thành CSV cho bạn từ Social Security Administration.
CSV of baby names and meanings từ trang CS của Princeton.

Điều đó phải đủ để bạn bắt đầu, tôi nghĩ vậy.

Nguồn

2009-09-20 21:23:38

Bạn có thể dễ dàng tiêu thụ API Wikipedia (http://en.wikipedia.org/w/api.php) để truy xuất danh sách các trang trong danh mục cụ thể, giống như Danh mục: Tên được cung cấp là thứ bạn muốn bắt đầu.

http://en.wikipedia.org/w/api.php?action=query&list=categorymembers&cmnamespace=0&cmlimit=500&cmtitle=Category:Given_names

Các phần của kết quả từ URL này trông như thế này:

<cm pageid="5797824" ns="0" title="Abdou" /> 
    <cm pageid="5797863" ns="0" title="Abdu" /> 
    <cm pageid="859035" ns="0" title="Abdul Aziz" /> 
    <cm pageid="6504818" ns="0" title="Abdul Qadir" />

Nhìn vào API và chọn định dạng và truy vấn các thông số phù hợp, và kiểm tra các loại.

P.S. BTW, Các wiki-văn bản từ trang bạn liên kết để chứa tên trong một hình thức dễ dàng để trích xuất bằng cách sử dụng regexp ... Cũng như tiêu đề của các liên kết trong trang HTML rendered có "(tên)" gắn liền với tên chính nó .

Nguồn

2009-09-20 22:19:09

Tùy chọn * cmlimit * trong truy vấn tối đa (500) được phép cho người dùng trái phép và có thể tăng lên 5000 mục. Dù sao bằng cách sử dụng tùy chọn * cmcontinue * để truy xuất tất cả các kết quả được phân đoạn bởi đoạn ... –

Social Security Administration - Beyond the Top 1000 Names Data Files

Trên đây là một danh sách đầy đủ các tên đầu tiên được sử dụng tại Mỹ. Tệp zip chứa dữ liệu quốc gia và cấp tiểu bang theo năm sinh ở định dạng CSV. Nó bao gồm số lần xuất hiện (tối thiểu 5) và giới tính.Ví dụ, tập tin quốc gia cho năm 2010 bao gồm 33.838 tên em bé.

Nguồn

2012-05-06 23:02:13 humbads

Danh sách đồng bộ, máy tính có thể phân tách các tên phổ biến đầu tiên?

Trả lời

Các vấn đề liên quan