2009-09-20 39 views
7

Tôi cần một danh sách các tên gọi chung cho mọi người, như "Bill", "Gordon", "Jane", v.v. Có một số danh sách miễn phí rất nhiều tên đã biết, thay vì tôi phải loại chúng ra? Một cái gì đó mà tôi có thể dễ dàng phân tích cú pháp với chương trình để điền vào một mảng ví dụ?Danh sách đồng bộ, máy tính có thể phân tách các tên phổ biến đầu tiên?

Tôi không lo lắng về việc:

  • Biết nếu một tên là nam tính hay nữ tính (hoặc cả hai)
  • Nếu dữ liệu có một đống toàn bộ dương tính giả
  • Nếu có là những cái tên không có trên nó, rõ ràng là không có tập dữ liệu như thế này sẽ được hoàn thành.
  • Nếu có 'trùng lặp', nghĩa là tôi không quan tâm liệu tập dữ liệu có liệt kê "Bill" và "William" và "Billy" là các tên khác không. Tôi muốn có dữ liệu hơn ít
  • Tôi không quan tâm đến biết sự phổ biến tên

Tôi biết Wikipedialist of most popular given names, nhưng đó là tất cả trong một trang HTML và manged lên với cú pháp wiki khủng khiếp . Có cách nào tốt hơn để có được một số dữ liệu mẫu như thế này mà không cần phải màn hình wikipedia cạo?

Trả lời

25

Điều đó phải đủ để bạn bắt đầu, tôi nghĩ vậy.

5

Bạn có thể dễ dàng tiêu thụ API Wikipedia (http://en.wikipedia.org/w/api.php) để truy xuất danh sách các trang trong danh mục cụ thể, giống như Danh mục: Tên được cung cấp là thứ bạn muốn bắt đầu.

http://en.wikipedia.org/w/api.php?action=query&list=categorymembers&cmnamespace=0&cmlimit=500&cmtitle=Category:Given_names 

Các phần của kết quả từ URL này trông như thế này:

<cm pageid="5797824" ns="0" title="Abdou" /> 
    <cm pageid="5797863" ns="0" title="Abdu" /> 
    <cm pageid="859035" ns="0" title="Abdul Aziz" /> 
    <cm pageid="6504818" ns="0" title="Abdul Qadir" /> 

Nhìn vào API và chọn định dạng và truy vấn các thông số phù hợp, và kiểm tra các loại.

P.S. BTW, Các wiki-văn bản từ trang bạn liên kết để chứa tên trong một hình thức dễ dàng để trích xuất bằng cách sử dụng regexp ... Cũng như tiêu đề của các liên kết trong trang HTML rendered có "(tên)" gắn liền với tên chính nó .

+0

Tùy chọn * cmlimit * trong truy vấn tối đa (500) được phép cho người dùng trái phép và có thể tăng lên 5000 mục. Dù sao bằng cách sử dụng tùy chọn * cmcontinue * để truy xuất tất cả các kết quả được phân đoạn bởi đoạn ... –

6

Social Security Administration - Beyond the Top 1000 Names Data Files

Trên đây là một danh sách đầy đủ các tên đầu tiên được sử dụng tại Mỹ. Tệp zip chứa dữ liệu quốc gia và cấp tiểu bang theo năm sinh ở định dạng CSV. Nó bao gồm số lần xuất hiện (tối thiểu 5) và giới tính.Ví dụ, tập tin quốc gia cho năm 2010 bao gồm 33.838 tên em bé.

Các vấn đề liên quan