2012-05-10 58 views
19

Tôi có một danh sách các tác giả. Tôi muốn tự động truy xuất/tính toán chỉ mục trích dẫn (lý tưởng hàng năm) (chỉ mục h-index, m-quotient, g-index, chỉ báo HCP hoặc ...) cho từng tác giả.Cách truy xuất/tính số lượng trích dẫn và/hoặc chỉ mục trích dẫn từ danh sách tác giả?

Author Year Index 
first 2000 1 
first 2001 2 
first 2002 3 

Tôi có thể tính toán tất cả các chỉ số này dựa trên số lượng trích dẫn cho mỗi bài báo của từng nhà nghiên cứu.

Author Paper Year Citation_count 
first 1 2000 1 
first 2 2000 2 
first 3 2002 3 

Mặc dù nỗ lực của tôi, tôi không tìm thấy phương pháp API/phương pháp cạo có khả năng này.

Tổ chức của tôi có quyền truy cập vào một số dịch vụ bao gồm Web of Science.

+3

http://bmb-common.blogspot.ca/2011/11/google-scholar-still-sucks.html có một số thông tin - đặc biệt, gói 'CITAN' trông khá mạnh mẽ nếu bạn có quyền truy cập vào Scopus ; cũng có một số bài đăng trên PubMed-scraping trên r-bloggers (cho dù điều này phù hợp với bạn hay không phụ thuộc vào việc bạn có hài lòng với phạm vi của PubMed trong trường của bạn) hay không. Ngay cả khi bạn có thể cạo WoS, nó không được phép theo điều khoản dịch vụ của họ ... –

+0

@ Bolen Bolker, Cảm ơn bạn đã gợi ý, điều này không chỉ cho tôi đi đúng hướng. –

+0

Đây có thể là nơi giải pháp sẽ được tạo: http://ropensci.org/project-overview/ –

Trả lời

1

Có hiệu quả vấn đề chính là xây dựng citation graph. Khi bạn có điều đó, bạn có thể tính toán bất kỳ số liệu nào bạn muốn (ví dụ: h-index, g-index, PageRank).

Giả sử bạn có một bộ sưu tập giấy tờ (mà bạn đã truy xuất theo một cách nào đó), bạn có thể trích xuất các trích dẫn từ mỗi trang và xây dựng biểu đồ trích dẫn. Bạn có thể thấy hữu ích ParsCit, an open-source CRF Reference String and Logical Document Structure Parsing Package cũng được sử dụng bởi CiteSeerX và hoạt động tuyệt vời.

Các vấn đề liên quan