2012-01-29 32 views
7

Tôi cố gắng để truy cập vào một trang Wikipedia như vậy để có được một danh sách các trang, và nhận được lỗi sau:Setting "một thông tin User-Agent String" trong getURL

library(RCurl) 
u <- "http://en.wikipedia.org/w/index.php?title=Special%3APrefixIndex&prefix=tal&namespace=4" 
getURL(u) 
[1] "Scripts should use an informative User-Agent string with contact information, or they may be IP-blocked without notice.\n" 

Tôi hy vọng để có được đến trang đó thông qua api Wikipedia, nhưng I am not sure it would work.

Và điều là các trang khác được đọc mà không có vấn đề, ví dụ:

u <- "http://en.wikipedia.org/wiki/Wikipedia:Talk" 
getURL(u) 

Bất kỳ lời đề nghị?

Side lưu ý: Nói chung tôi thà không cạo trang wiki và đi qua các api, nhưng tôi sợ rằng các trang cụ thể này chưa có sẵn thông qua api ...

Trả lời

13

Theo the documentation of RCurl, bạn có thể chỉ định tiêu đề bổ sung bằng cách thêm thông số httpheader:

getURL(u, httpheader = c('User-Agent' = "Informative string with your contact info")) 
+0

Hoàn hảo - cảm ơn bạn! –

Các vấn đề liên quan