Tôi đang cố viết mã sẽ chuyển đến từng trang và lấy thông tin từ đó. Url < - http://www.wikiart.org/en/claude-monet/mode/all-paintings-by-alphabetCách viết mã để thu thập dữ liệu và tìm kiếm trên web trong R
Tôi có mã để xuất tất cả href. Nhưng nó không hoạt động.
library(XML)
library(RCurl)
library(stringr)
tagrecode <- readHTMLTable ("http://www.wikiart.org/en/claude-monet/mode/all- paintings-by-alphabet")
tabla <- as.data.frame(tagrecode)
str(tabla)
names (tabla) <- c("name", "desc", "cat", "updated")
str(tabla)
res <- htmlParse ("http://www.wikiart.org/en/claude-monet/mode/all-paintings-by- alphabet")
enlaces <- getNodeSet (res, "//p[@class='pb5']/a/@href")
enlaces <- unlist(lapply(enlaces, as.character))
tabla$enlace <- paste("http://www.wikiart.org/en/claude-monet/mode/all-paintings-by- alphabet")
str(tabla)
lisurl <- tabla$enlace
fu1 <- function(url){
print(url)
pas1 <- htmlParse(url, useInternalNodes=T)
pas2 <- xpathSApply(pas1, "//p[@class='pb5']/a/@href")
}
urldef <- lapply(lisurl,fu1)
Sau khi tôi có danh sách các url của tất cả các hình ảnh trên trang này tôi muốn đi đến hai ba -...- 23 trang để thu thập các url của tất cả các hình ảnh.
Bước tiếp theo để xóa thông tin về mọi ảnh. Tôi có mã làm việc cho một và tôi cần phải xây dựng nó trong một mã chung.
library(XML)
url = "http://www.wikiart.org/en/claude-monet/camille-and-jean-monet-in-the-garden-at-argenteuil"
doc = htmlTreeParse(url, useInternalNodes=T)
pictureName <- xpathSApply(doc,"//h1[@itemprop='name']", xmlValue)
date <- xpathSApply(doc, "//span[@itemprop='dateCreated']", xmlValue)
author <- xpathSApply(doc, "//a[@itemprop='author']", xmlValue)
style <- xpathSApply(doc, "//span[@itemprop='style']", xmlValue)
genre <- xpathSApply(doc, "//span[@itemprop='genre']", xmlValue)
pictureName
date
author
style
genre
Mọi lời khuyên cách thực hiện việc này sẽ được đánh giá cao!