Tôi cố gắng để sử dụng python và súp đẹp để trích xuất các phần nội dung của các thẻ bên dưới:Nhận hữu nội dung thẻ meta với BeautifulSoup và Python
<meta property="og:title" content="Super Fun Event 1" />
<meta property="og:url" content="http://superfunevents.com/events/super-fun-event-1/" />
Tôi nhận được BeautifulSoup để tải trang tốt và tìm các thứ khác (điều này cũng lấy id bài viết từ thẻ id ẩn trong nguồn), nhưng tôi không biết chính xác cách nào để tìm kiếm html và tìm các bit này, tôi đã thử các biến thể tìm và findAll để không có kết quả . Các lặp mã trên một danh sách các url có mặt tại ...
#!/usr/bin/env python
# -*- coding: utf-8 -*-
#importing the libraries
from urllib import urlopen
from bs4 import BeautifulSoup
def get_data(page_no):
webpage = urlopen('http://superfunevents.com/?p=' + str(i)).read()
soup = BeautifulSoup(webpage, "lxml")
for tag in soup.find_all("article") :
id = tag.get('id')
print id
# the hard part that doesn't work - I know this example is well off the mark!
title = soup.find("og:title", "content")
print (title.get_text())
url = soup.find("og:url", "content")
print (url.get_text())
# end of problem
for i in range (1,100):
get_data(i)
Nếu bất cứ ai có thể giúp tôi sắp xếp các bit để tìm ra og: Tiêu đề và og: Nội dung mà muốn được tuyệt vời!
là không có built-in cho nội dung get, nếu không dự phòng để mặc định? –
@ChristopheRoussy yup, đây chính xác là những gì được hiển thị trong câu trả lời. Ngoài ra, bạn có thể tăng cường sự hiện diện thuộc tính 'content' bằng cách sử dụng' soup.find ("meta", property = "og: title", content = True) '. Cảm ơn. – alecxe