Tôi vừa mới bắt đầu sửa đổi scrapy kết hợp với BeautifulSoup và tôi tự hỏi liệu tôi có thiếu điều gì đó hiển nhiên hay không nhưng tôi không thể tìm ra cách lấy lại tài liệu về tài liệu html từ đối tượng canh.Nhận tài liệu DOCTYPE với BeautifulSoup
Với html sau:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html lang="en">
<head>
<meta charset=utf-8 />
<meta name="viewport" content="width=620" />
<title>HTML5 Demos and Examples</title>
<link rel="stylesheet" href="/css/html5demos.css" type="text/css" />
<script src="js/h5utils.js"></script>
</head>
<body>
<p id="firstpara" align="center">This is paragraph <b>one</b>
<p id="secondpara" align="blah">This is paragraph <b>two</b>.
</html>
bất cứ ai có thể cho tôi biết nếu có một cách chiết xuất các loại tài liệu được công bố từ nó bằng cách sử BeautifulSoup?
cẩn thận, cú pháp này sẽ phá vỡ nếu loại tài liệu không phải là mục đầu tiên. Ví dụ: khi có khai báo xml ở đầu tài liệu. – karlcow
Điều đó có thể trả về bất cứ điều gì, bởi vì DOCTYPE có thể bị thiếu và thường là. – zvone