Cố gắng phân tích cú pháp tệp Python sau bằng cách sử dụng hàm lxml.etree.iterparse.phân tích cú pháp tệp xml lớn bằng lỗi Python - etree.parse
"sampleoutput.xml"
<item>
<title>Item 1</title>
<desc>Description 1</desc>
</item>
<item>
<title>Item 2</title>
<desc>Description 2</desc>
</item>
Tôi đã thử các mã từ Parsing Large XML file with Python lxml and Iterparse
trước etree.iterparse (myfile) gọi tôi đã làm myfile = open ("/ Users/eric/Desktop/wikipedia_map /sampleoutput.xml","r ")
Nhưng nó quay lên các lỗi sau
Traceback (most recent call last):
File "/Users/eric/Documents/Programming/Eclipse_Workspace/wikipedia_mapper/testscraper.py", line 6, in <module>
for event, elem in context :
File "iterparse.pxi", line 491, in lxml.etree.iterparse.__next__ (src/lxml/lxml.etree.c:98565)
File "iterparse.pxi", line 543, in lxml.etree.iterparse._read_more_events (src/lxml/lxml.etree.c:99086)
File "parser.pxi", line 590, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:74712)
lxml.etree.XMLSyntaxError: Extra content at the end of the document, line 5, column 1
bất kỳ ý tưởng nào? cảm ơn bạn!
Nó có thể được rằng tập tin XML của bạn bị thay đổi? Nó không chứa thẻ ' Xml' hoặc phần tử gốc. – C0deH4cker
Tôi không biết lxml, nhưng ví dụ của bạn không phải là XML hợp lệ. Một tài liệu XML phải có một phần tử gốc duy nhất. Của bạn không. –
bạn cần một phần tử gốc, không chỉ các nút con. – pinkdawn