Có một danh sách tham chiếu ký tự XML và HTML tại: https://en.wikipedia.org/wiki/List_of_XML_and_HTML_character_entity_references.Chuyển đổi XML bất hợp pháp & char thành utf8 - python
Tuy nhiên, có những thứ không được xác định trong danh sách đó nhưng chúng được sử dụng trong các tập lệnh HTML cũ hơn. Khi tôi xử lý dữ liệu Senseval-2 format (with fixes)
từ http://www.d.umn.edu/~tpederse/data.html, tôi gặp phải các từ sau đây khi nó phá vỡ tập lệnh của tôi đã cố sử dụng xml.et.elementTree
để phân tích cú pháp dữ liệu.
Tương đương unicode của những từ này là gì?
&and.
&and.A
&and.B
&and.D
&and.L's
&backquote.alim)
&backquote.ulema
&dash
&dash.
&dash."
&dashq.
°ree.
°ree.C
&ellip
&ellip.
&ellip.0
&ellip.1
&ellip.11
&ellip.2
&ellip.23
&ellip.28
&ellip.38
&ellip.4
&ellip.6
&ellip.64
&ellip.?"
&ellip.two
×.
kịch bản của tôi:
import xml.etree.ElementTree as et
s1 = 'train-fix.xml' # from http://www.d.umn.edu/~tpederse/Data/Sval1to2.fix.tar.gz
tree = et.parse(s1)
root = tree.getroot()
cho traceback này:
Traceback (most recent call last):
File "senseval.py", line 4, in <module>
tree = et.parse(s1)
File "/usr/lib/python2.7/xml/etree/ElementTree.py", line 1182, in parse
tree.parse(source, parser)
File "/usr/lib/python2.7/xml/etree/ElementTree.py", line 656, in parse
parser.feed(data)
File "/usr/lib/python2.7/xml/etree/ElementTree.py", line 1642, in feed
self._raiseerror(v)
File "/usr/lib/python2.7/xml/etree/ElementTree.py", line 1506, in _raiseerror
raise err
xml.etree.ElementTree.ParseError: not well-formed (invalid token): line 41, column 113
Đó là không thực thể xml, nên chấm dứt whit một ';', không phải là một '.'. Tham chiếu thực thể: http://www.w3.org/TR/xml-entity-names/ – mata
bất kỳ ý tưởng nào về chúng là gì? – alvas
không thực sự. 'dấu gạch ngang' có thể là [thực thể ký tự html5] (http://dev.w3.org/html5/html-author/charref), nhưng mặt khác,' ellip' không phải là thực thể hợp lệ ở bất kỳ đâu tôi có thể tìm thấy, không phải là 'độ' ... – mata