from __future__ import division
import nltk, re, pprint
f = open('/home/a/Desktop/Projects/FinnegansWake/JamesJoyce-FinnegansWake.txt')
raw = f.read()
tokens = nltk.wordpunct_tokenize(raw)
text = nltk.Text(tokens)
words = [w.lower() for w in text]
f2 = open('/home/a/Desktop/Projects/FinnegansWake/catted-several-long-Russian-novels-and-the-NYT.txt')
englishraw = f2.read()
englishtokens = nltk.wordpunct_tokenize(englishraw)
englishtext = nltk.Text(englishtokens)
englishwords = [w.lower() for w in englishwords]
mà là trực tiếp từ hướng dẫn NLTK. Những gì tôi muốn làm tiếp theo là so sánh vocab
với một tập hợp đầy đủ các từ tiếng Anh, như OED, và trích xuất sự khác biệt - tập hợp các từ Finnegans Wake mà không có, và có lẽ sẽ không bao giờ, được trong OED. Tôi là một người nói nhiều hơn một người theo định hướng toán học, vì vậy tôi chưa tìm ra cách để làm điều đó, và hướng dẫn đi vào chi tiết quá nhiều về những thứ tôi không thực sự muốn làm. Tôi cho rằng đó chỉ là một hoặc hai dòng mã nữa.
Nhân tiện, làm cách nào để định dạng trăn trong câu hỏi với các đánh dấu, vì nó sẽ xuất hiện trong trình soạn thảo văn bản? – magnetar
Thụt lề tất cả. Tự động hoàn tất nếu bạn đánh dấu nó và nhấp vào nút có các nút và số 0 phía trên trình chỉnh sửa. – katrielalex
Ồ, và mã của bạn không hiệu quả nhất ... bạn có thể sử dụng một cách khôn ngoan các vòng lặp để lưu nhiều lần. – katrielalex