Sử dụng Python để loại bỏ tất cả các dòng khớp với Regex

Tôi đang cố xóa tất cả các dòng mà regex của tôi khớp với nhau (regex chỉ đơn giản tìm kiếm bất kỳ dòng nào có yahoo trong đó). Mỗi trận đấu nằm trên dòng riêng của nó, do đó không cần tùy chọn nhiều dòng.Sử dụng Python để loại bỏ tất cả các dòng khớp với Regex

Đây là những gì tôi có cho đến nay ...

import re 
inputfile = open('C:\\temp\\Scripts\\remove.txt','w',encoding="utf8") 

inputfile.write(re.sub("\[(.*?)yahoo(.*?)\n","",inputfile)) 

inputfile.close()

Tôi nhận được lỗi sau:

Traceback (cuộc gọi gần đây nhất cuối cùng): dòng 170, ở tiểu _compile trở lại (mẫu, cờ) .sub (repl, string, count) LoạiError: chuỗi hoặc bộ đệm dự kiến

Nguồn

2013-06-20 MrMr

Vì vậy, vấn đề là những gì? – arshajii

bạn không đọc tệp. Bạn cần một cái gì đó như 'inputfile.readlines()' – karthikr

Bạn đang cố gắng đóng 2 tệp mà bạn chưa bao giờ mở và đặt tên tệp được mở để viết 'inputfile' là khó hiểu nhất. – geoffspear

Sử dụng fileinput mô-đun nếu bạn muốn thay đổi các tập tin ban đầu:

import re 
import fileinput 
for line in fileinput.input(r'C:\temp\Scripts\remove.txt', inplace = True): 
    if not re.search(r'\byahoo\b',line): 
     print line,

Nguồn

2013-06-20 18:45:37

Điều đó đã làm được điều đó! Cảm ơn bạn!!! – MrMr

Nó thêm dòng mới giữa văn bản vẫn còn tồn tại. Bất kỳ lời khuyên nào về cách tránh điều này? – MrMr

Tôi đã thử in dòng và in (dòng,) và in (dòng), dường như không có tác dụng. – MrMr

Bạn phải đọc tệp thử như sau:

import re 
inputfile = open('C:\\temp\\Scripts\\remove.txt','w',encoding="utf8") 

inputfile.write(re.sub("\[(.*?)yahoo(.*?)\n","",inputfile.read())) 

file.close() 
outputfile.close()

Nguồn

2013-06-20 18:45:02

Dưới đây là Python 3 biến thể của @Ashwini Chaudhary's answer:

#!/usr/bin/env python3 
import fileinput 
import re 
import sys 

def main(): 
    pattern, filename = sys.argv[1:] # get pattern, filename from command-line 
    matched = re.compile(pattern).search 
    with fileinput.FileInput(filename, inplace=1, backup='.bak') as file: 
     for line in file: 
      if not matched(line): # save lines that do not match 
       print(line, end='') # this goes to filename due to inplace=1 

main()

Nó giả locale.getpreferredencoding(False) == 'utf-8' nếu không nó có thể phá vỡ trên ký tự khác ASCII .

Để làm cho nó làm việc bất kể những gì locale hiện nay là hay cho các tập tin đầu vào có một mã hóa khác nhau:

#!/usr/bin/env python3 
import os 
import re 
import sys 
from tempfile import NamedTemporaryFile 

def main(): 
    encoding = 'utf-8' 
    pattern, filename = sys.argv[1:] 
    matched = re.compile(pattern).search 
    with open(filename, encoding=encoding) as input_file: 
     with NamedTemporaryFile(mode='w', encoding=encoding, 
           dir=os.path.dirname(filename)) as outfile: 
      for line in input_file: 
       if not matched(line): 
        print(line, end='', file=outfile) 
      outfile.delete = False # don't delete it on closing 
    os.replace(outfile.name, input_file.name) 

main()

Nguồn

2013-06-20 20:15:49 jfs

Sử dụng Python để loại bỏ tất cả các dòng khớp với Regex

Trả lời

Các vấn đề liên quan