Tôi có tài liệu từ (2003). Tôi đang sử dụng Powershell để phân tích cú pháp nội dung của tài liệu. Tài liệu chứa một vài dòng văn bản ở trên cùng, một tá bảng với số lượng cột khác nhau và sau đó là một số văn bản khác.Đọc nội dung tài liệu từ (* .doc) với các bảng, v.v.
tôi mong đợi để có thể đọc các tài liệu như một cái gì đó giống như dưới đây:
- đọc tài liệu (làm cho đối tượng cần thiết vv)
- Get mỗi dòng văn bản
- Nếu không nằm trong một bảng , quá trình dưới dạng văn bản và Viết-Output
- khác
- Nếu một phần của một bảng số bảng
- Nhận (theo thứ tự) và phân tích đầu ra dựa trên col umns
- kết thúc nếu
Dưới đây là các kịch bản PowerShell mà tôi đã bắt đầu viết:
$objWord = New-Object -Com Word.Application
$objWord.Visible = $false
$objDocument = $objWord.Documents.Open($filename)
$paras = $objDocument.Paragraphs
foreach ($para in $paras)
{
Write-Output $para.Range.Text
}
Tôi không chắc chắn nếu đoạn là những gì tôi muốn. Có điều gì phù hợp hơn cho mục đích của tôi không? Tất cả những gì tôi nhận được bây giờ là toàn bộ nội dung của tài liệu. Làm thế nào để kiểm soát những gì tôi nhận được. Giống như tôi muốn nhận được một dòng, có thể xác định xem nó là một phần của một bảng hay không và thực hiện một hành động dựa trên bảng số đó là gì.
tài liệu Word không được tổ chức tại dòng. Vui lòng lùi lại một bước và mô tả sự cố bạn đang cố gắng giải quyết thay vì những gì bạn nhận thấy là giải pháp. –
Chắc chắn - cảm ơn vì đã trả lời ... Vì vậy, tôi có tài liệu từ này có chứa một số văn bản và khoảng 5 hoặc 6 bảng. Mỗi bảng có một số cột khác nhau từ 2 đến 6. Hàng đầu tiên trong mỗi bảng mô tả tiêu đề. Điều tôi đang cố gắng thực hiện là (sử dụng Powershell) để đọc tài liệu, phân tích cú pháp nội dung của các bảng và các câu lệnh sql đầu ra có thể chạy riêng với cơ sở dữ liệu Oracle. Bây giờ tôi có nhiều tài liệu như vậy và mỗi tài liệu có cấu trúc tương tự nhau. Nhưng mỗi cái có thể có nhiều hoặc ít hàng trong các bảng. – Anoop