2012-01-01 12 views
24

Unicode định nghĩa một số ký tự điều khiển từ ASCII. http://www.unicode.org/charts/PDF/U0000.pdfNhân vật kiểm soát dấu phân tách tệp/nhóm/bản ghi/đơn vị và cách sử dụng của nó là gì?

Hầu hết trong số họ thường được sử dụng nhưng tôi thực sự không thể nhìn thấy bất kỳ việc sử dụng các dải phân cách thông tin (U + 001C ~ U + 001F)

họ là gì? Lịch sử của chúng là gì? Họ đã sử dụng ở đâu?

+1

Dấu phân tách trường và bản ghi có thể được sử dụng để sắp xếp dữ liệu bảng dưới dạng chuỗi. Đó là một chút cổ xưa, nhưng nó hoạt động. –

+0

Cảm ơn bạn đã hỏi điều này. Tôi hoàn toàn sẽ sử dụng dấu phân cách đơn vị thay vì tab hoặc văn bản phân định dấu phẩy ngay bây giờ. – bugloaf

Trả lời

34

Lammert Bies giải thích cả cách sử dụng và lịch sử phía sau.

28 - FS - Hồ sơ tách File tách FS là một thú vị kiểm soát mã, vì nó cho chúng ta cái nhìn sâu sắc trong cách rằng công nghệ máy tính là tổ chức trong năm sáu mươi. Chúng tôi hiện đang sử dụng phương tiện truy cập ngẫu nhiên để truy cập ngẫu nhiên như RAM và đĩa từ, nhưng khi tiêu chuẩn ASCII được xác định, hầu hết dữ liệu là nối tiếp. Tôi không chỉ nói về các thông tin liên lạc nối tiếp , mà còn về bộ nhớ nối tiếp như thẻ đục lỗ, giấy băng từ và băng từ. Trong tình huống như vậy rõ ràng là hiệu quả để có một mã điều khiển duy nhất để báo hiệu việc tách hai tệp. FS được xác định cho mục đích này.

29 - GS - Bộ phân tách nhóm Lưu trữ dữ liệu là một trong những số lý do chính để kiểm soát một số mã để nhận định nghĩa ASCII. Cơ sở dữ liệu phần lớn thời gian thiết lập với các bảng, chứa các bản ghi. Tất cả các bản ghi trong một bảng có cùng loại nhưng bản ghi của các bảng khác nhau có thể khác nhau. Bộ tách nhóm GS được định nghĩa để phân tách các bảng trong hệ thống lưu trữ dữ liệu nối tiếp . Lưu ý rằng bảng từ không được sử dụng tại thời điểm đó và người ASCII gọi nó là một nhóm.

30 - RS - Dấu phân cách Trong nhóm (hoặc bảng) các bản ghi được phân tách bằng RS hoặc ghi dấu tách.

31 - US - Dấu tách đơn vị Các mục dữ liệu nhỏ nhất được lưu trữ trong cơ sở dữ liệu được gọi là đơn vị trong định nghĩa ASCII . Chúng tôi sẽ gọi cho họ trường ngay bây giờ.Dấu phân tách đơn vị tách các trường này trong một môi trường lưu trữ dữ liệu nối tiếp . Hầu hết các triển khai cơ sở dữ liệu hiện tại yêu cầu rằng trường thuộc nhiều loại có độ dài cố định . Không gian đủ trong hồ sơ là được phân bổ để lưu trữ lớn nhất thành viên có thể có của mỗi trường, ngay cả khi điều này là không cần thiết trong hầu hết các trường hợp. Chi phí này chiếm một lượng lớn không gian trong nhiều trường hợp. Mã kiểm soát Hoa Kỳ cho phép tất cả các trường có độ dài biến. Nếu không gian lưu trữ dữ liệu là có giới hạn — như trong những năm sáu mươi — đây là một cách tốt để giữ lại không gian có giá trị. Mặt khác là bộ lưu trữ nối tiếp kém hiệu quả hơn so với bảng RAM và triển khai đĩa theo hướng thời gian hiện đại. Tôi không thể tưởng tượng một tình huống nơi cơ sở dữ liệu SQL hiện đại đang chạy với dữ liệu được lưu trữ trên giấy băng hoặc cuộn từ ...

Một Đơn vị tách có thể cung cấp về cơ bản cùng một mục đích như một dấu phẩy trong một CSV tệp hoặc tab trong tệp được phân tách bằng tab.

7

Ý của bạn là hầu hết trong số đó thường là không phải là được sử dụng trong những ngày này? Các ký tự điều khiển chủ yếu liên quan đến các chức năng điều khiển thiết bị, nhưng một số trong số chúng có thể đã được sử dụng làm dấu phân cách trong các tệp văn bản. Để tham khảo nhanh, hãy kiểm tra table of C0 Controls của tôi.

Dấu tách thông tin đã được sử dụng để nhóm dữ liệu theo cách đơn giản, nhưng những ngày này, định dạng nhị phân hoặc định dạng XML được sử dụng cho tổ chức dữ liệu. Vẫn còn sự tò mò, như sử dụng nội bộ của U + 001E và U + 001F trong Microsoft Word để thực hiện ý tưởng riêng của chương trình về "dấu nối không phá vỡ" và "dấu gạch nối tùy chọn" (đối diện với các ký tự Unicode cho các mục đích tương tự). Điều này chủ yếu minh họa rằng các chương trình có thể sử dụng các ký tự điều khiển theo những cách kỳ lạ. Vấn đề phát sinh tất nhiên nếu các ký tự được bao gồm trong văn bản truyền đến các chương trình khác.

Các vấn đề liên quan