Главная страница / 15. Программное обеспечение обработки те...: 15.1. Основные понятия те...

15.1. Основные понятия текста и текстовых данных

Текст (от лат. textus – ткань; сплетение, связь, сочетание) – в общем плане связная и полная последовательность знаков.
Текстовые данные (также текстовый формат) – это последовательность символов в компьютере, когда каждый символ из используемого набора символов кодируется в виде 1 байта, а в случае Unicode это могут быть группы по 2 байта  и более.

Нередко текстовые данные понимаются в более узком смысле – как последовательности символов, имеющие осмысленное содержание, которое может быть прочитано и понято человеком.

Текстовый файл – разновидность файла, содержащая текстовые данные, как правило, организованные в виде строк.

Текстовый файл, как и прочие файлы, хранится в файловой системе.

В информатике текстом считают последовательность любых символов. Сейчас компьютеры в основном пользуются алфавитами, содержащими 256 знаков. Каждому из символов соответствует свой восьмиразрядный двоичный код. Таким образом, любой символ текста, включая пробелы, занимает 8 бит (1 байт) в памяти компьютера. Зная это, можно легко оценить объем памяти, необходимый для хранения того или иного текстового документа.

Один бит (двоичная цифра) может принимать два значения, добавление каждого разряда в код удваивает количество получаемых комбинаций: двухбитовый код – четыре варианта, трехбитовый – восемь, четырехбитовый – шестнадцать и т. д.

Стремление упростить работу с различными текстами (сначала текстами программ, затем служебными документами, газетами, журналами, книгами и т.д.) привело к созданию множества программ, специально ориентированных на это, – текстовых редакторов (или текстовых процессоров).