Jump to content

Enkonduko en la aŭtomatan daten-prilaboradon/Kodado de senaranĝaj tekstoj

From Wikiversity

Kodado de datenaj tipoj: Senaranĝaj (senformataj) tekstoj

[edit]

Senaranĝaj tekstoj, produkteblaj ekzemple per simpla redaktilo, enhavas

  • literojn majusklajn kaj minusklajn
  • ciferojn
  • interpunkciojn
  • la stirsimbolojn "nova linio", "reveno" (al la komenco de linio), "tabo" (tabelsalto).

Pri la signo de linifino

UNIX kodas la finon de linio per "nova linio"; DOS/Vindozo kodas ĝin per la kombino "nova linio" + "reveno". Apple-komputiloj uzas la "revenon".

Ne prezenteblas diversaj litergrandecoj kaj -tipoj, grasa, oblikva, kursiva, altigita aŭ malaltigita skribo ktp.

Por kodi la literojn de la baza latina alfabeto, tamen sen specialaj signoj de diversaj lingvoj (ekzemple ä, ö, ü, ß, à, ñ, ă, ĉ ktp., establiĝis normigita kodo, la American Standard Code for Information Interchange ("Usona norma kodo por inform-interŝanĝo"), akronime ASCII (Askio). Tiu ĉi kodo kaj diversaj plivastigoj de ĝi estas nun tre vaste uzataj; nur kelkaj komputilegoj ankoraŭ uzas alian kodon. ASCII kodas signojn en la malaltaj 7 bitoj de bajto; la unua bito estas ĉiam 0. Tiel disponeblas 27 = 128 malsamaj kombinoj, nome la bajtoj 0 = 00000000 ĝiis 127 = 01111111. La preseblaj signoj uzas la bajtojn 32 (spaceto) ĝis 126 (~); la aliaj signoj estas uzataj kiel reg-signoj. Ekzemple "nova linio" kaj "reveno" estas reg-signoj.

Pri Askio ekzistas artikolo en Vikipedio.

La finon de dosiero sub DOS/Vindozo markas speciala reg-signo, la bajto 26. UNIX simple memoras la precizan longecon de la dosiero kaj tial ne bezonas specialan signon. Vi povas vidi en la jena tabelo, kiu montras la preseblajn Aski-signojn:

Preseblajn Aski-signojn
0 1 2 3 4 5 6 7 8 9 A B C D E F 0 1 2 3 4 5 6 7 8 9 A B C D E F
2 ! " # $ % & ' ( ) * + , - . / 3 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4 @ A B C D E F G H I J K L M N O 5 P Q R S T U V W X Y Z [ \ ] ^ _
6 ` a b c d e f g h i j k l m n o 7 p q r s t u v w y y z { } ~ DEL


Askio kapablas kodi literojn nur el la baza latina/angla alfabeto, sed ne aliajn literojn, ekzemple:

  • diakritajn literojn, kie la baza litero estas modifita per iu aldonaĵo, ekzemple ä å ç ĉ ñ ŭ;
  • ligaĵojn (ligaturojn), kie pluraj literoj estas kunmetitaj al unu signo, ekzemple Æ œ ß; nur la signo "&", konsiderebla kiel ligaĵo de "et", estas en Askio;
  • literojn el ne-latinaj alfabetoj, ekzemple la Cirila, Greka, Araba, Tajlanda;
  • simbolojn el ne-alfabetaj skriboj (ideogramojn), ekzemple Ĉinajn.

Por reprezenti tiajn simbolojn necesas vastigi Askion. Pri tio parolos la sekva leciono.

Specimenaj demandoj

1 Kiu kodo estas plej vaste uzata por kodi la bazan latinan alfabeton?

ASCII
ISCII
Internacia signala kodaro

2 Kiom da bitoj uzas la kodo Askio (ASCII) por unu signo?

1
5
7
8
10
16

3 Kiajn literojn Askio ne povas reprezenti?

@
&
à
ĉ

4 Kiom da signoj Askio povas reprezenti?

26
52
128
256