Jump to content

Enkonduko en la aŭtomatan daten-prilaboradon/Kodado de aranĝitaj tekstoj

From Wikiversity

Kodado de datenaj tipoj: Aranĝitaj tekstoj

[edit]

Tipografia aranĝo de tekstoj koncernas la uzon de diversaj signograndecoj kaj litertipoj (serifaj, sen-serifaj; grasaj, oblikvaj, kursivaj ktp.) kaj la dismeton al ĉapitroj, paragrafoj, kolumnoj, tabeloj ktp.

Atentu, ke kelkaj lingvoj uzas la vorton "formato" por "aranĝo". En Esperanto tio ne estas kutima; "formato" estas la grandeco de paperfolio aŭ libro.

Ekzistas multaj metodoj por stori (kodi) tiajn aranĝojn; nur malmultaj estas normigitaj aŭ konsidereblaj kiel normoj. Ekzemploj estas RTF (Riĉa Teksto Formato, el Angla Rich Text Format), HTML, PostScript kaj PDF. Distingendas du klasoj de metodoj: tipografiaj metodoj kaj markaj (enhavaj) metodoj. Tipografiaj metodoj precize preskribas kiel aranĝi la tekstpartojn; enhavaj metodoj nur markas, al kiu enhava speco apartenas la tekstpartoj (titolo, tekstokorpo, piednoto, ktp.) kaj lasas al iu programo la decidon, kiel aranĝi ilin. Ekzemplo de tia marka lingvo estas HTML, uzata en la TTT-aj hipertekstoj.

Tekstoj aranĝitaj per ne-normigita aranĝo ofte estas dependaj de la programo, per kiu ili estis produktitaj. Se tiu programo ne plu estas disponebla, povas esti, ke la teksto fariĝas senvalora, ĉar ne plu vidigebla aŭ presebla.

Tipografie aranĝitaj tekstoj kodas ne nur signojn, sed ankaŭ la informon, en kiu grandeco kaj per kiu tiparo (grasa, kursiva, ktp.) la signoj estu prezentataj. La du menciitajn metodojn por aranĝi tekstojn estas karakterizeblaj jene:

  1. Markado: la teksto enhavas markajn elementojn, kiuj indikas, kiuj estas la roloj de la tekst-pecoj; ili eĉ povas indiki, kiel prezenti la signojn. Ekzemploj:
    1. HTML (kiu havas ankaŭ tipografiajn elementojn)
    2. Tekstprilaboraj programoj kia LibreOffice kodas la markajn elementojn per ne-preseblaj signoj (reg-signoj). Kaj tiuj signoj kaj la kodado de etno-lingvaj signoj kaj ne-latinaj signaroj estas proprietaj, tio estas specifaj por la koncerna programo.
  2. Tipografia kodado (paĝo-deskripto): Ĝi preskribas ekzakte, kie kaj kiel ĉiu signo estu presita sur la paperon. Iam la plej konata el la tipografiaj aranĝoj estis PostScript. Kelkaj modernaj presiloj kapablas rekte interpreti ĝin, tio signifas, ke eblas sendi al ili PostScript-ajn dosierojn, kiujn ili senpere komprenas kaj presas. PostScript nun estas, precipe por Uniksaj komputiloj, ofte uzata aranĝo por komunikado inter komputiloj kaj presiloj: Se oni generas pres-taskon el aplika programo, ofte la presota dosiero estas transformata al la aranĝo PostScript kaj tiel sendata al la presilo. Se oni elektas la instrukcion "presu al dosiero", ofte rezultas dosiero en PostScript. Alia daten-aranĝo por tipografie koditaj tekstoj estas PDF, nun eble la plej konata kaj tre multe uzata, ĉar firmao Adobe senkoste disdonas vidigilojn por PDF. PDF esence estas plu-evoluigaĵo de PostScript, kapabla kodi ekzemple kolorajn bildojn kaj formularojn.

Ekzemploj

[edit]
lingvo speco ekzemplo klarigo
PostScript tipografia kodado / typographisch
/Helvetica-bold findfont
18 scalefont
setfont
70.866 70.866 moveto
(Enkonduko) show
showpage
La ekzemplo uzas la tiparon "Helvetica" por grase skribi la vorton "Enkonduko" je distanco de 2,5 centimetroj (70,866 "punktoj") de la maldekstra kaj suba randoj. Ne estas informo, kial tiu vorto aperas grase.
HTML markado / markierend
 <h2>Enkonduko</h2>
La ekzemplo indikas, ke la vorto "Enkonduko" estas sekcia titolo dua-nivela (titolo de sub-ĉapitro). Programo, kiu montras tiun tekston, eble decidas montri tiun vorton per grasa skribo. Sed la HTML-teksto ne preskribas tion; ĝi diras nur, ke temas pri titolo. Pozicio ne estas donata. Ĝi rezultas el la pozicio de la antaŭa tekstoparto.

Tiuj du ekzemploj povas aspekti simile: Ankaŭ la dua ekzemplo verŝajne aperigas la vorton "Enkonduko", kaj eble en grasa skribo. Sed la dua ekzemplo diras, kiun rolon havas la vorto "Enkonduko": Ĝi estas la titolo de sekcio aŭ ĉapitro en la teksto.

Avantaĝoj de la du sistemoj

[edit]

Tipografia kodado

[edit]

La avantaĝoj de tipografia kodado estas tre simplaj: Ĝi garantias certan aspekton de la teksto, kaj ne necesas koni la rolojn (funkciojn) de la tekstopartoj. Difinita aspekto estas grava, se oni tre lerte aranĝis kombinon el tekstoj kaj bildoj, eble kun pluraj tekst-kolumnoj. Ĝi estas grava ankaŭ, se oni dissendas tekston al multaj personoj kaj volas esti certa, ke ĉiuj ricevas ekzakte la saman. Kaj ĝi estas esenca, se oni intencas presi la tekston sur papero de difinita formato, kie eble kelkaj tekstpartoj devas aperi en difinitaj lokoj (ekzemple la adreso de letero en fenestro de la koverto). Se en malnovaj tekstoj la rolo de tekstopartoj ne estas konata, estas multkoste krei markan aranĝon. Tiam ofte eblas nur tipografia kodado, ekzemple per PDF. Tiun aspekton celis firmao Adobe per sia reklam-slogano "PDF – se vi volas laŭeble rapide rete publikigi viajn dokumentojn." Transformi ekzistantajn tekstojn al "inteligenta" HTML efektive estas pli kosta kaj pli longdaŭra ol transformi ilin al PDF.

Markado

[edit]

Markado donas la avantaĝojn de pli granda adaptebleco kaj pli preciza informo. Eblas, ke tri homoj legas la saman markitan tekston, kaj unu vidas siajn sekci-titolojn grasa, la dua kursiva kaj la tria substrekita. Blindulo, kiu laŭtlegigas al si la tekston, povas instrukcii, ke li aŭdu la vorton "ĉapitro" antaŭ ĉiu sekci-titolo, aŭ havu du-sekundan paŭzon. Sed markado subtenas ankaŭ la komputilan prilaboradon de teksto. Se ĉiu ĉapitro en teksto estas markita per <h1>, <h2> ktp., komputilo povas aŭtomate generi enhavo-liston kun la titoloj de ĉiuj ĉapitroj. Ĉar markitaj tekstoj ne scias pri paper-formatoj, ili estas adapteblaj al ajna formato. Tio povas esti avantaĝo, ĉar en la mondo ekzistas multaj paperformatoj, kaj almenaŭ du tre gravaj:

  • "Letter" en Usono (216 mm × 279 mm) kaj Kanado (215 mm × 280 mm)
  • "A4" (210 mm × 297 mm) en multaj aliaj landoj
Kompara ilustraĵo de "A4" kaj Usona "Letter"

"Letter" (letero) estas iom pli larĝa ol A4, sed kiam oni presas sur A4-papero tekston, kiu estis aranĝita por "Letter", preskaŭ neniam io perdiĝas, ĉar la plej multaj tekstpaĝoj havas blankan randon. Inverse, kiam oni presas A4-aranĝitan tekston sur "Letter"-papero, povas okazi, ke perdiĝas ekzemple la paĝonumero sube de la paĝo. Sed markita teksto estas facile re-aranĝebla por iu ajn paper-formato. La supra bildo komparas la du paper-formatojn. Pretere, iliaj mezuroj ekestis jene:

  • "Letter" mezuras en usonaj ("imperiaj") unuoj 8 colojn × 11,5 colojn. Unu colo estas 2,54 milimetroj.
  • Ĉiuj A-formatoj havas rilaton de 1:√2 inter larĝo kaj alto, tiel ili estas facile duonigeblaj. A0 mezuras precize unu kvadratan metron, A1 estas duono de A0, A2 estas duono de A1 kaj tiel plu.

Specimenaj demandoj

1 Kio estas la diferenco inter "senaranĝa" kaj "aranĝita" tekstoj?

Senaranĝa teksto lotas literojn
Aranĝita teksto precizas aspekton aŭ speca strukturo
Kio estas la diferenco inter markado kaj tipografia kodado?
Kiu estas ekzemplo de tekst-markada lingvo?
Kiu estas ekzemplo de tipografia (paĝodeskripta) lingvo?
Kiu problemo povas ekesti, kiam oni presas ali-landan tekston sur papero?