CATEGORII DOCUMENTE
Afaceri Calculatoare Casa masina Didactica pedagogie Diverse Educatie Finante Geografie Istorie & politica Legislatie Limba Management Sanatate Tehnologie

Bulgara	Ceha slovaca	Croata	Engleza	Estona	Finlandeza	Franceza
Germana	Italiana	Letona	Lituaniana	Maghiara	Olandeza	Poloneza
Sarba	Slovena	Spaniola	Suedeza	Turca	Ucraineana

Administracja	Bajki	Botanika	Budynek	Chemia	Edukacja	Elektronika	Finanse
Fizyczny	Geografia	Gospodarka	Gramatyka	Historia	Komputerów	Książek	Kultura
Literatura	Marketingu	Matematyka	Medycyna	Odżywianie	Polityka	Prawa	Przepisy kulinarne
Psychologia	Różnych	Rozrywka	Sportowych	Technika	Zarządzanie

Wersje miźdzynarodowe

komputerów

+ Font mai mare | - Font mai mic


DOCUMENTE SIMILARE

Wersje miźdzynarodowe

Jednym z najwasniejszych aspektów pracy profesjonalnego programisty jest gotowoę do podjźcia odpowiedzialnoci za tworzenie aplikacji wyposasonych we wszelkie funkcje wymagane przez usytkowników. W dzisiejszej globalnej gospodarce ta pe³na funkcjonalnoę czźsto oznacza, se trzeba bździe zaoferowaę obs³ugź wejcia i wyjcia w wielu jźzykach ³¹cznie z odpowiednim, specyficznym formatowaniem danych.

Na przyk³ad zarówno Amerykanie, jak i Europejczycy rozpoznaj¹ napis „1/2/99” jako datź, jednak Amerykanie odczytuj¹ to jako 2. stycznia 1999, za Europejczycy jako 1. lutego 1999. Takiego problemu mosna unikn¹ę, stosuj¹c format nie pozwalaj¹cy na dowolnoę interpretacji, czyli usywaj¹c np. pe³nych nazw miesiźcy i czterocyfrowego zapisu roku.

Wymagania mog¹ jednak dotyczyę usycia alternatywnego formatu, który mose pozwalaę na dowolnoę interpretacji (np. w celu zachowania „wstecznej zgodnoci”). Mosna np. zezwolię, aby usytkownik wprowadza³ daty rźcznie lub pos³ugiwa³ siź zapisem liczbowym w postaci skróconej. Przyjaznoę obs³ugi mose byę rozszerzona jeszcze bardziej po wprowadzeniu potwierdzania dowolnego formatu, dziźki czemu usytkownik mose usyę zapisu najlepiej przystosowanego do lokalnych zwyczajów.

Za³ósmy, se chcemy wprowadzię elastyczne formatowanie dat w aplikacji przeznaczonej dla miźdzynarodowej korporacji. Prawdopodobnie spotkamy siź wówczas z wymaganiem, aby aplikacja obs³ugiwa³a daty w formatach spotykanych we wszystkich krajach przewidzianych przez klienta i to bez koniecznoci powtórnej kompilacji.

Firmy w operacjach wewnźtrznych prawdopodobnie pos³uguj¹ siź tzw. „formatem miźdzynarodowym” (YYYY-MM-DD) ze wzglźdu na jego czytelnoę, odpornoę na problemy roku 2000 i mosliwoę poprawnego sortowania. Najwasniejszym obszarem dzia³alnoci firmy na rynku miźdzynarodowym jest jednak kontakt z klientem. Pracownicy mog¹ zostaę stosunkowo szybko przeszkoleni w zakresie stosowania odpowiednich firmowych konwencji, ale klientów prawdopodobnie nie uda siź przystosowaę. Jest to szczególnie wasne poza Ameryk¹ Pó³nocn¹ i pó³nocn¹ Europ¹ (nawet w takich krajach jak Japonia), gdzie klienci podczas przekszta³cania wprowadzanych danych na format usywany wewn¹trz firmy wymagaj¹ pomocy osoby znaj¹cej zagadnienie.

Istotnie, maj¹c wielk¹ liczbź usywanych powszechnie formatów dat, nie ma mosliwoci poprawnej obs³ugi ich wszystkich. Utworzenie prostej aplikacji staje siź wiźc kosztowne, zarówno z punktu widzenia nak³adu pracy programisty, jak i czasu jej powstawania. Oprócz tego zawodowy programista jest zobowi¹zany dostarczyę produkt w okrelonym terminie i za okrelone wynagrodzenie, a zatem powstaje dodatkowy konflikt interesów.

Na szczźcie te problemy nie s¹ tak straszne, na jakie wygl¹daj¹, przynajmniej dla programisty tworz¹cego aplikacje. Istnieje ca³y zestaw norm, które opisuj¹ problemy powszechnie spotykane w miźdzynarodowym rodowisku klientów. Standardy te obejmuj¹ nastźpuj¹ce zagadnienia:

q w³aciwoci techniczne, takie jak zestawy znaków i ich kodowanie,

q parametry interfejsu usytkownika, takie jak formaty dat i walut,

q wprowadzanie znaków, które nie s¹ bezporednio dostźpne na klawiaturze,

q jźzyk stosowany przy wywietlaniu komunikatów.

Standardy te zosta³y wdrosone w bibliotekach dostźpnych w systemie Linux. Dostźpnoę Linuksa dla miźdzynarodowych zastosowań jest jednym z zagadnień, w którym projekt GNU wyranie przoduje. Biblioteka GNU libc zawiera wszystkie zaawansowane w³aciwoci wymagane przez miźdzynarodowe standardy, takie jak POSIX i UNIX98, wykraczaj¹c dalej nis powszechna praktyka rodowiska programistów usywaj¹cych tego systemu. Takie domylne w³aciwoci istniej¹ce w libc zachźci³y rodowisko programistów Linuksa do przejcia na wersje miźdzynarodowe zgodne ze standardami i zainspirowa³y powstanie licznych projektów, np. GNU Translation Project

Projekt o nazwie Li18nux (czyli Linux Internationalization Initiative, opisany pod adresem https://www.li18nux.net) jest wspierany przez takie licz¹ce siź firmy, jak IBM i Sun Microsystems, nie wspominaj¹c o oczywistej obecnoci RedHat, SuSE itd. Ma on na celu doprowadzenie do stanu, w którym miźdzynarodowe w³aciwoci Linuksa bźd¹ konkurencyjne dla komercyjnych produktów jak Solaris, Windows i Macintosh. Wstźpny projekt normy Li18nux 2000 (dostźpny pod adresem https://www.linux.net/root/LI18NUX2000/li18nux2k_draft.html) zawiera odnoniki do wszystkich standardów wi¹s¹cych siź z tymi zagadnieniami oraz liczne przyk³ady ich usycia. Tekst tego dokumentu jest bardzo lakoniczny, a wiźc nie polecamy jego studiowania. Nalesy go traktowaę jako zbiór pomocnych odnoników, poniewas zawiera adresy sieciowe wszystkich zwi¹zanych z nim dokumentów.

Wiźkszoę ze standardowych w³aciwoci opisanych w tym rozdziale jest dostźpna w wersji 2.1 libc, za jeszcze wiźcej planuje siź dla wersji 2.2. Inne mosna znaleę w Xlib lub w zestawach narzździ, takich jak Motif lub GTK+. Biblioteki specjalnego przeznaczenia oraz funkcje do³¹czane do bibliotek zwi¹zanych ze specyficznymi aplikacjami mosna znaleę w zestawach narzździ przeznaczonych dla programistów zajmuj¹cych siź wprowadzaniem wersji miźdzynarodowych. Celem tego rozdzia³u jest dostarczenie zawodowym programistom pracuj¹cym w rodowisku GNU i Linux podstaw dla rozpoznawania tych ogólnych wymagań i niezbźdnej wiedzy o tych bibliotekach i ich funkcjonalnoci.

G³ówn¹ trudnoę przy tworzeniu programów, które maj¹ byę wystarczaj¹co elastyczne, aby by³y czytelne w wielu rodowiskach jźzykowych, stanowi to, se standardowe w³aciwoci pojawi³y siź ca³kiem niedawno. Ich zastosowania nie s¹ jeszcze wystarczaj¹co stabilne (co mosna sprawdzię, obserwuj¹c prace nad libc w projekcie GNU oraz stan GTK+ i innych zestawów narzździowych). Istnieje kilka przyk³adów stanowi¹cych „najlepszy wzór” dla programistów pracuj¹cych w systemie Linux, mimo se wiźkszoę z programów pomocniczych GNU zapewnia przynajmniej obs³ugź komunikatów w jźzyku narodowym. Nowe standardy dla bardziej zaawansowanych w³aciwoci s¹ modyfikowane i poprawiane co tydzień (przyk³adem mose byę ustawianie widsetów w graficznym interfejsie usytkownika umosliwiaj¹ce obs³ugź odmiennego kierunku czytania w jźzykach takich jak hebrajski lub arabski). Nalesy mieę nadziejź, se ten rozdzia³ zachźci Czytelników do pionierskich prac w tej dziedzinie i do tworzenia wzorców dla zwyk³ych programistów, a takse bździe stanowi³ podstawowe ród³o informacji wspomagaj¹cych te prace.

Terminologia I18N

Podstawowym procesem w adaptacji oprogramowania w danym rodowisku kulturowym jest jego dostosowanie do jźzyka lokalnego (czyli tzw. lokalizacja). Mosna to osi¹gn¹ę, zmieniaj¹c ród³owy kod programu w sposób przypominaj¹cy jego przenoszenie na now¹ platformź sprzźtow¹, czyli zmieniaj¹c definicje funkcji i kolejnoę argumentów, t³umacz¹c napisy itd. Sugeruje to mosliwoę bardziej efektywnej adaptacji, jeli o tych sprawach bździe siź pamiźtaę jus od pierwszej wersji programu.

Mosna tes postźpowaę inaczej, stosuj¹c co, co jest nazywane internacjonalizacj¹ (ang. internationalization). Internacjonalizacja programu oznacza usycie standardowych zestawów zmiennych i wywo³ań zwrotnych w tym programie. Te zmienne i wywo³ania zwrotne redukuj¹ proces przekszta³cania programu na wersjź zlokalizowan¹ do odpowiedniej inicjacji zmiennych, skonsolidowania go z wywo³aniami zwrotnymi ze standardowej biblioteki i przet³umaczenia komunikatów. Oznacza to, se przy lokalizacji programu mose byę konieczne wprowadzenie dusych zmian w kodzie, ale przy odpowiedniej internacjonalizacji obs³uga wszystkich rósnic jźzykowych bździe zapewniona dziźki za³adowaniu odpowiednich plików danych. Zmniejsza to nie tylko nak³ad pracy programisty, ale takse ze znacznie wiźkszym prawdopodobieństwem da poprawny wynik. Wynika to np. z faktu, se t³umaczeniami zajmuj¹ siź specjalici znaj¹cy dany jźzyk, a nie programici.

Warto pamiźtaę, se prawie we wszystkich aplikacjach program obs³uguje w danym momencie tylko jedn¹ konfiguracjź narodow¹. Dane wejciowe, dane wyjciowe oraz komunikaty o b³źdach bźd¹ podawane w tym samym jźzyku. Kilka rodzajów aplikacji wymaga jednak obs³ugi wielu jźzyków równoczenie (oczywistym przyk³adem jest edytor usywany przy t³umaczeniach, ale takse dowolna aplikacja obs³uguj¹ca wymianź wiadomoci, jak np. program pocztowy lub program obs³uguj¹cy grupy dyskusyjne). Mówimy wtedy o tzw. wielojźzycznoci (ang. multilingualization). Interesuj¹ce jest, se dzia³aj¹ca w architekturze klient-serwer aplikacja dla wyposyczalni p³yt DVD mose dzia³aę w rodowisku wielojźzycznym (tzn. usytkownicy mog¹ równoczenie korzystaę z wielu jźzyków), nawet jeli ani serwer, ani klient osobno nie obs³uguj¹ równoczenie wielu jźzyków.

Istnieje kilka skrótów oznaczaj¹cych te terminy: L10N oznacza lokalizacjź, I18N oznacza internacjonalizacjź, za M17N oznacza wielojźzycznoę. Skróty te s¹ tworzone od angielskich s³ów przez pozostawienie pierwszej i ostatniej litery oraz zast¹pienie liter znajduj¹cych siź miźdzy nimi przez ich liczbź. Np. w s³owie „localization” sk³adaj¹cym siź z 12 liter miźdzy „L” i „N” jest 10 liter — st¹d skrót „L10N”.

W pozosta³ych czźciach rozdzia³u opisano modele internacjonalizacji dostźpne dla programistów tworz¹cych aplikacje, interfejsy programowe tych modeli dostźpne w systemie Linux oraz przyk³ady zastosowań niektórych modeli w przyk³adowej aplikacji do obs³ugi wyposyczalni p³yt DVD.

Czy Unicode nie jest rozwi¹zaniem?

Tak, Unicode pozwala rozwi¹zaę wiele problemów pojawiaj¹cych siź przy I18N dziźki temu, se skutecznie przyporz¹dkowuje unikatowy kod kasdemu znakowi usytemu w tekcie pisanym w dowolnym jźzyku — nie rozwi¹zuje jednak wszystkich problemów.

Unicode

Czym to jest

Unicode jest uniwersalnym zestawem znaków utworzonym na podstawie projektu „Universal Multiple-Octet Coded Character Set” (w skrócie UCS) prowadzonym przez Unicode Consortium oraz International Standards Organization (ISO), który zosta³ opisany w normie ISO-10646. Zestaw ten ma na celu umosliwienie reprezentacji wszelkich tekstów we wszystkich jźzykach wiata. Jest to takse standard opisuj¹cy kodowanie znaków w postaci odwzorowania zestawu znaków na zbiór liczb ca³kowitych. Bies¹ca wersja standardu opisuje kilka sposobów reprezentacji wycinka tego odwzorowania w pamiźci komputera. Reprezentacje te nosz¹ nazwź Unicode Transformation Formats (w skrócie UTF). Standard zawiera takse opis niektórych w³aciwoci znaków, np. wartoci liczbowe cyfr oraz opis standardowych algorytmów usywanych przy przetwarzaniu znaków (np. przy sortowaniu).

Zestaw znaków jest zbiorem uporz¹dkowanym. Znaki maj¹ rósne w³aciwoci, np. glify usywane do prezentacji i klasyfikacjź syntaktyczn¹ (np. zaliczenie znaku do odstźpów lub znaków interpunkcyjnych). Kodowanie jest odwzorowaniem typu „jeden do jednego” znaków z zestawu na zbiór obiektów, które mog¹ byę przetwarzane komputerowo — zazwyczaj s¹ to ci¹gi bitów lub bajtów (zauwasmy, se w Unicode unika siź mówienia o liczbach ca³kowitych).

Przewasnie d³ugoę ci¹gu kodu bitowego przyporz¹dkowanego znakowi jest wielokrotnoci¹ liczby 8. We wspó³czesnych komputerach pokrywa siź to z bajtem. Poniewas mose siź kiedy zdarzyę, se bajt bździe mia³ rósn¹ d³ugoę w komputerach rósnego typu, to dla oznaczenia ci¹gu omiu bitów wprowadzono okrelenie „oktet”. Jeseli ci¹gi bitowe reprezentuj¹ce wszystkie znaki w danym kodowaniu maj¹ tź sam¹ liczbź bitów, to mówimy o „kodowaniu znakowym”. Zestaw ASCII jest kodowaniem (zdegenerowanym), w którym dla reprezentacji znaku usywa siź 7 (lub 8) bitów. Unicode (jak pocz¹tkowo zak³adano) jest kodowaniem 16-bitowym (dwa oktety). W przeciwnym wypadku mówimy o „kodowaniu wielobajtowym”. UTF-8 jest przyk³adem kodowania wielobajtowego. Kodowanie o „sta³ym” rozmiarze i kodowanie o „zmiennym” rozmiarze by³yby zapewne lepszymi okreleniami, ale powszechnie usywane s¹ jednak nazwy „znakowe” i „wielobajtowe”.

Unicode Consortium zosta³o zorganizowane w celu opracowania dostźpnego, praktycznie ujednoliconego zestawu znaków. Badania doprowadzi³y do powstania pocz¹tkowego 16-bitowego formatu, który ogranicza³ dostźpn¹ przestrzeń do 65536 znaków. W praktyce przestrzeń ta jest nieco mniejsza, poniewas znaki s¹ przewasnie porz¹dkowane w bloki wyrównane w „wierszach” licz¹cych 256 pozycji kodu kasdy. Kasdy blok odpowiada jednemu alfabetowi (np. alfabetowi greckiemu), zestawowi alfabetów tworz¹cych jedn¹ rodzinź (jak np. alfabet ³aciński) lub grupie znaków mniej znanych programistom zachodnim (np. sylabiczny alfabet Irokezów z Ameryki Pó³nocnej albo zestaw chińskich ideogramów Han).

Z drugiej strony, UCS by³ tworzony z myl¹ o zapewnieniu zwartych podstaw dla unormowanych zestawów znaków, aby kasdy tekst mosna by³o przet³umaczyę bez zniekszta³ceń, usywaj¹c jednego uniwersalnego kodowania. Poniewas s³owniki jźzyka japońskiego i chińskiego zawieraj¹ po oko³o 50 tysiźcy znaków, a jźzyk koreański pos³uguje siź oko³o 12 tysi¹cami oznaczeń sylabicznych, nie wspominaj¹c jus o hieroglifach, to w 16-bitowej przestrzeni kodowej nie ma jus miejsca na 26 liter alfabetu ³acińskiego, na alfabet grecki, cyrylicź i symbole matematyczne. Projektanci UCS zdawali sobie sprawź, se trzeba bździe wiźcej nis 16 bitów do zakodowania wszystkich potrzebnych znaków (nawet przy za³oseniu unifikacji alfabetu Han, który obejmuje wiele znaków japońskich wywodz¹cych siź z alfabetu chińskiego). Bior¹c pod uwagź architekturź nowoczesnych komputerów, zdecydowano, se przestrzeń kodowa bździe reprezentowana przez 31 bitów (rezerwuj¹c ostatni bit 32-bitowego s³owa do wykorzystania w zestawach znaków nie wchodz¹cych do UCS i unikniźcia pomy³ek z reprezentacjami liczb ujemnych i dodatnich).

Grupa robocza ISO zajmuj¹ca siź tymi zagadnieniami uwzglźdni³a potrzebź utworzenia niewielkiego podzbioru daj¹cego siź przedstawię za pomoc¹ 16 bitów. Podzbiór ten, któremu nadano nazwź Basic Multilingual Plane (w skrócie BMP), jest bardzo zblisony do zestawu znaków Unicode, poniewas wykorzystuje te same podstawy. W dodatku jego autorzy s¹ czźsto cz³onkami obydwu komitetów, a wiźc szybko zdecydowano o po³¹czeniu wysi³ków i dostosowaniu BMP do standardu Unicode.

Podobnie wygl¹da sprawa z kontrowersjami wokó³ unifikacji zestawu Han (patrz dalsze podrozdzia³y), gdzie nawet unifikacja zestawu nie umosliwi uzyskania przestrzeni pozwalaj¹cej na w³¹czenie wszystkich zestawów znaków spe³niaj¹cych wymagania standardu okrelonego przez Unicode Consortium. Sytuacja ta spowodowa³a, se opracowano powiźkszon¹ przestrzeń znaków w postaci formatu UTF-16, w którym pominiźto niektóre pary16-bitowych „zastźpczych” znaków, aby zakodowaę wszystko w przestrzeni o rozmiarze 1024x1024.

Niezgodnoci w 16-bitowych znakach zastźpczych (oznaczaj¹ce, se liczba znaków w tabeli nie jest taka sama jak liczba znaków Unicode wyrasona w reprezentuj¹cych j¹ ci¹gach bitowych) doprowadzi³y do zdefiniowania „p³askiego” formatu UTF-32. Usyto w nim znaków o kodach 32-bitowych, lecz ich liczba jest dok³adnie taka, jak w formacie UTF-16, poniewas ograniczono liczbź znaków tylko do pocz¹tkowych 1114112 pozycji z licz¹cej 4294967296 miejsc przestrzeni dostźpnej dla 32-bitowych liczb ca³kowitych bez znaku. Niewykorzystane miejsca s¹ niedozwolone w myl standardu Unicode.

Ujednolicanie standardów Unicode i ISO-10646 zosta³o zakończone wówczas, gdy ISO zgodzi³a siź, aby nie przypisywaę sadnych znaków kodom wiźkszym od 1114112.

Wszystko dosz³o wiźc do etapu, gdy istnieje jeden niepodwasalny i uniwersalny zestaw znaków, z jednym odwzorowaniem znaków na liczby ca³kowite oraz kilkoma dobrze zdefiniowanymi transformacjami formatu Unicode (UTF) reprezentuj¹cymi te kody liczbowe. Oprócz wysej wymienionych formatów istnieje znany format 8-bitowy UTF-8, charakteryzuj¹cy siź tym, se wszystkie znaki ASCII s¹ w nim przedstawiane jako kody jednobajtowe, za pozosta³e s¹ kodowane za pomoc¹ wiźcej nis jednego bajtu (kasdy z tych bajtów ma wartoę z zakresu od 0x80 do 0xFF). Oznacza to, se czysto 8-bitowy mechanizm wykorzystuj¹cy zestaw ASCII (np. w uniksowych systemach plików, pow³okach systemu operacyjnego i wielu jźzykach programowania) nie pozwoli na przypadkowe traktowanie napisów w kodzie UTF-8 jako zawieraj¹cych s³owa kluczowe lub konstrukcje sk³adniowe. Istniej¹ takse inne przekszta³cenia formatu, ale obecnie mosna je traktowaę jako przestarza³e.

Format	Definicja	Typowe zastosowanie
Unicode, UCS	Odwracalne odwzorowanie znormalizowanych znaków na nieujemne liczby ca³kowite.	Abstrakcyjne (reprezentacja ca³kowitoliczbowa nie jest zdefiniowana) i nieokrelone (zalesnie od kontekstu „Unicode” mose oznaczaę ca³y zestaw znaków, dwubajtow¹ reprezentacjź UCS-2 bez znaków zastźpczych lub reprezentacjź UTF-16 ze znakami zastźpczymi).
UCS-4	Pozycje kodowe Unicode s¹ reprezentowane jako 31-bitowe liczby ca³kowite bez znaku.	Nadzbiór UTF-32 niezupe³nie zgodny ze standardem. Jest to format wewnźtrzny stosowany przez glibc.
UTF-32	Pozycje kodowe Unicode s¹ reprezentowane jako 31-bitowe liczby ca³kowite bez znaku, ale wartoci kodów s¹ ograniczone do przedzia³u od 0x0 do 0x1FFFF.	Reprezentacja wykorzystuj¹ca standardowe kodowanie bitowe pozwalaj¹ca zakodowaę wszystkie znaki zestawu Unicode.
UTF-16	Znaki zestawu Unicode z podzbioru BMP (o kodach od 0x0 do 0xFFFF) s¹ reprezentowane jako 16-bitowe liczby ca³kowite bez znaku. Znaki o pozycjach wiźkszych nis s¹ reprezentowane jako pary znaków zastźpczych (pierwszy o kodzie od 0xD800 do 0xDBFF, a drugi o kodzie od 0xDC00 do 0xDFFF).	Pos¹dany, ale nie wymagany bezwzglźdnie w aplikacjach korzystaj¹cych z semantyki „napis jest tablic¹ znakow¹”, w których musi byę dostźpna mosliwoę przesy³ania ca³ego zakresu znaków Unicode, wymaga siź wiźkszej zwartoci nis daje UTF-32.
UCS-2 BMP	Ograniczony do znaków Unicode z zestawu BMP o kodach od 0x0 do 0xFFFF.	Wymagany bezwzglźdnie w aplikacjach korzystaj¹cych z semantyki „napis jest tablic¹ znakow¹”, w których nie musi byę dostźpna mosliwoę przesy³ania ca³ego zakresu znaków Unicode, wymaga siź wiźkszej zwartoci nis daje UTF-32.
UTF-8	Format o zmiennej d³ugoci kodu, w którym znaki z zestawu ASCII s¹ reprezentowane przez 8-bitowe liczby ca³kowite bez znaku, a znaki pozosta³e s¹ reprezentowane przez zmienn¹ liczbź bajtów z ustawionym najstarszym bitem.	Normalnie stosowany jako format zewnźtrzny, szczególnie w programach przyjmuj¹cych dane wejciowe w postaci bajtów (np. pow³oki i systemy plików), które traktuj¹ niektóre bajty ASCII jako maj¹ce znaczenie syntaktyczne, ale jednoczenie s¹ „przezroczyste” dla kodów omiobitowych (tzn. traktuj¹ znaki o kodach z ustawionym najstarszym bitem jako nie maj¹ce znaczenia syntaktycznego i przekazuj¹ce je bez przekszta³cania). Format ten stanowi takse efektywny sposób kodowania dla aplikacji, w których oczekuje siź dusej czźci danych tekstowych typu ASCII, jak np. ród³owe programy komputerowe lub dane SGML.

Trzeba tu wspomnieę jeszcze o innym aspekcie Unicode, a mianowicie o tym, se jest on standardem dla przetwarzania tekstów, a nie dla kodowania znaków. Wykracza on znacznie poza standard ISO-10646. Faktycznie Unicode Consortium zobowi¹za³o siź do akceptowania w przysz³oci zaleceń ISO dotycz¹cych nowych standaryzacji znaków, a pracuj¹cy tam programici bźd¹ musieli skoncentrowaę siź na algorytmicznych aspektach przetwarzania tekstów. Nie jest prawdopodobne, aby pewnego dnia standard Unicode sta³ siź wszechstronny i stosowany w sposób uniwersalny, ale definiuje on wiele w³aciwoci i algorytmów. Nalesy do nich zaliczyę:

q Alternatywne reprezentacje z³osonych znaków: wiele rozszerzonych liter ³acińskich mosna rozbię na dwa elementy, czyli literź g³ówn¹ i akcent diakrytyczny — obydwie reprezentacje s¹ mosliwe w zestawie Unicode,

q Algorytmy stosowane przy porównywaniu z³osonych znaków (poniewas ten sam tekst mose reprezentowaę takie same znaki w rósny sposób w rósnych miejscach),

q Przyporz¹dkowanie w³aciwoci takich jak np. wartoci liczbowe dla cyfr lub ograniczaj¹ce jednostki tekstowe dla s³ów i zdań,

q Algorytmy sortowania i przeszukiwania,

q Algorytmy prezentacji zagniesdsonego tekstu czytanego w rósnych kierunkach.

Pozosta³o jeszcze kilka nieunormowanych obszarów. Niektóre z nich mosna zaliczyę do podstawowych braków (np. zestaw znaków cyrylicy w³¹czony do specyfikacji Unicode w wersji 1. i 2. by³ charakterystyczny tylko dla jźzyka rosyjskiego — pominiźto w nim niektóre znaki charakterystyczne dla jźzyka ukraińskiego ze wzglźdu na to, se w owym czasie Ukraina stanowi³a czźę Zwi¹zku Radzieckiego). Nalesy oczekiwaę, se braki te zostan¹ uzupe³nione w przysz³ych wydaniach standardu.

Inne problemy stwarzaj¹ zasadnicze rósnice, jak np. problem unifikacji znaków Han. Punktem wyjcia jest fakt, se system zapisu stosowany przez Japończyków, Koreańczyków i tradycyjnych Wietnamczyków wywodzi siź z chińskiego zestawu ideogramów i wszyscy zgodzili siź co do kszta³tu kasdego znaku. Znaki, które s¹ „takie same” w kasdym z tych systemów, mosna wiźc okrelię jako uzgodnione. Na tej podstawie powyssze zestawy znaków obejmuj¹ce przynajmniej po jednym zestawie narodowym okrelono jednym terminem „zunifikowany zestaw znaków Han”.

Pojawi³y siź jednak g³osy krytyczne (g³ównie z Japonii), se kasdy wariant narodowy dotyczy w istocie innych znaków i w zwi¹zku z tym w standardzie Unicode powinny one mieę przypisane inne kody. Argumenty za takim rozwi¹zaniem by³y nastźpuj¹ce:

q Wygodnie jest w tekcie wielojźzycznym mieę mosliwoę okrelenia jźzyka na podstawie usytych znaków,

q Wielu Japończyków odczuwa co szczególnego, mówi¹c o swoim jźzyku, a niektórzy myl¹, se dzielenie siź kodami znaków z innymi jźzykami os³abi „ducha japońskiego”,

q Trudniej jest zmieniaę standardy narodowe, poniewas mog³oby to zaburzaę sposób przyporz¹dkowania zunifikowanego zestawu Han do zestawów narodowych. Jest to wasne szczególnie w Japonii, poniewas w kilku oficjalnie zarejestrowanych imionach i nazwach miejscowoci usywane s¹ tam znaki nieobecne w standardach JIS X 0208 i JIS X 0212 stosowanych pomocniczo w BMP.

Jasne jest wiźc, se nie znajdzie siź rozwi¹zanie satysfakcjonuj¹ce wszystkich dyskutantów. Unifikacja pozostanie, ale trzeba zapewnię rósne rodki umosliwiaj¹ce w razie potrzeby rozrósnianie rósnych wariantów zestawu Han (zarówno w ramach samego standardu Unicode — tzw. „znaczniki 14. p³aszczyzny”, jak i poza nim — jak np. atrybuty jźzykowe w znacznikach XML).

Na zakończenie nalesy wspomnieę o znacznie powasniejszym problemie stwarzanym przez znaki, które z rósnych powodów nie mog¹ byę w³¹czone do standardu Unicode. Niektóre z tych znaków, jak zapis nutowy lub oznaczenia na schematach uk³adów elektronicznych, trudno zakwalifikowaę do znaków pisma, które powinny byę usywane w postaci zestawu stylizowanych glifów daj¹cych siź uporz¹dkowaę w okrelony sposób w strumieniu wyjciowym. Standard Unicode jawnie odrzuca je na tej podstawie, se ma on s³usyę do obs³ugi tekstu reprezentowanego jako strumienie u³osone w postaci wierszy, a nie struktur dwuwymiarowych. Ta zasada zosta³a jednak z³amana przez Unicode Consortium, poniewas w³¹czono do standardu pod pozycj¹ 0x2500 blok elementów s³us¹cych do tworzenia ramek. By³o to usprawiedliwiane powszechnym stosowaniem takich znaków w terminalach i w zestawie znaków stosowanym w IBM PC, ale mimo wszystko jest to oczywista niezgodnoę.

Inne znaki, jak np. wspomniane jus znaki w jźzyku ukraińskim lub rzadziej spotykane imiona i nazwy miejscowoci w jźzyku japońskim, nie mog¹ byę w³¹czone do Unicode, poniewas nie zosta³y znormalizowane przez w³aciwe komitety narodowe. Niektórych znaków jeszcze nie wymylono, chocias nie mosna tego powiedzieę o ostatnio wprowadzonym oznaczeniu waluty euro. Poniewas zestaw Unicode ogranicza siź tylko do oficjalnie unormowanych znaków, to nie s¹ w³¹czane do niego znaki specjalnego przeznaczenia (np. znaki firmowe) i specjalne zestawy znaków (np. „umieszki” stosowane w korespondencji elektronicznej).

Wszystkie wymienione tu problemy da siź do pewnego stopnia rozwi¹zaę w ramach standardu Unicode. Do³¹czenie niewielkiej liczby znaków mosna zrealizowaę we w³asnym zakresie, wykorzystuj¹c tzw. „przestrzeń prywatn¹” umieszczon¹ na pozycjach kodu od 0xE000 do 0xF8FF (czyli 6400 pozycji w BMP) oraz od 0xF0000 do 0x10FFFF (czyli 131072 pozycji na końcu przestrzeni kodowej Unicode). Microsoft i Apple pomog³y sobie same (przyjmuj¹c wzajemnie sprzeczne rozwi¹zania), usywaj¹c czźci prywatnej przestrzeni w BMP. Problemy z zestawem Han mosna takse rozwi¹zaę zgodnie ze standardem Unicode wprowadzaj¹c znaczniki jźzykowe zdefiniowane w samym standardzie lub na wysszym poziomie w jźzykach znaczników, takich jak SGML lub XML.

Jeseli wiadomo, se dana aplikacja bździe usywana tylko we w³asnym rodowisku, to mosna w niej na sta³e zakodowaę prywatny zestaw znaków w prywatnej przestrzeni BMP. Jako przyk³ad takiego rozwi¹zania mosna podaę Klingon w j¹drze Linuksa. Jeli jednak mosna siź spodziewaę, se usytkownicy zechc¹ dodawaę w³asne znaki (tak jak Japończycy) do usytku firmowego lub prywatnego albo se aplikacja ma byę przenoszona do innych rodowisk, w których dostawcy tacy jak Microsoft jus zaw³aszczyli znaczn¹ czźę prywatnej przestrzeni standardu, to nalesy zapewnię dynamiczny przydzia³ tej przestrzeni i przekazywanie prywatnego zestawu znaków miźdzy egzemplarzami aplikacji.

Co to umosliwia

Poniewas kasdy znak ma przyporz¹dkowany jednoznaczny kod w standardzie Unicode, wybór tego standardu jest oczywisty dla wewnźtrznej reprezentacji znaków. Dopóki tekst w reprezentacji zewnźtrznej dostarczanej na wejciu aplikacji jest po prostu t³umaczony na Unicode i odwrotnie przy dostarczaniu go do wyjcia, to nie trzeba siź obawiaę o zak³ócenia danych. Takie dzia³anie wynika z podstawowych za³oseń przyjźtych dla zastosowań zestawu znaków w standardzie Unicode.

U³atwia to równies sprawdzanie, czy znaki s¹ obs³ugiwane przez dany krój pisma lub inne w³aciwoci funkcjonalne. Poniewas kodowanie jest standardowe, krój pisma wymaga tylko podania listy dostźpnych w nim znaków.

Standard Unicode umosliwia takse zdefiniowanie standardowych bibliotek obs³uguj¹cych w³aciwoci znaków, czyli ich typ (litera, cyfra itp.) oraz kierunek czytania (np. znaki alfabetu hebrajskiego s¹ czytane od prawej do lewej). Wynika to z tego, se kasdy znak ma unikatowy kod identyfikuj¹cy. Nawet wówczas, gdy podstawowych algorytmów standardu nie mosna traktowaę jako optymalnych, to umosliwiaj¹ one wyjcie z sytuacji awaryjnych i z dusym prawdopodobieństwem mosna je znaleę w bibliotekach i zestawach programów pomocniczych. Przyk³adami mog¹ byę strumienie w jźzyku Java i klasy Unicode dla jźzyka C++ opracowane przez IBM.

Unicode umosliwia wiźc przede wszystkim rozszerzenie standardowych w³aciwoci napisów w jźzyku C o obs³ugź wszystkich narodowych skryptów, a takse rozszerzenie rodzajów napisów i sposobów manipulacji znakami dziźki mosliwoci przeniesienia tych w³aciwoci do standardowych bibliotek. Jest to znaczny postźp w stosunku do stanu istniej¹cego dotychczas.

i czego nie umosliwia

Przede wszystkim, co podkreli³ Hideki Hiura (g³ówny twórca protoko³ów XIM i IIIMF obs³uguj¹cych wprowadzanie danych typu I18N przez usytkownika), Unicode rozwi¹zuje problemy wystźpuj¹ce w skryptach (czyli zbiorach znaków), ale te i tak nales¹ do grupy problemów jźzykowych, które naj³atwiej mosna rozwi¹zaę. Istnieje jeszcze wiele innych problemów:

Oto kilka przyk³adów:

q T³umaczenie

Nawet wówczas, gdy usytkownik dysponuje systemem umosliwiaj¹cym wywietlanie komunikatów o b³źdach aplikacji w jźzyku japońskim, nie oznacza to, se takie komunikaty bźd¹ wywietlane! Oryginalne komunikaty o b³źdach trzeba przet³umaczyę.

q Formatowanie tekstu

Standard Unicode nie gwarantuje poprawnego formatowania tekstu i dlatego np. Amerykanie i Brytyjczycy usywaj¹cy tego samego zestawu znaków ASCII, ale innego formatowania, bźd¹ rósnie interpretowali niektóre powszechnie stosowane skróty. Unicode w pewnym sensie utrudnia nawet formatowanie, poniewas w aplikacjach nie mosna odnosię siź do zestawu znaków jako wskazówki na temat formatowania.

q Wybór rodzaju pisma

Chińskie, japońskie i koreańskie skrypty licz¹ tysi¹ce znaków, ale rósni¹ siź nie tylko preferowanymi stylami. Faktyczne graficzne kszta³ty znaków mog¹ siź istotnie rósnię dla danego znaku w tych jźzykach. Oznacza to, se kieruj¹c siź danymi historycznymi, mosna przeledzię ewolucjź kszta³tów znaków w kasdej z tych kultur, pokazuj¹c niezalesne nurty standaryzacji i upraszczania. Wszystkie znaki z tych alfabetów wywodz¹ siź jednak z Chin i powsta³y setki lat temu. Istniej¹ wiźc obiektywne kryteria okrelania, czy dane glify reprezentuj¹ ten sam znak, niezalesnie od rósnic w jego kszta³tach. Poniewas znak jest ten sam, to i jego kod w standardzie Unicode bździe ten sam.

q Uk³ad elementów interfejsu graficznego

Wiźkszoę usywanych w Japonii interfejsów graficznych prezentuje teksty w kierunku od lewej do prawej, ale pozostawia siź tes mosliwoę usywania historycznego zapisu z góry na dó³, oddaj¹c w ten sposób przywi¹zanie Japończyków do formy. Oprócz tego wielu japońskich projektantów interfejsów graficznych bździe umieszczaę elementy interfejsu odmiennie nis projektanci amerykańscy. Æadne urz¹dzenie obs³uguj¹ce czysty tekst nie bździe w stanie obs³usyę takich wymagań.

Problem kodowania znaków

Niezalesnie od wprowadzenia standardu Unicode jednym z problemów spotykanych przez programistów staraj¹cych siź udostźpnię swoje oprogramowanie na rynku miźdzynarodowym jest wielka liczba usywanych zestawów kodowych. Nie jest tak, se w jednym jźzyku usywa siź jednego kodowania znaków — wiźkszoę dopuszcza kilka takich kodowań. Japońscy usytkownicy Linuksa musz¹ siź borykaę z trzema rósnymi systemami kodowania. Kodowanie EUC-JP jest standardem stosowanym w systemie UNIX ze wzglźdu na zwartoę i oszczźdnoę miejsca w systemie plików. Na platformach firm Microsoft i Apple stosowane jest kodowanie JIS z modyfikacj¹. Kodowanie ISO-2022-JP jest nieco bardziej rozwlek³e, ale obowi¹zkowo musi byę stosowane w internetowej poczcie i grupach dyskusyjnych. Do tych trzech tradycyjnie stosowanych kodów zostanie wkrótce dodany standard Unicode. Nie zast¹pi on ich, poniewas tradycyjne kodowanie pozostanie w otrzymanych w spadku bazach danych i bździe usywane przez dotychczas stosowane oprogramowanie. Prawd¹ jest, se usytkownik mose czźsto rozrósnię poszczególne kody dziźki znajomoci ich pochodzenia, ale programy raczej nie potrafi¹ tego robię.

Inny problem stwarza to, se rósne kodowania usywaj¹ jako kodów tego samego ci¹gu bitów. Zarówno EBCDIC, jak i ASCII usywaj¹ kodów z zakresu od 0x00 do 0x7F do kodowania jźzyka angielskiego, ale te obydwa rodzaje kodów jednak siź rósni¹. Kodowania dla innych jźzyków, np. kodowania ISO dla greki i cyrylicy takse siź pokrywaj¹. W obydwóch usywa siź oktetów z zakresu od 0x00 do 0x7F do zakodowania znaków z zestawu ASCII, w kodowaniu ISO dla greki stosuje siź zakres od 0xA0 do 0xFF do zakodowania znaków alfabetu greckiego, a w kodowaniu dla cyrylicy ten sam zakres usywany jest do zakodowania znaków cyrylicy. Automatyczne okrelanie kodowania odniesione do strumienia znaków mose wiźc byę ryzykowne i nawet najlepsze rozwi¹zanie bździe zaleseę od usytkownika i procesów generuj¹cych strumień danych. To, czy takie heurystyczne podejcie bździe mosna bezpiecznie stosowaę, zalesy od rodzaju aplikacji.

ISO2022: Techniki poszerzania zakodowanych zestawów znaków

Standard Unicode jest oczywistym rozwi¹zaniem jako uniwersalny zestaw znaków. W latach szeędziesi¹tych i siedemdziesi¹tych, gdy pojawi³y siź te problemy, bardzo wasne by³o stosowanie rozwi¹zań oszczźdzaj¹cych miejsce, za wielojźzyczne kana³y komunikacyjne stanowi³y rzadkoę. Istnia³o takse utrudnienie o charakterze politycznym: jasne by³o, se podstawowy alfabet ³aciński zawieraj¹cy 52 litery i 10 cyfr, odpowiedni¹ liczbź znaków interpunkcyjnych i dodatkowo kilkanacie akcentowanych liter ³acińskich nie móg³ wspó³istnieę z alfabetem greckim, cyrylic¹ oraz hebrajskim i arabskim w ramach dostźpnych 256 znaków. Któs chcia³by siź wówczas zgodzię na wielobajtow¹ reprezentacjź swojego alfabetu?

Wprowadzono wówczas rozwi¹zanie problemu pokrywania siź przestrzeni kodowych polegaj¹ce na w³¹czeniu do strumienia danych sygna³ów oznaczaj¹cych zmianź kodowania. Rozwi¹zanie to zyska³o swoj¹ normź ISO 2022. Usywa siź tutaj tzw. sekwencji prze³¹czaj¹cych dla oznaczania zestawów znaków, które pojawi¹ siź póniej w strumieniu danych, i ich przesuwania do bies¹cego „rejestru”. ISO 2022 definiuje wiźc systemy modalne: proces komunikacyjny powinien pamiźtaę bies¹cy tryb pracy (czyli kodowanie znaków), aby poprawnie interpretowaę strumień kodów tych znaków. Zestaw Unicode nie jest modalny, poniewas kody znaków z tego zestawu zawsze reprezentuj¹ te same znaki.

Norma ISO 2022 pozostaje wasna z dwóch powodów. Po pierwsze, stanowi ona podstawź dzia³ania wielu istniej¹cych do dzi aplikacji. Jako przyk³ad mosna podaę Mule (Multilingual Extension) dla systemu GNU Emacs, gdzie usywane jest kodowanie zgodne z ISO 2022. Po drugie, koniecznoę utrzymywania zgodnoci z t¹ norm¹ silnie wp³ynź³a na projektowanie standardów zestawów znaków. Przyk³adem mose byę to, se mimo mosliwoci przedstawienia 256 znaków w kodzie 8-bitowym, aplikacje zgodne z ISO 2022 mog¹ usywaę tylko 192 z nich do reprezentacji znaków drukowalnych.

Standard ISO 2022 ma jednak wiele wad:

q koniecznoę utrzymywania wewnźtrznego rejestru przechowuj¹cego znane kodowania znaków oraz sekwencji prze³¹czaj¹cych te zestawy,

q brak odpornoci kana³ów komunikacyjnych na zaburzenia w sekwencjach prze³¹czaj¹cych,

q mosliwoę powasnej awarii kana³u komunikacyjnego w przypadku napotkania na nieznan¹ sekwencjź prze³¹czaj¹c¹.

Np. program pocztowy VM (wykorzystuj¹cy GNU Emacs) w swojej domylnej konfiguracji nie zechce wywietlaę wiadomoci z kodowaniem Windows-1252. Argumentem przemawiaj¹cym za takim zachowaniem programu jest to, se nieznane kodowanie mose zawieraę dowolne znaki, które mog¹ byę potraktowane przez terminal jako sekwencje steruj¹ce. Autorowi wielokrotnie zdarzy³o siź zablokowaę okno DOS w Windows lub nawet xterm podczas próby wywietlenia japońskiego tekstu. Wiadomoci zakodowane za pomoc¹ Windows-1252 przesy³ane w poczcie elektronicznej zawieraj¹ jednak przewasnie kody znaków z zestawu US-ASCII, co jest zupe³nie bezpieczne. Z drugiej strony, w rodowisku wykorzystuj¹cym Unicode rzadko spotykane kody nie wystźpuj¹ce w zestawie ASCII po prostu nie zostan¹ wywietlone ze wzglźdu na brak odpowiednich glifów w danym kroju pisma. W pozosta³ych przypadkach wygl¹d ekranu bździe prawie idealny.

Pamiźtajmy o tym, se VM jest aplikacj¹ bardzo sprawn¹, która umosliwia usytkownikowi zarówno wywietlenie surowych kodów znaków, jak i utworzenie aliasów dla kodowania. Autor programu VM po prostu chcia³, aby sta³o siź jasne, se zastrzesone standardy tworzone wy³¹cznie po to, aby utrudnię osi¹gniźcie zgodnoci z programami firmy Microsoft, nie s¹ jego problemem — to usytkownik musi zadbaę o to, aby wywietlię poprawnie tekst zakodowany w taki sposób.

Pomimo tego, se ISO 2022 ma nadal swoich zwolenników, szczególnie wród potźpiaj¹cych Unicode, to wiźkszoę ekspertów zaprzesta³a usywania tego standardu. Mia³ on jednak przez 30 lat przemosny wp³yw na prace wdroseniowe z dziedziny I18N. Pierwsz¹ konsekwencj¹ tego faktu jest to, se standard X11 opisuj¹cy komunikacjź miźdzy klientami zawiera X Compound Text, czyli wersjź ISO 2022, jako kodowanie dla rodowiska miźdzynarodowego. Pakiet narzździowy Motif korzysta z podobnej techniki sk³adanych napisów, wykorzystuj¹c te same podstawy. Jeseli wyst¹pi potrzeba komunikowania siź ze starymi klientami korzystaj¹cymi z Xlib lub Motif, to zapewne trzeba bździe zapoznaę siź z takimi zagadnieniami, jak Compound Text i ISO 2022.

Oprócz tego, standard ISO 2022 usankcjonowa³ dwuznacznoę kodów i rozszerzanie kodowań oraz bardzo pomóg³ w unormowaniu kodowań narodowych, dlatego kroje pisma w X11 s¹ indeksowane ogólnie przez takie same zestawy znaków. Dziźki temu mosna uzyskaę zwartoę reprezentacji danego kroju pisma (czyli tabeli odwzorowuj¹cej kody znaków na ich rastrowe obrazy). Usytkownicy chc¹ jednak wywietlaę znaki z jednego kroju pisma ³¹cznie ze znakami z innego kroju. Na przyk³ad istnieje wiele krojów pisma typu Times Roman o bardzo wysokiej jakoci dla zestawu znaków ISO-8859-1 (czyli ASCII z do³¹czonymi kodami Latin-1), ale bardzo ma³o dla zestawu ISO-8859-2 (czyli ASCII z do³¹czonymi kodami Latin-2). Tylko zestaw znaków ASCII i kilka znaków akcentowanych s¹ wspólne dla obydwu kodowań. Usytkownik móg³by wiźc korzystaę z ISO-8859-1 tam, gdzie jest to mosliwe i przechodzię do krojów pisma o nisszej jakoci tam, gdzie jest to konieczne.

Jasne jest, se taki wieloetapowy proces odwzorowania by³by prostszy, gdyby istnia³ jaki standardowy kod poredni. Faktycznie jest nim w³anie Unicode. Obecnie standardowym rozwi¹zaniem usywanym przy odwzorowaniach krojów pisma o wysokiej jakoci jest tworzenie tych krojów ze zwartymi tabelami glifów (krzywych lub obrazów rastrowych, które mog¹ byę wywietlone na ekranie) i powi¹zanie ich z tabel¹ odwzorowuj¹c¹ Unicode na ograniczony zakres indeksów faktycznie wymaganych w znakach danego kroju. Mówi siź, se takie kroje maj¹ odwzorowanie CID (CID jest skrótem od „character ID”). Aplikacje nie musz¹ wówczas mieę sadnej informacji o faktycznym kodowaniu wewnźtrznym pisma danego kroju. Dziźki utworzeniu tabel odwzorowuj¹cych wszystkie inne kodowania na Unicode dany krój pisma mose byę usywany dla znaków o dowolnym kodowaniu, byle tylko w tym kroju znalaz³y siź odpowiednie glify. Ten system nie jest jednak uniwersalny. Jest on obecnie dostźpny jedynie dla X11 w ostatnio opracowanych serwerach zgodnych z TrueType, serwerach krojów pisma („fontów”) oraz w rozszerzeniach Display Postscript.

Programowanie z usyciem Unicode

Wiźkszoę podstawowych funkcji dotyczy konwersji kodów.

Jeli mosna kontrolowaę format plików usywanych przez aplikacjź, to mosna takse zastosowaę w nich standard Unicode. Jeseli jakie odziedziczone dane maj¹ postaę plików tekstowych, do ich konwersji na standard Unicode lub UTF-8 mosna usyę programu pomocniczego iconv(1). W wersji GNU tego programu dostźpna jest opcja --list umosliwiaj¹ca uzyskanie listy bies¹co stosowanych kodowań. Poniewas iconv w wersji GNU korzysta z konwersji przejciowej z kodu ród³owego na UCS-4, a potem z UCS-4 na kod docelowy, nie ma potrzeby podawania zestawień par kodów ród³owych i kodów docelowych. Jeseli dla danego kodowania s¹ dostźpne jakie przekszta³cenia, oznacza to, se bźd¹ dostźpne wszystkie. Niektóre przekszta³cenia s¹ „dostźpne” jako prowizorka, w tym sensie, se funkcja iconv(3) zwraca kod b³źdu, kończ¹c swoje dzia³anie, jeli przekszta³cany znak nie ma odpowiednika w kodowaniu docelowym.

Niestety, wydaje siź prawdopodobne, se w pewnym momencie dane wprowadzane przez usytkownika i dane wyjciowe bźd¹ wymaga³y konwersji znaków. Oprócz tego wiźkszoę odziedziczonych baz danych nie usywa formatu nadaj¹cego siź do przetworzenia bezporednio za pomoc¹ iconv(1). Oznacza to, se programista bździe musia³ dokonywaę wewnźtrznej konwersji na standard Unicode. Na szczźcie daje siź to prosto wykonaę za pomoc¹ funkcji icnov(3) z biblioteki libc w wersji GNU. Sposób usycia tej funkcji jest w normalnych zastosowaniach rutynowy:

Przydzielenie deskryptora konwersji za pomoc¹ iconv_open(3)

Sprawdzenie, czy przydzielenie deskryptora powiod³o siź. Jest to wasne, poniewas próba usycia w konwersji wartoci zwracanej w wypadku b³źdu spowoduje w niektórych systemach zak³ócenie segmentacji pamiźci.

Usycie deskryptora w wywo³aniu iconv(3) dla przekszta³cenia tekstu z bufora wejciowego i zachowania go w buforze wyjciowym. Deskryptor pozwala na wype³nianie bufora i przekszta³canie go w sposób asynchroniczny, poniewas zapamiźtuje stan konwersji.

Testowanie stanu konwersji.

Zwolnienie deskryptora konwersji za pomoc¹ wywo³ania iconv_close(3)

Ponisej podano klasyczny przyk³ad programu „hello, world”, zmienionego tak, aby komunikat korzysta³ ze standardu Unicode, ale by³ wywietlany jako strumień znaków ASCII. Trzeba pamiźtaę, se funkcja iconv nie mose korzystaę z w¹tków w tym sensie, se deskryptor konwersji zwracany przez iconv_open(3) mose byę usywany w sposób bezpieczny tylko w jednym w¹tku, poniewas zawiera w sobie stan zalesny od kontekstu. Znak mose byę np. czźciowo pobrany ze strumienia zewnźtrznego, za aplikacja mose mieę wiele otwartych deskryptorów konwersji. Powyssze ograniczenie pozwala jednemu w¹tkowi odczytywaę dane ze strumienia zewnźtrznego i przekszta³caę je na postaę wewnźtrzn¹, korzystaj¹c z jednego deskryptora konwersji, za inny w¹tek mose przekszta³caę przetworzony strumień wewnźtrzny na docelow¹ postaę zewnźtrzn¹ i wpisywaę go na wyjcie, korzystaj¹c z innego deskryptora. Takie dzia³anie strumieni jest w zupe³noci wystarczaj¹ce w wiźkszoci aplikacji.

Na pocz¹tku zajmiemy siź nag³ówkiem. Typy danych i prototypy funkcji iconv(3) s¹ zdefiniowane w <iconv.h>. Prototypy funkcji pomocniczych s¹ podane nisej:

hello_iconv.c

Pokazuje usycie funkcji iconv zgodnej z UNIX98

#include <iconv.h>

#include <stdio.h>

#include <errno.h>

#include <stdlib.h>

/* Prototypy zdefiniowanych funkcji */

void u2a (char *a_string, const unsigned short *u_string);

char *dotted (char *s, int n);

void usage ();

Bufor wejciowy jest inicjowany w³anie w tym miejscu. Dane wygl¹daj¹ znajomo, chocias s¹ nieco dziwnie sformatowane.

W standardzie Unicode stwierdza siź, se zalecany jest format danych z bajtem bardziej znacz¹cym umieszczanym na pocz¹tku (tzw. big-endian), chocias dozwolony jest takse porz¹dek odwrotny (czyli tzw. little-endian). Standard Unicode jest w rzeczywistoci odwzorowaniem znaków na liczby ca³kowite, a wiźc porz¹dek bajtów ma znaczenie tylko w zewnźtrznych strumieniach danych. Standard definiuje takse formaty przekszta³ceń (UTF), które w istocie oznaczaj¹ rósne sposoby kodowania liczb ca³kowitych z przedzia³u od 0 do 17*2¹⁶-1.

Nie usywamy tu typu wchar_t, poniewas nie wiemy, czy opisuje on dane 16-bitowe. Faktycznie w systemach GNU jest to typ 32-bitowy. Mose on jednak byę nawet 8-bitowy, bowiem przypuszczenie, se typ short jest 16-bitowy, wynika jedynie z tradycji. Bardziej poprawne by³oby usycie typu uint16_t zdefiniowanego przez ISO C 9X.

Inicjacja bufora wyjciowego jest zbźdna, ale usyto jej tutaj dla podkrelenia, se ostatni element tablicy jest faktycznie strasnikiem dbaj¹cym o to, aby poprawnie dzia³a³y funkcje napisów z jźzyka C.

unsigned short unicode_string[15] =

/* bufor wyjciowy */

char c_string[15] =

Funkcja u2a realizuje interesuj¹ce zadanie. Sprawdzanie stanu zawsze jest dobrym pomys³em, ale dla I18N trzeba obs³usyę nie tylko wiele na ogó³ niepewnych róde³ — czyli usytkowników i strumienie przychodz¹ce z sieci — tu o formacie strumienia wejciowego mosna powiedzieę tylko to, se jest to surowy strumień bajtów. Tekst w standardzie Unicode bźd¹cy strumieniem bajtów bździe wiźc zawiera³ znaki ASCII, takie jak NUL LF ESC czy DEL

Zwróęmy uwagź na to, se skoro funkcja iconv(3) pos³uguje siź znakami, których kody maj¹ d³ugoę 1, 2 lub 4 bajty albo s¹ kodami wielobajtowymi (o zmiennym rozmiarze), to bufory nalesy obs³ugiwaę jak tablice bajtowe.

void u2a (char *to_c, const unsigned short *from_unicode)

Wykonujemy konwersjź, sprawdzamy status i sygnalizujemy b³źdy:

switch (status = iconv (cd, &unicode_buffer, &u_count, &to_c, &c_count))

printf ('n');

W zalesnoci od przydzia³u pamiźci i reprezentacji napisu

mose byę potrzebny ogranicznik tego napisu.

B³źdy E2BIG i EINVAL zazwyczaj nie s¹ b³źdami krytycznymi; status CD

umosliwiaj¹cy wznowienie konwersji po ostatnim udanym przekszta³ceniu

znaku nie daje oczywistej odpowiedzi jak tu go usyę, oszukamy go.

*to_c = '0';

break;

default:

W zalesnoci od przydzia³u pamiźci i reprezentacji napisu

mose byę potrzebny ogranicznik tego napisu.

Najprawdopodobniej jest to najlepsza rzecz, jak¹ mosemy tu zrobię.

*to_c = '0';

printf ('%d characters irreveribly convertedn', status);

i z³ota gwiazda za oczyszczenie: struktura danych cd mose

zawieraę ca³kiem duse tabele, wiźc to mose prowadzię do istotnych

wycieków pamiźci

iconv_close (cd);

Teraz nastźpuje prosty sterownik, czyli program pomocniczy powoduj¹cy uwidocznienie bajtów o wartociach NULL w postaci kropek, oraz funkcja usage

Program sterownika, który obs³uguje wiele wariantów wywietlania

unikodowych napisów na terminalu; aby usyę - patrz usage().

int main (int argc, char *argv[])

switch (argv[1][0])

exit (EXIT_SUCCESS);

Niewielka procedura zastźpuj¹ca kropkami wszystkie bajty NULL w napisie.

char 8dotted (char *s, int n)

Z czystego przymusu

void usage (char *s)

n', s);

printf ('1 - printf converted C stringn');

printf ('2 - printf Unicode string with dots replacing null bytesn');

printf ('3 - printf raw Unicode stringn');

printf ('4 - printf converted C string with dots replacing null

bytesn');

/* end hello_iconv.c */

Oto krótka sesja tego programu w okienku xterm

$ gcc -Wall -g -o test hello_iconv.c

$ ./test

usage: ./test

1 - printf converted C string

2 - printf Unicode string with dots replacing null bytes

3 - printf raw Unicode string

4 - printf converted C string with dots replacing null bytes

$ ./test 1

hello, world

$ ./test 2

h.e.l.l.o.,. .w.o.r.l.d.

.$ ./test 3

h$ ./test 4

hello, world

Po porównaniu wyników wywo³ań ./test 2 i ./test 3 staje siź jasne, se nie mosna stosowaę zwyk³ych funkcji do przetwarzania napisów zawieraj¹cych kody wielobajtowe. Poniewas znaki ASCII maj¹ takie same ca³kowitoliczbowe wartoci kodów w Unicode, lecz s¹ reprezentowane przez liczby typu short, to na maszynie pos³uguj¹cej siź porz¹dkiem bajtów „little-endian” na wyjciu pojawia siź tylko „h”, po czym funkcja printf napotyka na starszy bajt o wartoci NUL i kończy dzia³anie. Na maszynie pos³uguj¹cej siź porz¹dkiem bajtów „big-endian” bajt o wartoci NUL wystźpuje jako pierwszy i na wyjciu przy wywo³aniu ./test 3 nic siź nie pojawi.

Gdyby zosta³a dodana dodatkowa funkcja wywietlaj¹ca napisy Unicode, to na wyjciu móg³by siź pojawię ca³y napis w postaci ci¹gu 16-bitowych znaków. Funkcja ta nie jest w³¹czona do tego przyk³adowego kodu, poniewas wynik jej dzia³ania zalesy od konkretnej konfiguracji emulatora terminala i móg³by powodowaę jego zawieszanie.

Pomimo tego, se omawiany program wytwarza tylko dane wyjciowe, to pobieranie danych z wejcia i wewnźtrzna konwersja na standard Unicode s¹ równie proste. Wasn¹ rzecz¹ do zapamiźtania jest to, se interfejs iconv_open(3) korzysta z nazw kodów w postaci napisów ASCII. Wprowadzono to z dwóch powodów. Po pierwsze, mosna wówczas zdefiniowaę modu³ obs³uguj¹cy nowy rodzaj konwersji i ³adowaę go dynamicznie. Zastosowanie makrodefinicji (lub typów wyliczeniowych) w definicjach identyfikatorów kodów mog³oby utrudnię praktyczne zastosowanie modu³ów tego rodzaju. Po drugie, oznacza to, se nazwa kodu mose byę przekazana bezporednio przez usytkownika do funkcji iconv_open. Bardzo zabawna mog³aby byę taka modyfikacja programu hello_iconv.c, aby pobiera³ on rodzaj kodowania z wiersza poleceń. Poniewas nazwy s¹ zgodne z ASCII, to konwersja na EUC-* i UTF-8 jest bezpieczna, chocias doę k³opotliwa. Kodowanie EBCDIC-US na maszynie autora nie powoduje szkód w programie xterm, ale trzeba pamiźtaę o mosliwoci zmiany trybu pracy terminala lub mosliwoci jego zawieszenia.

Uwaga końcowa: program nie korzysta z sadnej funkcji umiejscawiaj¹cej (ang. locale function). Nie jest to wcale pomy³ka, poniewas nawet dla zmodyfikowanej wersji przyk³adowego programu, zaleconej dla ęwiczeń (czyli programie pobieraj¹cym kodowanie docelowe z wiersza poleceń) usycie takich funkcji mog³oby daę niepewne wyniki i byę skomplikowane. Nie istnieje bowiem saden standardowy sposób okrelania zestawu znaków na podstawie napisu w danym jźzyku, który zazwyczaj jest aliasem. Mosna zapoznaę siź z niektórymi informacjami pomocniczymi na temat plików korzystaj¹cych z aliasów dostźpnych w bibliotece GNU libc oraz X11R6. S¹ one zawarte odpowiednio w plikach /usr/share/locale/locale.alias oraz /usr/X11R6/lib/locale/locale.alias. Pliki te nie s¹ jednak unormowane i brak jest standardowych funkcji, które mog³yby byę zastosowane do ich przetwarzania. Aplikacja po prostu musi dysponowaę w³asnym sposobem wykrywania (mosliwe, se na podstawie plików locale.alias) i jeli wydaje siź to ryzykowne z powodu mosliwoci pope³nienia pomy³ki w kodowaniu, to trzeba usytkownikowi udokumentowaę potrzebź zastosowania napisów w pe³ni zdefiniowanych w jźzyku lokalnym. W niezbyt odleg³ej przysz³oci ten najtrudniejszy problem (okrelanie kodowania w danych wprowadzanych i odbieranych przez usytkownika) powinien znikn¹ę dziźki uniwersalnemu stosowaniu formatu UTF-8 w strumieniach tekstowych. Pozosta³e zastosowania funkcji usywanych do konwersji ogranicz¹ siź do przekszta³ceń formatów Unicode zalesnych od wymagań aplikacji oraz przekszta³ceń odziedziczonych baz danych. To ostatnie zastosowanie powinno jednak prawie siź nie zmieniaę!

Modele I18N i rodowisko systemowe

Modele I18N zasadniczo polegaj¹ na ustawieniu standardów w definicjach bibliotek usywanych przy tworzeniu programów, które s¹ przeznaczone na rynek miźdzynarodowy, oraz funkcjonalnoci kasdego modu³u w takich bibliotekach. Wasne jest, aby programista tworz¹cy aplikacjź by³ zaznajomiony z rósnymi modelami i zakresem ich zastosowań. Dziźki temu okrelenie rodzaju internacjonalizacji staje siź stosunkowo prostym zadaniem. Programici tworz¹cy aplikacje powinni takse ostrosnie podchodzię do tych modeli, poniewas pomagaj¹ one wybraę nie tylko zasoby dostźpne dla programisty i wymagane dla osi¹gniźcia rósnego rodzaju funkcjonalnoci, ale takse np. zasoby potrzebne przy t³umaczeniach oraz oprogramowanie stowarzyszone, jak serwery obs³uguj¹ce wprowadzanie danych wejciowych.

Model umiejscowienia POSIX

Techniczny opis tego, co rozumiemy jako rodowisko kulturowe, nazywany jest umiejscowieniem (ang. locale). Umiejscowienie jest zbiorem wartoci takich parametrów jak jźzyk, region, zestaw znaków, kodowanie, format daty, format waluty itd. Mosna dyskutowaę, co naprawdź jest potrzebne, aby w sposób zwarty opisaę umiejscowienie, ale standard POSIX podaje podstawowe definicje, czyli model umiejscowienia POSIX (ang. POSIX locale model Podstawowe za³osenia tego modelu s¹ nastźpuj¹ce:

Najwasniejsze charakterystyki tekstu s¹ okrelane na podstawie rodzimego jźzyka, którym pos³uguje siź usytkownik. Dozwolone s¹ odmiany regionalne (np. rósnice w pisowni amerykańskiej okrelanej skrótem „en_US” i brytyjskiej „en_GB”). Z powodów historycznych kodowanie zestawu znaków (np. ASCII odniesione do Unicode) stanowi czźę opisu jźzyka i regionu. Zauwasmy jednak, se sama znajomoę jźzyka nie wystarcza do okrelenia kodowania. W wiźkszoci jźzyków europejskich usywa siź co najmniej trzech rodzajów kodowania: 7-bitowej odmiany ASCII, 8-bitowego wariantu ISO-8859 i Unicode. Dozwolone jest stosowanie niezalesnego od aplikacji modyfikatora, ale nie jest on zupe³nie opisany w modelu.

Usytkownicy pos³uguj¹ siź aplikacjami, dla których standardowe umiejscowienia s¹ po czźci nieodpowiednie, czyli wymagana jest mosliwoę ponownego zdefiniowania niektórych kategorii w tych umiejscowieniach.

Ponowne definicje mosna uzyskaę, stosuj¹c mieszaninź kilku umiejscowień.

Pe³na specyfikacja modelu umiejscowienia POSIX jest okrelana za pomoc¹ nazwy, np. en_US.iso646-irv@unused, w której poszczególne cz³ony maj¹ nastźpuj¹ce znaczenie:

q Cz³on „en” oznacza jźzyk angielski. S¹ tu stosowane dwuliterowe oznaczenia wziźte ze standardu ISO 639.

q Cz³on „US” oznacza Stany Zjednoczone, czyli region. Kod regionu jest takse kodem dwuliterowym wziźtym ze standardu ISO 3166.

q Cz³on „iso646-irv” oznacza wersjź ISO standardu ASCII i rósni siź od US ASCII tylko nazw¹. W czasach systemów 7-bitowych zdefiniowano wiele narodowych wariantów ASCII, za ISO 646 próbuje je unormowaę. Oznaczenie „irv” jest skrótem s³ów „international reference version”.

q Cz³on „unused” oznacza tylko miejsce do wykorzystania i faktycznie nalesa³oby go pomin¹ę. Jego funkcja ca³kowicie zalesy od aplikacji. W bibliotece glibc oraz w ca³ym systemie Linux cz³on ten nie jest usywany.

Jedynym wymaganym cz³onem przy okrelaniu umiejscowienia jest definicja jźzyka. Pozosta³e trzy czźci mosna pomin¹ę, ³¹cznie z prefiksem. System powinien wybieraę odpowiedni¹ wartoę domyln¹, a wiźc w USA wartoę „en” powinna oznaczaę to samo, co „en_US.iso646-irv”, za w Wielkiej Brytanii powinna byę interpretowana jako „en_GB.iso8859-15”. Oprócz tego w wiźkszoci systemów zgodnych ze standardem POSIX istniej¹ aliasy dla umiejscowienia. W systemie Linux lista tych aliasów znajduje siź w pliku /usr/share/locale/locale.alias. Po³osenie i nazwa tego pliku zalesy w znacznym stopniu od usywanego systemu.

Pierwsze za³osenie — se rodzimy jźzyk usytkownika okrela wiźkszoę w³aciwoci umiejscowienia — powoduje faktycznie problemy, szczególnie w programach wielojźzycznych, poniewas doprowadzi³o do zdefiniowania umiejscowienia jako globalnej w³aciwoci procesu. Oznacza to, se obs³uga wielu jźzyków wymaga zmian umiejscowienia, co jest operacj¹ wyj¹tkowo kosztown¹. W szczególnoci wielojźzyczna aplikacja musi prawdopodobnie obs³ugiwaę jednoczenie rósne kodowania. Takie dzia³anie nie zachowuje w¹tku. Za³osenie to bździe z³agodzone w przysz³ych wersjach biblioteki glibc dziźki temu, se zostanie wprowadzony niestandardowy parametr kontekstowy dla rozszerzonego zestawu funkcji umiejscawiaj¹cych. Nie ma jednak pewnoci, czy takie rozwi¹zane planowane w glibc (mimo swojej logiki) zostanie zaakceptowane jako standard miźdzynarodowy. Programici martwi¹cy siź o przenonoę kodów na platformy nie korzystaj¹ce z glibc musz¹ o tym pamiźtaę.

Trzecie za³osenie dotyczy konwencji nazewniczej, a wiźc u³atwia tworzenie nowych umiejscowień i wyprowadzanie ich z umiejscowień zdefiniowanych wczeniej.

Jedn¹ z prób rozwi¹zań problemów zwi¹zanych z I18N jest czźciowe ich obejcie za pomoc¹ architektury klient-serwer. Pomys³ polega na tym, se serwer bździe obs³ugiwa³ teksty przechowywane w bazie danych w postaci obiektów binarnych, a klient mose je formatowaę. Internacjonalizacja serwera bździe wiźc wp³ywaę na wspó³pracź z operatorem. Oddzia³ywanie na bazź danych i klienty bździe „internacjonalizowane” za pomoc¹ prze³¹czania danych zwracanych przez zapytanie, w którym wykorzystuje siź umiejscowienie klienta. Czźsto musi to byę zrobione w jaki sposób: jeseli np. oddzia³ firmy zlokalizowany w San Diego bździe wprowadza³ ceny w dolarach, a oddzia³ zlokalizowany w Tijuana bździe usywa³ cen w pesos. Obejcie to mosna wiźc stosowaę g³ównie do tekstów.

Przy takim rozwi¹zaniu pojawia siź problem, gdy porz¹dek zwracanych wpisów tekstowych ma znaczenie. Poniewas sposób tworzenia zestawień zalesy od umiejscowienia, to serwer bazy danych powinien umosliwiaę prze³¹czanie umiejscowień. Istniej¹ dwa sposoby obejcia tego problemu: uruchomienie egzemplarza bazy danych oddzielnie dla kasdego umiejscowienia albo sortowanie danych przez klienta. Pierwszy sposób mose byę zbyt kosztowny w sensie zasobów serwera, za drugi w sensie wymaganej przepustowoci kana³u komunikacyjnego. Takie podejcie uniemosliwia zastosowanie rósnych w³aciwoci bazy danych, np. kursorów. Okazuje siź wiźc, se I18N mose mieę wp³yw na wybór architektury systemu.

Umiejscowienie POSIX jest, jak jus wspomniano, zmienn¹ wewnźtrzn¹ o zasiźgu globalnym dla procesu. W bibliotece glibc zosta³o to wprowadzone w postaci dynamicznych zmian funkcji wewnźtrznych wywo³ywanych przez standardowe procedury sortowania, funkcje klasyfikuj¹ce i funkcje obs³uguj¹ce wejciowe i wyjciowe strumienie danych. Z tego powodu zmiana umiejscowienia jest operacj¹ bardzo kosztown¹.

Kategorie dzia³ań modyfikowane przez umiejscowienie s¹ nazywane „atomami”. Kasdy taki atom jest wprowadzany jako zmienna rodowiskowa oraz jako makrodefinicja (lub, jeli jest to mosliwe, jako sta³a wyliczeniowa) w programach pisanych w jźzyku C (patrz <locale.h>). Atom zawieraj¹cy format daty i czasu nazywa siź LC_TIME. Usytkownik chc¹cy usyę konwencji formatowania daty i czasu stosowanej w amerykańskiej odmianie jźzyka angielskiego powinien ustawię dla swojego rodowiska wartoę zmiennej LC_TIME=en_US. Programista chc¹cy na sta³e zakodowaę tź konwencjź w programie powinien wywo³aę setlocale(LC_TIME,'en_US')

W standardzie POSIX istniej¹ dwie zmienne, które nie okrelaj¹ specyficznego dzia³ania. S¹ to LANG i LC_ALL. Wartoę zmiennej LANG jest usywana jako wartoę domylna dla kasdej kategorii, jeli ani nie zosta³a okrelona jedna specyficzna zmienna, ani nie zdefiniowano zmiennej LC_ALL. Wartoę LANG jest przewasnie definiowana w skrypcie konfiguracyjnym pow³oki (np. ~/.bash_login). Zmienna LC_ALL zastźpuje wszystkie wartoci ustawione dla wszystkich specyficznych kategorii i zazwyczaj usywa siź jej do wymuszenia ustalonej wartoci umiejscowienia.

W standardzie POSIX zdefiniowano podane nisej kategorie, ale nie zabrania siź wprowadzania dodatkowych kategorii (dlatego w³anie wynik dzia³ania LC_ALL nie mose byę osi¹gniźty przez ustawienia zmiennych osobno dla poszczególnych kategorii, chyba se znany jest z góry system, w którym bździe uruchamiany dany program).

Zestawienia

Kategoria ta okrela porz¹dek znaków w danym kodowaniu. Mose ona takse obs³ugiwaę znaki sk³adane, takie jak np. ligatury Ch oraz Ll w tradycyjnym jźzyku hiszpańskim (we wspó³czesnym jźzyku hiszpańskim zabroniono wprawdzie specjalnego traktowania tych par znaków, ale w jźzyku tajskim i hindi sk³adanie znaków jest obowi¹zkowe). S¹ jźzyki, w których trzeba dzielię jeden znak na kilka innych, jak np. „ostre S” w jźzyku niemieckim traktowane jako „SS”. Rósne jźzyki traktuj¹ takse w rósny sposób akcenty. W niektórych litera akcentowana jest przy sortowaniu równowasna literze podstawowej, chyba se akcent jest jedynym sposobem przerwania powi¹zania. W innych jźzykach znaki akcentowane s¹ traktowane jako znaki autonomiczne, a nie jako warianty znaków podstawowych. Wszystko to wp³ywa na wyniki sortowania i algorytmy przeszukiwania, a takse okrela sposób interpretacji wyraseń podaj¹cych zakres oraz klasy znaków w bibliotece obs³uguj¹cej wyrasenia regularne. Ta kategoria jest reprezentowana przez LC_COLLATE

Typy znaków

Kategoria dotycz¹ca typów znaków okrela definicje klas tych znaków (np. wielkie i ma³e litery, cyfry dziesiźtne i szesnastkowe, znaki interpunkcyjne itp.). Wp³ywa ona na klasy znaków w bibliotece obs³uguj¹cej wyrasenia regularne, standardowe funkcje klasyfikacyjne i makropolecenia, przekszta³cenia wielkoci liter oraz obs³ugź kodowań o szerokoci znakowej. Ta kategoria jest reprezentowana przez atom LC_CTYPE

Komunikaty

Kategoria komunikatów okrela jźzyk usywany w daj¹cych siź umiejscowię komunikatach w jźzyku naturalnym. Okrelenie „daj¹cy siź umiejscowię” nie jest w standardzie POSIX precyzyjnie wyt³umaczone, z wyj¹tkiem tego, se musz¹ byę okrelone równowasniki dla „yes” i „no” (istniej¹ bowiem jźzyki, w których „y” jest pierwsz¹ liter¹ s³owa oznaczaj¹cego zaprzeczenie, a „n” jest pierwsz¹ liter¹ s³owa oznaczaj¹cego potwierdzenie). Komunikaty stanowi¹ faktycznie doę k³opotliwy problem. W tych sytuacjach, gdy komunikat jest parametryzowany, porz¹dek argumentów dla funkcji podobnych do printf mose siź zmieniaę w zalesnoci od jźzyka. Ta kategoria jest reprezentowana przez LC_MESSAGES

Waluta

Kategoria ta wp³ywa na formatowanie wyjciowe wartoci pieniźsnych. Obejmuje ona odpowiedni symbol waluty i czasem wariant formatowania liczb. Jest reprezentowana przez atom LC_MONETARY

Liczby

Kategoria ta dotyczy wyjciowego formatowania liczb, ³¹cznie ze znakiem usywanym jako separator u³amka dziesiźtnego (typowo jest to kropka lub przecinek) i znakiem usywanym przy grupowaniu cyfr (jeli jest stosowane). Reprezentuje j¹ atom LC_NUMERIC

Czas

Ta kategoria wp³ywa na wyjciowe formatowanie daty i czasu. Reprezentuje j¹ atom LC_TIME

Zauwasmy, se model POSIX nie pomaga w obs³udze wejcia. Wszystkie kategorie umiejscowienia dotycz¹ przetwarzania danych na wyjcia lub przetwarzania wewnźtrznego, z wyj¹tkiem kategorii LC_MESSAGES. Jednak nawet dla tej kategorii zdefiniowano tylko odpowiedzi „tak” lub „nie”.

Model POSIX jest bardzo przydatny dla programistów, poniewas zgodna z nim implementacja zawiera:

q funkcje inicjuj¹ce, które ustawiaj¹ bibliotekź zapewniaj¹c¹ odpowiednie dzia³anie programu zgodne ze specyfikacj¹ wymagan¹ przez usytkownika oraz dostarczaj¹ w standardowy sposób informacje na temat preferencji usytkownika,

q charakterystyczne elementy o okrelonych w³aciwociach funkcjonalnych (sortowanie, klasyfikowanie i formatowanie strumienia wyjciowego),

q bibliotekź wstźpnie zdefiniowanych ustawień umiejscawiaj¹cych,

q sposoby definiowania nowych umiejscowień bez potrzeby przebudowywania biblioteki funkcji.

W przypadku funkcji zdefiniowanych w modelu POSIX (zestawienia, wywietlanie znaków, formatowanie liczb, wartoci walutowych i czasowych oraz formatowanie dialogów „tak/nie”) programista nie musi robię niczego wiźcej oprócz wywo³ania odpowiedniej funkcji z biblioteki. W niektórych okolicznociach standardowe funkcje jźzyka C s¹ „umiźdzynarodowione” w sposób niezauwasalny przez programistź, za w innych musi on usyę specjalizowanej funkcji obs³uguj¹cej ustawienia miźdzynarodowe. Definicje wiźkszoci umiejscowień s¹ jus dostźpne w bibliotece. W sytuacjach, gdy takich wstźpnych definicji jeszcze tam nie ma lub nie s¹ one poprawne, mosliwoę tworzenia nowych umiejscowień bez przebudowy biblioteki oznacza, se praca ta mose byę przydzielona specjalistom jźzykowym. Wymagane tu jest tylko niewielkie przeszkolenie w zakresie pos³ugiwania siź jźzykiem programowania usywanym w definicjach. Definicje umiejscowień nie musz¹ byę tworzone przez programistów, którzy nawet nie zawsze potrafi¹ bardzo dobrze mówię w danym jźzyku (czego nalesa³oby oczekiwaę podczas tworzenia aplikacji przeznaczonych na rynek miźdzynarodowy dla rósnych rodowisk kulturowych).

Oprócz tego, w sytuacjach, gdy mosna usyę „globalnego umiejscowienia” w us³ugach bardziej zaawansowanych (np. takich jak metody wprowadzania danych lub opisane nisej zarz¹dzanie rozmieszczeniem elementów interfejsu) konfiguracja umiejscowienia zgodna ze standardem POSIX czźsto bywa usywana do okrelania preferencji usytkownika.

Przewodnik X/Open dotycz¹cy przenonoci (XPG)

Organizacja X/Open Group tworzy standardy przenonoci dla wielu dziedzin w systemach UNIX, a wiźc internacjonalizacja nie stanowi tu wyj¹tku. Unormowano w ten sposób trzy wasne rozszerzenia standardu umiejscawiania POSIX: funkcje obs³uguj¹ce znaki o kodach wielobajtowych (kody o zmiennej d³ugoci, np. UTF-8) i o kodach sta³ej d³ugoci (np. Unicode), ogólny system tworzenia t³umaczeń komunikatów wykorzystuj¹cy funkcjź biblioteczn¹ catgets(3) oraz podsystem iconv(3) s³us¹cy do konwersji kodowań znaków.

Funkcje obs³uguj¹ce znaki z kodami o zmiennej i o sta³ej d³ugoci dotycz¹ bardzo zaawansowanych zagadnień, które s¹ spotykane w specjalistycznych zastosowaniach (w szczególnoci dotyczy to aplikacji w pe³ni wielojźzycznych). S¹ one dobrze wyjanione (chocias w bardzo skrócony sposób) na stronach podrźcznika systemowego dotycz¹cych biblioteki libc w wersji GNU. Ich listź mosna uzyskaę w sposób nastźpuj¹cy:

$ man - k multibyte

oraz:

$ man -k 'wide character'

Ponissza tabela takse zawiera krótki opis tych funkcji. Widaę, se funkcje obs³uguj¹ce kody wielobajtowe s¹ przeznaczone g³ównie do konwersji zewnźtrznych strumieni danych, które zawieraj¹ kody o zmiennej d³ugoci na ich wewnźtrzny format o sta³ej d³ugoci kodu usywany przy przetwarzaniu. Funkcje obs³uguj¹ce znaki o kodach o ustalonej d³ugoci nie tylko wykonuj¹ operacje odwrotne, ale s¹ takse odpowiednikami wiźkszoci standardowych funkcji z bibliotek obs³uguj¹cych wejcia i wyjcia oraz napisy.

Mbstowcs(3)	Przekszta³ca napis ze znakami o kodach wielobajtowych na napis z kodami o ustalonej d³ugoci
mbtowc(3)	Przekszta³ca znak o kodzie wielobajtowym na znak o kodzie z ustalon¹ d³ugoci¹
utf-8(7)	Wielobajtowe kodowanie Unicode zgodne z ASCII
Wcstombs(3)	Przekszta³ca napis ze znakami o kodach z ustalon¹ d³ugoci¹ na napis z kodami wielobajtowymi
wctomb(3)	Przekszta³ca znak o kodzie z ustalon¹ d³ugoci¹ na znak o kodzie wielobajtowym
Mbstowcs(3)	Przekszta³ca napis ze znakami o kodach wielobajtowych na napis z kodami o ustalonej d³ugoci
mbtowc(3)	Przekszta³ca znak o kodzie wielobajtowym na znak o kodzie z ustalon¹ d³ugoci¹
wcstombs(3)	Przekszta³ca napis ze znakami o kodach z ustalon¹ d³ugoci¹ na napis z kodami wielobajtowymi
wtcomb(3)	Przekszta³ca znak o kodzie z ustalon¹ d³ugoci¹ na znak o kodzie wielobajtowym

Modu³ catgets(3) jest dostźpny w bibliotece GNU libc, ale przy programowaniu w Linuksie jest on w zasadzie zastźpowany przez opisany nisej modu³ gettext(3). Modu³ catgets(3) móg³by byę przydatny przy przenoszeniu programu do alternatywnego rodowiska, albo gdy projekt nie mose zawieraę dodatków stosuj¹cych siź do licencji GPL.

Sam modu³ gettext jest prawdopodobnie dostźpny w wersji ród³owej biblioteki libc w wersji GNU i dlatego dotyczy go licencja LGPL. Pomocnicze programy i autonomiczna biblioteka libintl wytworzona na podstawie wersji ród³owej gettext s¹ jednak objźte licencj¹ GPL. Zgodnie z ustaleniami Free Software Foundation oznacza to, se kasdy program skonsolidowany z libintl musi byę rozpowszechniany zgodnie z zasadami licencji GPL. Sposób usycia catgets(3) jest bardzo podobny do usycia gettext(3), z wyj¹tkiem tego, se API jest mniej klarowny. Jest to dobrze udokumentowane na stronach podrźcznika systemowego GNU libc

W sk³ad podsystemu iconv(3) wchodz¹ funkcje usywane przy konwersji kodów w ramach tego samego zestawu znaków. Jest to nowoczenie zaprojektowany modu³ wykorzystuj¹cy powtórne wejcia i z dobr¹ obs³ug¹ wyj¹tków. Oznacza to, se zestawy znaków zgodne ze sob¹ nawet w niewielkim stopniu (np. ASCII i EBCDIC) mog¹ byę przekszta³cane na siebie nawzajem. Podsystem iconv(3) u³atwia takse tworzenie aplikacji, w których wymagana jest np. transliteracja (np. liter cyrylicy na kombinacje liter ³acińskich). Funkcje tego podsystemu zapewniaj¹ mosliwoę efektywnej konwersji zarówno na zestaw Unicode, jak i z tego zestawu na inny (a wiźc np. miźdzy Unicode i UTF-8). S¹ one stosowane g³ównie w celu zapewnienia zgodnoci z archiwalnymi plikami i przekszta³cania danych wprowadzanych przez usytkowników. Obecnie zaleca siź, aby pliki danych i dane tworzone przez usytkownika by³y przechowywane w kodowaniu Unicode lub UTF-8 (jeli rozmiary plików s¹ istotne, to mosna sprawdzię, se plik zawieraj¹cy dane w formacie Unicode i skompresowany za pomoc¹ ogólnie znanego algorytmu, np. gzip, bździe mia³ taki sam rozmiar, jak ten sam plik w formacie ASCII skompresowany za pomoc¹ takiego samego programu). Modu³ iconv u³atwia wykorzystanie Unicode lub UTF-8 do zewnźtrznej reprezentacji tekstu, niezalesnie do umiejscowienia.

Rozszerzenia GNU lib dla modeli POSIX i X/Open

Biblioteka GNU libc w wersji 2. i nowszych w pe³ni korzysta z modeli POSIX i X/Open. W wersji 2.1 tej biblioteki by³y wprawdzie jakie problemy z funkcjami obs³uguj¹cymi znaki o kodach z ustalon¹ d³ugoci¹ w jźzykach azjatyckich, ale powinno to byę poprawione jus w wersji 2.2. Najwasniejsz¹ dodatkow¹ w³aciwoci¹ tej biblioteki jest dostarczenie API dla katalogów komunikatów. Interfejs ten ma nazwź „GNU gettext” i zosta³ utworzony przez Ulricha Dreppera. Problem w zastosowaniu interfejsu catget(3) polega na tym, se wymaga on utrzymywania uporz¹dkowanego odwzorowania wszystkich komunikatów ³¹cznie z numerem indeksu. Funkcja catget(3) korzysta z tego indeksu w celu uzyskania dostźpu do katalogu. Bardzo utrudnia to zarz¹dzanie katalogiem, poniewas jeli nowy komunikat ma byę umieszczony miźdzy komunikatami o numerach 1 i 2, to trzeba by³oby nadaę mu numer 3. Dlatego w³anie programista jest zmuszony do utrzymywania rejestru numerów komunikatów, co prowadzi do wielu konfliktów, szczególnie w rozproszonych rodowiskach programowania, takich jak np. CVS. Dwaj programici przegl¹daj¹cy ten sam katalog powinni widzieę taki sam „nastźpny” indeks, a wiźc potrzebny jest jaki mechanizm przydzielania indeksów. Oprócz tego, jeli jaki katalog dla danego umiejscowienia nie zostanie zaktualizowany lub nie istnieje, to nalesy usyę w programie zakodowanego na sta³e napisu awaryjnego, który wcale nie musi byę taki sam, jak napis w odpowiednim katalogu obs³uguj¹cym rodzimy jźzyk programu (zazwyczaj angielski).

Modu³ gettext w wersji GNU (wywodz¹cy siź z prac grupy Uniforum kierowanych przez Sun Microsystems) grupuje awaryjne napisy i numery indeksów do postaci pojedynczych obiektów. Zastosowano tu prost¹ metodź polegaj¹c¹ na usyciu tabeli asocjacyjnej indeksowanej przez napisy awaryjne. Zoptymalizowano tu takse spotykany powszechnie w aplikacjach przypadek stosowania oddzielnego katalogu komunikatów dla kasdego jźzyka, zezwalaj¹c na globalne usycie katalogu. Oznacza to, se wywo³anie catgets(3) wymaga podania czterech argumentów (katalog, numer zestawu w katalogu, numer komunikatu i komunikat domylny), za gettext(3) wymaga zwykle podania tylko jednego argumentu — komunikatu domylnego.

Powasn¹ zalet¹ modu³u gettext jest to, se przeróbka programu polegaj¹ca na przystosowaniu go do korzystania z tego modu³u jest stosunkowo ³atwa. Mosna do tego usyę skryptu programu sed(1) wyszukuj¹cego napisy w cudzys³owach i pakuj¹cego je w wywo³ania funkcji gettext(3). Oprócz tego, powszechnie jest usywana definicja makropolecenia przyjmuj¹cego jeden argument o nazwie „ ” (po prostu zwyk³e podkrelenie). Wówczas napis, do którego siź odwo³ujemy, np. maj¹cy postaę:

'Please gettext-ize me!'

staje siź wywo³aniem makrodefinicji:

_('Please gettext-ize me!')

Taka metoda szybko staje siź czym tak oczywistym, jak oznaczanie komentarzy w jźzyku C. W module catgets(3) podobne podejcie wykorzystuj¹ce proste makropolecenie nie jest mosliwe, poniewas wymagana jest obecnoę dodatkowego argumentu, czyli indeksu. W rzeczywistoci catgets(3) wymaga podania jeszcze dwóch innych argumentów, czyli katalogu i numeru zestawu znaków, ale dla prostszych zastosowań mosna utworzyę makropolecenie lub funkcjź pakuj¹c¹, która obs³usy te argumenty. Nadal jednak wymagany bździe numer indeksu i komunikat awaryjny.

Modu³ gettext w wersji GNU (i biblioteka libc zawieraj¹ca ten modu³) definiuje dwie dodatkowe zmienne umiejscawiaj¹ce. Zamienna LANGUAGE jest uogólnieniem zmiennej LANG z dodan¹ ciesk¹ przeszukiwania definicji jźzykowych. Wp³ywa ona tylko na kategoriź umiejscawiaj¹c¹ LC_MESSAGES, umosliwiaj¹c usytkownikowi okrelenie katalogów komunikatów dla kilku jźzyków, które maj¹ byę przeszukiwane przed ostatecznym usyciem komunikatu domylnego zakodowanego na sta³e w programie. Zmienna LINGUAS jest usywana specyficznie przez modu³ gettext i okrela, które kategorie umiejscawiaj¹ce dostźpne w aplikacji maj¹ byę zainstalowane w systemie. Zmienna LINGUAS rósni siź istotnie od innych opisanych wczeniej kategorii umiejscawiaj¹cych. Korzystaj¹ z niej g³ównie administratorzy systemu i osoby pakuj¹ce dystrybucje, a nie programici tworz¹cy aplikacje. Wspomniano o niej w tym miejscu tylko dlatego, aby wskazaę na jej istnienie i mosliwoę odwo³ania siź do niej.

Autonomiczna biblioteka i dokumentacja dla GNU gettext

Modu³ gettext w wersji GNU jest rozprowadzany w dwóch postaciach: jako pomocnicza biblioteka libintl.a oraz jako czźę biblioteki libc w wersji GNU. W obydwu usywany jest wspólny interfejs libintl.h, natomiast rósnice dotycz¹ ograniczeń licencyjnych. Biblioteka libintl.a stosuje siź do licencji GPL, za druga postaę objźta jest licencj¹ LGPL. Dodatkowe programy wspomagaj¹ce programowanie gettextize(1) msgfmt(1) msgmerge(1) i xgettext(1) takse s¹ rozprowadzane tylko z autonomiczn¹ bibliotek¹, poniewas na ogó³ nie s¹ one potrzebne do uruchamiania programów w wersjach miźdzynarodowych. Oznacza to, se tam, gdzie wspomina siź o dokumentacji gettext, nalesy sprawdzaę zarówno dokumentacjź rozprowadzan¹ z autonomiczn¹ wersj¹ gettext (jedynego ród³a programów pomocniczych, takich jak xgettext(1) i msgfmt(1)), jak i opisy tego modu³u do³¹czane do biblioteki libc (zazwyczaj dok³adniejsze).

Formatowanie danych wyjciowych i przetwarzanie danych wejciowych

Podstawowym wymaganiem w I18N jest umosliwienie usytkownikowi ogl¹dania danych wyjciowych i wprowadzania danych wejciowych w wybranym przez niego jźzyku. X Window System uniezalesnia to wymaganie od sprzźtu, poniewas dane wyjciowe s¹ prezentowane na wywietlaczu obs³uguj¹cym grafikź rastrow¹, a uk³ad klawiatury daje siź ³atwo skonfigurowaę. Programici tworz¹cy aplikacje nie powinni w normalnych okolicznociach zmieniaę konfiguracji klawiatury. Elastycznoę obs³ugi jest ukryta za konfiguracj¹ dostawcy, a wiźc programista aplikacji nigdy nie powinien s¹daę bezporedniego odczytu klawiatury przy wprowadzaniu tekstów dowolnego rodzaju.

X Window System

X11 zapewnia prze³omowe wsparcie dla I18N w systemie Linux: wywietlacz graficzny z grafik¹ rastrow¹ oraz elastyczna obs³uga wejcia uwalnia internacjonalizowane aplikacje od koniecznoci zajmowania siź konfiguracj¹ sprzźtu. Nie ma tu znaczenia, se karta grafiki nie ma wbudowanych jakich dziwnych znaków (np. hiszpańskiego ñ), ca³ej cyrylicy lub tysiźcy znaków azjatyckich. X11 dysponuje w³asnymi krojami pisma, do których usytkownicy maj¹ wolny dostźp i które mog¹ byę ³atwo utworzone i zainstalowane. Ani usytkownik, ani serwer X nie poczuj¹ rósnicy. Takie zachowanie gwarantuje, se wszystkie jźzyki pisane mog¹ byę obs³usone w X11.

Poniewas X11 zapewnia zestaw standardowych formatów krojów pisma, to wyjcie danych w dowolnym jźzyku mosna ³atwo uaktywnię, tworz¹c odpowiedni krój pisma i rejestruj¹c go w serwerze X za pomoc¹ funkcji mkfontdir(1x) i xset(1x). Po wykonaniu tych operacji ani serwer X, ani usytkownik nie mog¹ jus stwierdzię, czy dany krój pisma by³ dostarczony jako czźę dystrybucji X11, czy tes zosta³ dodany.

W X11 wystźpuj¹ dwie w³aciwoci wspomagaj¹ce wprowadzanie „miźdzynarodowych” danych. Po pierwsze, elastyczna konfiguracja klawiatury oznacza, se mosna nakazaę serwerowi X, aby interpretowa³ sygna³ sprzźtowy jako dowolny znak lub funkcjź steruj¹c¹ np. sk³adaniem znaków wieloelementowych (znak podstawowy i akcent). Po drugie, stanowi to punkt zaczepienia dla metod mog¹cych dowolnie przetwarzaę dane wejciowe. Przydaje siź to np. w jźzykach azjatyckich, w których trzeba przegl¹daę zewnźtrzne s³owniki i interaktywnie wybieraę odpowiednie znaki, gdys tysi¹com znaków nie mosna przydzielię ani oddzielnych klawiszy, ani nawet unikatowych kombinacji klawiszy. Te punkty zaczepienia (uchwyty) zosta³y unormowane i nosz¹ nazwź X Input Methods (XIM).

Formatowanie danych wyjciowych

Oczywiste jest stwierdzenie, se jedne kroje pisma wygl¹daj¹ lepiej nis inne, a niektóre jźzyki opisuj¹ce krój daj¹ lepsze wyniki przy wywietlaniu znaków nis inne. To wielki wstyd, se tak d³ugo trzeba by³o czekaę na pojawienie siź wsparcia dla TrueType w systemie X. Nikt nie wspomaga takse bardzo dobrze jźzyka arabskiego, który korzysta z mniej nis setki znaków. Kasdy znak przyjmuje jednak inny kszta³t zalesny od po³osenia w wyrazie (inny na pocz¹tku, inny na końcu i inny w rodku). Oprócz tego, w pimie arabskim stosuje siź ³¹czenie znaków zalesne od ich rodzaju. Krój pisma arabskiego o wysokiej jakoci zawiera tysi¹ce glifów, dziźki którym mosna obs³usyę poprawnie jego wszystkie kontekstowe w³aciwoci. Nie stanowi to jednak problemu dla programistów: wystarczy wywo³aę funkcjź printf z argumentami kontroluj¹cymi rozmiar i po³osenie napisu — model X11 pozwala na takie dzia³anie. Kompozycja elementów interfejsu graficznego stwarza inny problem: usytkownicy pos³uguj¹cy siź pismem czytanym od prawej do lewej (np. hebrajskiego i arabskiego) oczekuj¹ zazwyczaj, se etykiety bźd¹ umieszczone z lewej strony tych elementów, których dotycz¹. W jźzyku angielskim sytuacja jest dok³adnie odwrotna.

Na szczźcie dosz³o do umowy miźdzy zwolennikami krojów pisma TrueType i Adobe Type 1, którzy utworzyli nowy format OpenType ³¹cz¹cy w sobie w³aciwoci kasdej z tych grup. Rozwi¹zanie to prawdopodobnie wystarczy na kilka najblisszych lat. OpenType umosliwia wywietlanie tekstu z wysok¹ jakoci¹. Pomimo tego, se nie rozwi¹zano tu problemu pisma czytanego od prawej do lewej (co w zasadzie oznacza koniecznoę czytania dwukierunkowego, bo liczby w jźzyku arabskim i hebrajskim oraz wtr¹cenia zachodnie s¹ czytane od lewej do prawej), to w X11R6 wprowadzono tzw. X Output Method (XOM). Podobnie jak X11R6, takse i standard XOM stanowi czźę definicji X11. Jest on wygodnym punktem zaczepienia dla specjalistów opracowuj¹cych metody obs³ugi danych wyjciowych pomocnym w obs³udze skryptów prawoczytelnych i glifów zalesnych od kontekstu. W normalnych sytuacjach problemy te nie s¹ dostrzegalne dla programisty tworz¹cego aplikacje, jeli podsystem XOM zostanie zainicjowany. Rozwasa siź wprowadzenie tego w takich pakietach narzździowych, jak Motif i GTK+.

Wprowadzanie danych przez usytkownika

Kasdy, kto walczy³ ze standardowymi funkcjami scanf(3), wie, se obs³uga danych wyjciowych to po prostu bu³ka z mas³em. Prawdziwy programista musi po prostu mieę smyka³kź do obs³ugi wejcia. Dotyczy to równies wejcia I18N. Mówi¹c dok³adnie, to nie samo wejcie stwarza problemy; problemem jest rozpoznawanie znaczenia strumienia danych. Wczytanie danych wejciowych do bufora jest wykonywane tylko raz, ale program mose potrzebowaę kilku przeję przez poszczególne segmenty strumienia wejciowego, aby odpowiednio go przetworzyę. Dlatego w³anie zaprzysiźgli programici jźzyka C nie martwi¹ siź ograniczeniami fscanf(3), ale po prostu korzystaj¹ albo z fgets(3), albo z fread(3). Dziźki temu program mose wypróbowaę kilka rósnych konwersji danych wprowadzonych przez usytkownika, a nie od razu zak³adaę np. poprawnoę konwersji za pomoc¹ formatu %d. Angielskojźzyczni programici próbuj¹cy odczytaę liczbź mog¹ byę ca³kowicie pewni, czy jest ona zakodowana jako ASCII. W wielu innych jźzykach istnieje jednak np. kilka metod zakodowania liczby „jeden” (Japończycy stosuj¹ co najmniej trzy sposoby).

W najprostszej sytuacji obs³uga „miźdzynarodowych” danych wejciowych jest zadaniem banalnym, poniewas realizuje j¹ sprzźt. Istniej¹ przecies specjalne klawiatury dla jźzyka francuskiego lub hebrajskiego. Po naciniźciu odpowiedniego klawisza taka klawiatura wysy³a do procesora kod znaku z zestawu ISO-8859-1 (w przypadku klawiatury francuskiej) lub ISO-8859-8 (dla klawiatury hebrajskiej). Prawie na najnisszym poziomie odwzorowanie kodów klawiatury mose zostaę zmienione przez serwer X, dziźki czemu mosna uzyskaę nawet odwzorowanie kombinacji klawiszy daj¹ce znak sk³adany (np. w „trybie francuskim” naciniźcie a i nastźpnie da akcentowany znak ).

Po stronie aplikacji obs³uga tego rodzaju wejcia takse jest banalnym zadaniem. W najgorszym przypadku program musi przekszta³cię napisy zakodowane zgodnie z umiejscowieniem usytkownika na napisy z kodowaniem Unicode. Wszystko to da siź ³atwo zrobię za pomoc¹ funkcji iconv(3) dostźpnej w bibliotece libc w wersji GNU.

Tak siź jednak sk³ada, se dla wiźkszej czźci ludnoci wiata (jeli nie dla wiźkszoci usytkowników komputerów) po prostu niewygodne jest pos³ugiwanie siź klawiatur¹ umosliwiaj¹c¹ wprowadzenie kasdego potrzebnego znaku. Wykszta³cony Chińczyk ma w swoim repertuarze od piźciu do dziesiźciu tysiźcy znaków Han, za Koreańczyk potrafi algorytmicznie skonstruowaę 11172 znaki Hangul. Istnieje kilka sposobów wprowadzania tekstu wymagaj¹cego tak obszernego zestawu znaków, a najpopularniejszym jest wprowadzanie tekstu w zapisie fonetycznym (czźsto za pomoc¹ alfabetu ³acińskiego). Nastźpnie zapis ten jest porównywany ze s³ownikiem (a czźsto takse „przerzedzany” lub przemieszczany na podstawie znanych zastosowań w zdaniach i znajomoci zasad gramatycznych, a takse przyzwyczajeń usytkownika). Na tej podstawie wytwarzana jest lista znaków, które mog¹ byę ostatecznie umieszczone w tekcie. Manipulowanie reprezentacj¹ fonetyczn¹ przez usytkownika nazywa siź preedycj¹, dla odrósnienia tego procesu od ogólnego procesu edycji polegaj¹cego na wstawianiu, usuwaniu i przemieszczaniu znaków oraz bloków znaków.

Oczywicie, opisywana tu metoda wymaga znacznego wsparcia programistycznego. Tak kosztowny proces wymagaj¹cy usycia baz danych i algorytmów sztucznej inteligencji jest czźsto uruchamiany oddzielnie. Oznacza to, se aplikacja przetwarzaj¹ca tekst i serwer obs³uguj¹cy wejcie musz¹ siź ze sob¹ komunikowaę zarówno przy obs³udze zawartoci, jak i przy prezentacji usytkownikowi danych „sprzźsonych”.

W X11R5 wprowadzono standard obs³ugi wejcia (tzw. X Input Method), który nastźpnie zosta³ zmodyfikowany i sta³ siź obowi¹zkowy w X11R6. Umosliwia on korzystanie z kilku alternatywnych sposobów prezentacji. W najprostszym z nich sam program zarz¹dzaj¹cy wejciem bździe wywietla³ oddzielne okno preedycji. Po³osenie tego okna jest kontrolowane przez menedsera okien (czyli ostatecznie przez usytkownika). Taka metoda jest oczywicie niezrźczna i rozpraszaj¹ca uwagź, szczególnie wtedy, gdy program zarz¹dzaj¹cy wejciem jest usywany sporadycznie (tak by³oby np. przy pisaniu programu w jźzyku C z komentarzami w jźzyku japońskim). Pozosta³e metody s¹ bardziej elastyczne, ale jednoczenie bardziej skomplikowane. Wszystko kulminuje siź w metodzie dzia³aj¹cej „w locie”, w której aplikacja przekazuje wywo³anie zwrotne do programu zarz¹dzaj¹cego wejciem, umosliwiaj¹c mu przes³anie tekstu powsta³ego w wyniku preedycji i statusu sprzźsenia zwrotnego ponownie do siebie. Dziźki temu aplikacja mose np. prezentowaę tekst po preedycji za pomoc¹ takiego samego kroju pisma, ale np. w odmiennym kolorze. Daje to czytelniejszy obraz i nie zmusza usytkownika do nieustannego przenoszenia wzroku miźdzy oknem aplikacji odbieraj¹cej dane wejciowe a oknem preedytora zawieraj¹cym obrabiane detale.

Na ponisszych rysunkach pokazano, jak Japończycy wprowadzaj¹ dane, pos³uguj¹c siź powszechnie usywanymi programami kterm(1x) kinput2(1x) oraz cannaserver(1). Program kterm(1x) wywodzi siź z xterm(1x), w którym dodano wywietlanie znaków japońskich. Program kinput2(1x) jest japońskim programem do zarz¹dzania wejciem, który obs³uguje protokó³ XIM.

W wiźkszoci dystrybucji Linuksa dostarczane s¹ wspomniane programy (Canna, KInput2 i KTerm) w spakowanej postaci, a wiźc bździe mosna zainstalowaę je bez problemów i przeprowadzię próby na naszym przyk³adzie. Program Canna zazwyczaj uruchamia serwer automatycznie i instaluje skrypt rozruchowy, za KInput2 i KTerm musz¹ byę uruchomione rźcznie.

W rósnych dystrybucjach mosna jednak spotkaę rósne sposoby konfiguracji pakietów. Pakiety kinput2-canna i kinput2-canna-wnn w dystrybucji Debian dzia³aj¹ od razu, ale w innych dystrybucjach trzeba skonfigurowaę je rźcznie, zanim zaczn¹ ze sob¹ wspó³pracowaę.

Do edycji tekstu bździe usyty edytor ae(1), poniewas bash(1) b³źdnie obs³uguje znaki japońskie i wysy³a zak³ócenia do kterm. Edytor ae(1) nie rozrósnia jźzyka japońskiego i w zasadzie mosna w nim usun¹ę po³owź znaku (bufor edycyjny jest traktowany jako tablica bajtowa). Postźpuj¹c ostrosnie, mosna w nim jednak wprowadzaę japońskie znaki i je modyfikowaę.

Autorzy zdecydowali siź na zastosowanie edytora ae(1), poniewas jest to edytor domylny w dystrybucji Debian, na której by³y tworzone wszystkie przyk³ady. Wiadomo jednak, se nvi (odmiana vi(1)) takse dzia³a poprawnie, podobnie jak inne wersje vi(1) i emacs(1). Nalesy unikaę wersji miźdzynarodowych Emacs/Mule, poniewas zwykle nie korzystaj¹ one z XIM, za przyjmuj¹ znaki japońskie, korzystaj¹c z innego mechanizmu — co w naszych przyk³adach prowadzi do pomy³ek.

Procedura postźpowania zilustrowana na kolejnych rysunkach jest nastźpuj¹ca:

q Uruchomię jako superusytkownik program /usr/sbin/cannaserver, który bździe dzia³a³ jako serwer s³ownika znaków japońskich „Canna”,

q Nastźpnie, jako zwyk³y usytkownik, uruchomię serwer XIM za pomoc¹ polecenia kinput2 &

q Otworzyę kterm poleceniem XMODIFIERS='@xim=kinput2' kterm -xim & i wywo³aę w jego oknie edytor:

Za pomoc¹ kombinacji klawiszy Shift-Space uaktywnię XIM:

Teraz trzeba wpisaę „korehanihongodesu”, czyli fonetyczny zapis za pomoc¹ alfabetu ³acińskiego japońskiego zdania oznaczaj¹cego „To jest japoński”. Serwer wejciowy automatycznie zmieni fonetyczny zapis ³aciński na fonetyczny zapis w alfabecie kana, co pokazano na nastźpnym rysunku. Jeli nie ma odpowiedniego znaku w alfabecie kana, wywietlany jest znak alfabetu ³acińskiego. Naukowcy i technicy japońscy preferuj¹ stosowanie takiego formatu wejciowego. Ucz¹ siź oni pisaę alfabetem ³acińskim, poniewas wiele prac naukowych i programów pisze siź za pomoc¹ takiego alfabetu. Pracownicy nietechniczni preferuj¹ stosowanie map klawiszy, które generuj¹ alfabet kana za pomoc¹ jednego przyciniźcia.

Nalesy teraz nacisn¹ę klawisz spacji, co spowoduje wywietlenie mieszanki znaków fonetycznych i ideogramów, jak pokazano na ponisszym rysunku. Nalesy wierzyę, se jest to poprawny wynik.

Po ponownym naciniźciu klawisza spacji wywietli siź aktywne okienko Candidate Selection zawieraj¹ce listź znaków, które mosna podwietlaę za pomoc¹ klawiszy kursorowych (ze strza³kami).

Po naciniźciu klawisza ze strza³k¹ w lewo nast¹pi powrót do fonetycznej wersji pierwszej frazy. Nalesy teraz nacisn¹ę Enter, aby zatwierdzię wybór zaznaczonego ci¹gu. Ekran powraca do takiego stanu, jak na poprzednim rysunku. Ponowne naciniźcie Enter powoduje zatwierdzenie ca³ego zdania. Nalesy zwrócię uwagź na to, se okno statusu pod¹sa za kursorem:

Naciniźcie kombinacji Shift-Spacja blokuje XIM (patrz nisej). Teraz mosna wprowadzaę znaki ASCII lub po ponownym naciniźciu Shift-Spacja przeję znowu do trybu wprowadzania znaków japońskich.

Stosunkowo nowym rozwi¹zaniem w dziedzinie zarz¹dzania wejciem jest standard Intranet-Internet Input Method Format (IIIMF) przeznaczony pierwotnie dla jźzyka Java. Wyeliminowano w nim rzadko usywane i skomplikowane w³aciwoci XIM oraz skodyfikowano i uproszczono niektóre dwuznacznoci specyfikacji XIM. Jest to technika, któr¹ warto ledzię, szczególnie z tego powodu, se zosta³a zalecona w standardzie Li18nux 2000 (patrz odnonik do materia³ów ród³owych) dla miźdzynarodowych wersji systemu Linux zaproponowanych przez Linux Internationalization Initiative.

Pomimo tego, se w pakietach narzździowych i interfejsach graficznych zaczyna siź stosowaę wspomniane w³aciwoci, to obecnie mosna je spotkaę w ograniczonym stopniu. Standard IIIMF nie zosta³ wdrosony nigdzie wiźcej poza jźzykiem Java, za w pakietach narzździowych stosuje siź tylko najprostsze metody preedycji. Zarz¹dzanie skomplikowanymi sposobami wprowadzania danych jest w kasdym przypadku trudne, ale dowiadczenie uczy, se warto podj¹ę ten trud, kieruj¹c siź zadowoleniem usytkownika w jźzykach takich jak japoński. Programici pracuj¹cy dla rynku azjatyckiego powinni powasnie rozwasyę koszty i zalety nauczenia siź opisanych tu metod.

Praktyczne aspekty programowania I18N

Jak te skomplikowane zagadnienia wp³ywaj¹ na zawodowego programistź? Na szczźcie w niezbyt wielki stopniu, a w zasadzie — wcale. Pomimo tego, se wysokiej jakoci prezentacja danych wyjciowych i efektywna obs³uga danych wejciowych s¹ znacznie bardziej skomplikowane, nis wywietlanie napisów w oknach z odpowiedni¹ otoczk¹ graficzn¹ i odczytywanie napisów za pomoc¹ prostej funkcji obs³uguj¹cej wejcie, to ta z³osonoę mose staę siź rutynowym dzia³aniem i byę pozostawiona specjalistom. W rzeczywistoci, programy zarz¹dzaj¹ce wejciem zgodne z XIM pojawi³y siź dopiero oko³o dziesiźciu lat temu, za programy do zarz¹dzania konfiguracj¹ elementów interfejsu zgodne z XOM s¹ dopiero teraz opracowywane przez firmy tworz¹ce X.

Jedn¹ z naprawdź fascynuj¹cych nowych tendencji, które pojawi³y siź w komercjalizacji Linuksa, jest to, se firmy wiod¹ce w tych wasnych technologiach (np. IBM) prawdopodobnie zamierzaj¹ dotowaę prace rozwojowe dotycz¹ce rósnych standardów tworzonych w ramach ruchu wolnego oprogramowania. Linux bździe pierwszym systemem, który z tego skorzysta, poniewas odniós³ najwiźkszy sukces komercyjny, ale przeniesienie na inne platformy z otwartymi ród³ami na pewno takse nast¹pi.

Programici mog¹ wiźc oczekiwaę jus w nieodleg³ej przysz³oci, se nawet na niskim poziomie programowania w Xlib bźd¹ mogli korzystaę z bardzo wystylizowanych fragmentów kodu inicjuj¹cych menedsery XIM i XOM oraz sprawdzaj¹cych preferencje usytkowników, a ca³a reszta bździe obs³ugiwana przez standardowe komponenty. Oprócz tego, standardy I18N s¹ przeznaczone bezporednio do w³¹czenia w pakiety narzździowe. W aplikacjach korzystaj¹cych z takich pakietów wysokiego poziomu nie bździe trzeba siź wiźc martwię o takie podstawowe sprawy.

W najblisszej perspektywie widaę wszak dwie przeszkody utrudniaj¹ce wprowadzenie takich uproszczeń. Po pierwsze, s¹ to na razie metody eksperymentalne lub wdrosone tylko czźciowo. Dotyczy to w szczególnoci uk³adu komponentów interfejsu w protokole XOM. Przez jaki czas programici bźd¹ wiźc musieli programowaę sami wiźkszoę operacji inicjuj¹cych i operacji niskiego poziomu. Powodem frustracji prawdopodobnie bździe takse nieodpowiednie wspomaganie tych operacji przez pakiety narzździowe, rzutuj¹ce na funkcjonalnoę nisszego poziomu.

Po drugie, zarówno XIM, jak i XOM, s¹ cile zwi¹zane z X11 i s¹ pierwszymi pe³nymi standardami tego rodzaju. Wprawdzie nie bździe to stwarzaę problemu w ci¹gu najblisszego dziesiźciolecia w systemie Linux, gdzie interfejsy graficzne s¹ oczywicie potrzebne oraz s¹ i bźd¹ budowane na podstawie X11, ale utrudnia to przenoszenie na inne platformy. Z tego powodu wydaje siź prawdopodobne, se standard XIM bździe poszerzony, a byę mose zast¹piony (jak zwyczajny API) przez tzw. Internet-Intranet Input Method Framework (IIIMF) opracowany przez firmź Sun dla rodowiska Java.

We wzorcowym wdroseniu, czyli Internet-Intranet Input Method Protocol (IIIMP) jawnie wykorzystano XIM, aby mog³o ono dzia³aę w rodowiskach Java obs³ugiwanych w X11. Oznacza to, se aplikacje wykorzystuj¹ce XIM bźd¹ nadal dzia³aę i se usytkownicy nie musz¹ siź uczyę innych metod wprowadzania danych dla aplikacji korzystaj¹cych z GTK+, a innych dla aplikacji usywaj¹cych rodowiska Java. Obci¹sa to jednak programistów, bowiem to oni bźd¹ musieli poznaę charakterystyki, a czźsto takse i API, obydwu standardów.

Standard XOM dotyczy obs³ugi wyjcia, a wiźc lepiej rozumianych problemów nis problemy obs³ugi wejcia. Zebrane zosta³y równies wiźksze dowiadczenia w jego zastosowaniach (miźdzy innymi wynikaj¹ce takse z pierwszych wdroseń XIM i Java), nis mieli programici XIM. Jednakse interfejs programowy dla XOM takse mose zostaę poszerzony lub zast¹piony w niezbyt odleg³ym czasie. Dodatkowo, w odrósnieniu od XIM, który jest jawnie stosowany przez standard IIIMF w us³ugach wejciowych w rodowisku X — pakiety narzździowe do tworzenia interfejsów graficznych dla rodowiska Java (Swing i starsze AWT) nie s¹ do tej pory integrowane z XOM.

Modularyzacja, która zawsze jest dobrym rozwi¹zaniem, jest wiźc koniecznoci¹ przy obs³udze wejcia i wyjcia. Jest ona znacznie komplikowana przez koniecznoę deklarowania i inicjacji komunikatów w poblisu miejsca ich usycia. Na szczźcie, dla prostszych przypadków u³atwieniem jest modu³ gettext w wersji GNU, charakteryzuj¹cy siź wystarczaj¹cymi w³aciwociami syntaktycznymi i mosliwoci¹ ³atwej modyfikacji kodu aplikacji.

I18N i wewnźtrzne przetwarzanie tekstu

Jeseli internacjonalizacja (I18N) bździe wp³ywaę na kod aplikacji w celu uzyskania przez ni¹ odpowiednich w³aciwoci, to musi byę mocno zwi¹zana z t¹ aplikacj¹. Jeseli taki program analizuje np. tekst w szerszym zakresie, nis robi¹ to wyrasenia regularne i proste zestawienia, to programista musi obs³ugiwaę bezporednio rósne zestawy znaków i uczyę siź rósnych jźzyków, aby ca³oę dzia³a³a poprawnie. Z tym bywa rósnie, bo np. w jźzyku japońskim i chińskim s³owa nie s¹ oddzielane spacjami. Dodatkowo, oprócz istnienia kilku standardowych sposobów definiowania s³ów, czźsto nie bźd¹ one spe³nię wymagań nawet przy tak prostej aplikacji, jak poszukiwanie wyrasenia regularnego.

Szczegó³owy opis metod usywanych w prawdziwych edytorach tekstu wykracza poza zakres tej ksi¹ski. Oprócz dok³adnej modularyzacji kodu wymuszanej przez I18N nalesy tu jednak wymienię kilka innych zagadnień. Najwasniejsz¹ spraw¹ jest to, aby wszystkie napisy przetwarzane wewn¹trz aplikacji by³y przechowywane w formacie Unicode, najlepiej jako UTF-4. Mose siź to wydaę brakiem oszczźdnoci miejsca (UTF-4 wymaga bowiem 4 bajtów na znak). Rozwasmy jednak analogiź z zaoszczźdzeniem megabajtów spowodowanym usuniźciem interfejsu graficznego. Nawet gdy sam kod interfejsu jest umieszczony w dzielonej bibliotece i dziźki temu nie kosztuje zbyt wiele w odniesieniu do pojedynczego programu, to aplikacje maj¹ w³asne obrazy rastrowe, „skóry”, fragmenty melodii, a nawet filmów. Nadal jednak wiźkszoę informacji jest przekazywana jako tekst. Jeseli programista martwi siź o to, czy jego dzie³o bździe mosna ³atwo udostźpnię na rynku miźdzynarodowym, to na pewno wp³yw rozmiarów tego tekstu bździe mniejszy nis zalety wynikaj¹ce z uproszczenia spowodowanego jego odpowiednim kodowaniem. Wiźkszoę miźdzynarodowych komunikatów mosna przechowywaę w formacie UTF-8, poniewas w takiej postaci mosna je przes³aę na ekran. Nie jest to wcale kosztowne, jeseli jźzykiem podstawowym jest angielski — wtedy komunikaty domylne stosuj¹ kody o rozmiarze jednego bajtu na znak.

G³ównym teoretycznym powodem stosowania formatu UTF-4 jest prawdziwie uniwersalny zestaw znaków, gwarantuj¹cy zakodowanie wszystkich znaków w daj¹cej siź przewidzieę przysz³oci. G³ównym praktycznym powodem jest za to, se glibc wykorzystuje UTF-4 jako swój format wewnźtrzny w kodowaniu znaków ze sta³¹ szerokoci kodu. Jeseli napisy bźd¹ zawsze t³umaczone na format UTF-4 przed wykonaniem na nich jakich operacji, to nigdy nie wyst¹pi¹ pomy³ki w kodowaniu. Mosna byę wówczas ca³kowicie pewnym, se efektywny kod dla t³umaczenia komunikatów bździe dostźpny w postaci zestawu standardowych funkcji z modu³u iconv. Oprócz tego mosna siź spodziewaę, se standardowa optymalizacja obs³ugi napisów (np. przeszukiwanie za pomoc¹ wyraseń regularnych) bździe takse dzia³aę dla kodowania UTF-4.

Istnieje tu jednak pewna pu³apka: rodowiska opracowuj¹ce rósne biblioteki i interfejsy programowe podejmuj¹ decyzjź o rósnych sposobach kodowania wewnźtrznego. Na przyk³ad w bazie PostgreSQL 6.5.3 jedynym uniwersalnym zestawem znaków jest wewnźtrzne kodowanie MULE, czyli wielojźzycznego rozszerzenia do GNU Emacs. Zdaje siź, se atrakcje kodowania MULE by³y pierwszymi, z którymi zapozna³ siź twórca tego rozwi¹zania. Trzeba jednak dodaę, se kodowanie to umosliwia zastosowanie algorytmicznych metod t³umaczenia na zestawy narodowe, za w Unicode wymagane s¹ wielkie tabele.

Kodowanie MULE jest jednak cile zwi¹zane z konkretn¹ implementacj¹ i nie istniej¹ standardowe dokumenty opisuj¹ce sposób uzyskiwania zgodnoci z tym kodowaniem. Obecnie PostgreSQL 7.0 obs³uguje jus kodowanie UTF-8 w bazach danych. Podobnie post¹pili twórcy pakietu Samba, zmieniaj¹c format kodowania wewnźtrznego na UCS-2 (lub mose nawet UTF-16). Zgodnie z wypowiedziami Jeremy’ego Allisona, g³ównego programisty pakietu Samba, wybór kodowania o sta³ej szerokoci znaku, a nie formatu UTF-8, by³ uzasadniany tym, se kasdy kod niezgodny z Unicode móg³by powodowaę awarie w czysto angielskim rodowisku tak samo szybko, jak w rodowisku miźdzynarodowym (z powodu bajtów zerowych).

Godny uwagi jest fakt, se mimo przyjźcia standardu Unicode we wszystkich wymienionych tu pakietach (GNU libc, PostgreSQL i Samba) usywane w nich formaty wewnźtrzne nie s¹ ze sob¹ zgodne i wymagaj¹ przekszta³ceń. Zgodnoę z Unicode nie jest wiźc wystarczaj¹cym warunkiem bezkonfliktowej wymiany danych! Nie istnieje tu jednak problem dwuznacznoci, który wymaga zastosowania metod sztucznej inteligencji do automatycznego rozpoznawania kodów (np. z zakresu od 0xA0 do 0xFF, reprezentuj¹cych cyrylicź w zestawie ISO-8859-5 i hebrajski w zestawie ISO-8859-8). Oprócz tego GNU libc zapewnia unormowanie, wygodź i ³atwoę zastosowania algorytmów t³umacz¹cych rósne formaty Unicode, zebranych w module iconv(3). Rósne formaty s¹ przy tym ³atwo i pewnie rozrósnialne, bez uciekania siź do metod sztucznej inteligencji. Podsumowuj¹c: nalesy dok³adnie sprawdzaę dokumentacjź aplikacji „pos³uguj¹cych siź” Unicode, aby ustalię, o jaki rodzaj kodowania naprawdź w nich chodzi.

Programowanie z usyciem funkcji umiejscowień

Oprócz pu³apek zwi¹zanych z kodowaniem i nadziei na to, se wiźkszoę kodowań spoza zestawu Unicode bździe wkrótce stosowana tylko tam, gdzie trzeba zapewnię zgodnoę z zastanymi i nie daj¹cymi siź zmieniaę systemami, same umiejscowienia takse stosownie siź zmieniaj¹. Kodowanie nie jest elementem widocznym dla usytkowników i dopóki mog¹ oni wprowadzaę w³asne teksty i uzyskiwaę poprawne wyniki, nie musz¹ siź martwię o to, jaka liczba ca³kowita odpowiada wprowadzanemu aktualnie znakowi. Usytkownicy bźd¹ jednak przejawiaę dziki opór przy próbie zmian usywanego przez nich formatu daty lub symbolu waluty i bźd¹ wybieraę systemy „mówi¹ce” ich w³asnym jźzykiem oraz sortuj¹ce dane we „w³aciwej” kolejnoci.

Poprawne usycie umiejscowienia jest znacznie trudniejsze nis poprawne usycie funkcji z modu³u iconv. Poniewas konwersja kodów jest o wiele czźciej spotykana w wejciowych i wyjciowych strumieniach danych, to w ogólnoci mosna zastosowaę kilka funkcji obs³uguj¹cych takie strumienie. Z drugiej strony, umiejscowienia wp³ywaj¹ na wszystkie rodzaje formatowania zazwyczaj kolejno modyfikowane i rozproszone po ca³ym kodzie interfejsu usytkownika. Wymaga to wiźkszej uwagi przy modularyzacji i wiźkszej dyscypliny przy upewnianiu siź, se wszystkie napisy zosta³y poddane dzia³aniu funkcji z modu³u gettext, wszystkie daty i wartoci walutowe s¹ formatowane w³aciwie itd. Klasyfikacja znaków, obejmuj¹ca miźdzy innymi konwersjź wielkoci liter, jest w zasadzie procesem niezauwasalnym po wprowadzeniu w funkcjach typu toupper(3) i isdigit(3) zmian uwzglźdniaj¹cych rósnice narodowe. Funkcji wykorzystywanych do tworzenia zestawień, czyli np. strcmp(3), nie mosna jednak jus tak ³atwo dostosowaę do porównywania napisów zalesnego od umiejscowienia. Zamiast nich trzeba usywaę np. strcoll(3) (przy porównywaniu napisów w ca³oci) lub strxfrm(3) (przy porównaniach napisów po uprzednim ich przekszta³ceniu). Niektóre funkcje, np. strcasecmp(3), uwzglźdniaj¹ umiejscowienie tylko czźciowo, korzystaj¹c z ustawień miźdzynarodowych tylko przy zmianie wielkoci liter, ale nie przy sortowaniu — trzeba na to zwracaę uwagź!

Pomimo tego, se wstźpne przetwarzanie napisów za pomoc¹ funkcji strxfrm(3) wydaje siź bardziej wydajne nis inne metody, nalesy pamiźtaę o tym, se w niektórych zastosowaniach mose ono wymagaę as szeciokrotnie wiźkszej przestrzeni, nis zajmuje napis oryginalny. Przy plikach o umiarkowanej d³ugoci powoduje to znaczne rósnice miźdzy sortowaniem w pamiźci za pomoc¹ funkcji strcoll a sortowaniem zewnźtrznym za pomoc¹ porównywania bajt po bajcie (które bździe znacznie wolniejsze). Dokumentacja wyranie zaleca, aby przetworzony napis mia³ ten sam rozmiar co napis oryginalny — potwierdzi³y to testy na kilku tekstach angielskich, japońskich i Unicode. Nalesy na to zwracaę uwagź wówczas, gdy trzeba w sposób efektywny przenieę aplikacjź na inny system, np. Solaris lub HP/UX.

W podanych nisej tabelach umieszczono listź funkcji z biblioteki libc w wersji GNU zwi¹zanych z I18N. Niektóre z nich s¹ po prostu rozszerzeniami standardowych funkcji do obs³ugi znaków z kodami wielobajtowymi (o zmiennej d³ugoci kodu) i znaków z kodami o ustalonej d³ugoci. Na wiele funkcji bezporednio wp³ywaj¹ konfiguracje umiejscowień. Opisuje to trzecia kolumna tabeli, w której podano kategoriź umiejscowienia powoduj¹c¹ zmianź dzia³ania funkcji przy zmianie wartoci tej kategorii. Na przyk³ad MB_CUR_MAX oznacza maksymaln¹ liczbź bajtów usywan¹ w bies¹cym umiejscowieniu dla zakodowania znaku. Dla domylnego umiejscowienia POSIX, dla którego obowi¹zuje kodowanie ASCII, wartoę ta wynosi 1, natomiast dla umiejscowienia korzystaj¹cego z kodowania UTF-8 mose byę nawet równa 6.

Rozmiary

Funkcje	Opis	Zalesnoę od umiejscowienia
MB_CUR_MAX, MB_LEN_MAX	Maksymalne rozmiary wielobajtowych kodów znaków	MB_CUR_MAX
mblen, mrlen	Liczba bajtów w znaku z kodem wielobajtowym	Brak
wcslen, strlen	Liczba znaków w napisie (kody o sta³ej d³ugoci)	Brak
wcswidth, wcwidth	Liczba kolumn potrzebnych do wywietlenia w napisie znaku z kodem o sta³ej d³ugoci	Brak

Przekszta³cenia

Funkcje	Opis	Zalesnoę od umiejscowienia
mbrtowc, mbsnrtowcs, mbsrtowcs, mbstowcs, mbtowc, wcrtomb, wcsnrtombs, wcsrtombs, wcstombs, wctomb, wcrtomb, btows, wctob	Przekszta³cenia bajtów (b), znaków z kodami wielobajtowymi (mb) i znaków z kodami o sta³ej d³ugoci (wc) lub napisów (odpowiednio mbs i wcs	Brak
iconv, iconv_open, iconv_close	Konwersja kodowania znaków	Brak

Obs³uga wejcia i wyjcia

Funkcje	Opis	Zalesnoę od umiejscowienia
fgetwc, fgetws, getwc, getwchar, ungetwc	Odczyt znaków z kodami o sta³ej d³ugoci lub napisów ze strumieni typu FILE	Brak
fgetc, fgets, getc, getchar, ungetc	Odczyt znaków z kodami jednobajtowymi lub napisów ze strumieni typu FILE	Brak
fputwc, fputws, putwc, putwchar	Wys³anie znaków z kodami o sta³ej d³ugoci na wyjcie, z formatowan¹ konwersj¹	Brak
fputc, fputs, putc, putchar	Wys³anie znaków na wyjcie, z formatowan¹ konwersj¹	Brak

Formatowanie napisu

Funkcje	Opis	Zalesnoę od umiejscowienia
wprintf, fwprintf, swprintf, vfwprintf, vswprintf, wcsftime, wcsfmon	Formatowanie napisu zawieraj¹cego znaki z kodami o sta³ej d³ugoci i wys³anie go na wyjcie	Rozszerzenie parametru pozycyjnego zalesne od umiejscowienia
printf, fprintf, sprintf, vfprintf, vsprintf, vprintf, strftime, strfmon	Formatowanie napisu i wys³anie go na wyjcie	Rozszerzenie parametru pozycyjnego zalesne od umiejscowienia

Klasyfikacja znaku

Funkcje	Opis	Zalesnoę od umiejscowienia
iswalnum, iswalpha, iswblank, iswcntrl, iswctype, iswdigit, iswgraph, iswlower, iswprint, iswpunct, iswspace, iswupper, iswxdigit, wctype	Klasyfikacja znaków z kodami o sta³ej d³ugoci	Wszystkie; wctype umosliwia wprowadzenie zalesnego od aplikacji rozszerzenia klas dla umiejscowienia
isalnum, isalpha, isblank, iscntrl, isctype, isdigit, isgraph, islower, isprint, ispunct, isspace, isupper, isxdigit	Klasyfikacja znaków z kodami o sta³ej d³ugoci	Wszystkie

Przekszta³cenia

Funkcje	Opis	Zalesnoę od umiejscowienia
towlower, towupper, towctrans, wctrans	Przekszta³ca znak z kodem o sta³ej d³ugoci na znak danej klasy	Wszystkie
tolower, toupper	Przekszta³ca literź na ma³¹ lub wielk¹	Wszystkie

Kopiowanie i wype³nianie napisu

Funkcje	Opis	Zalesnoę od umiejscowienia
wcpcpy, wcpncpy, wcscpy, wcsncpy, wcsspn, wmemset	Kopiowanie napisu sk³adaj¹cego siź ze znaków z kodami o sta³ej d³ugoci	Brak
cpcpy, cpncpy, cscpy, csncpy, csspn, memset	Kopiowanie napisu sk³adaj¹cego siź ze znaków z kodami o sta³ej d³ugoci	Brak

Przeszukiwanie napisu

Funkcje	Opis	Zalesnoę od umiejscowienia
wcschr, wcscspn, wcspbrk, wcsrchr, wmemchr	Szukanie znaku z kodem o sta³ej d³ugoci w napisie sk³adaj¹cym siź ze znaków z kodami o sta³ej d³ugoci	Brak
strspn, strcspn, index, memchr, rindex, strchr, strpbrk, strsep, strstr, strtok	Szukanie znaku w napisie	Brak

Zestawienia

Funkcje	Opis	Zalesnoę od umiejscowienia
strcoll, strxfrm, wcscoll, wcsxfrm	Porównywanie napisów (sk³adaj¹cych siź ze znaków z kodami o sta³ej d³ugoci) lub ich „kompilacja” dla wielokrotnych porównań	Porz¹dek zestawień (kolejnoę sortowania)

Wyrasenia regularne

Funkcje	Opis	Zalesnoę od umiejscowienia
regcomp, regexec, regerror, regfree	Wyszukiwanie wyraseń regularnych	Mose wprowadzaę dodatkowe klasy znaków; porównywanie mose byę zalesne od umiejscowienia

Manipulacja umiejscowieniami

Funkcje	Opis	Zalesnoę od umiejscowienia
setlocale, localeconv, nl_langinfo	Modyfikacja i uzyskiwanie informacji o umiejscowieniu

Katalogi wiadomoci

Funkcje	Opis	Zalesnoę od umiejscowienia
gettext, dgettext, dcgettext, textdomain, bindtextdomain, catgets, catopen, catclose	Manipulacja komunikatami zalesnymi od umiejscowienia

Podstawowa procedura przystosowania programu do korzystania z bies¹cego umiejscowienia jest bardzo prosta:

Wywo³aę funkcjź setlocale dla kasdej kategorii umiejscowienia wymagaj¹cej modyfikacji (mosna sobie np. wyobrazię, se we francuskim raporcie o gospodarce USA bźd¹ stosowane francuskie konwencje dla jźzyka i dat, ale w tabelach zawieraj¹cych zestawienia finansowe bźd¹ stosowane formaty specyficzne dla waluty USA).

Usyę gettext dla umiejscowienia komunikatów.

Usyę funkcji korzystaj¹cych z umiejscowienia do formatowania danych wyjciowych.

Mimo prostoty wymaga to jednak zachowania pewnej dyscypliny. Omówimy tu nie ca³kiem prawdopodobny program wykorzystuj¹cy niektóre opisane wysej techniki. W domylnej konfiguracji program korzysta z katalogu komunikatów o nazwie PLiP_hello.mo zainstalowanego w katalogu bies¹cym, czyli:

.//LC_MESSAGES/PLiP_hello.mo)

Nazwy LOCALEn s¹ nazwami umiejscowień, jak np. ja_JP.eucJP stosowana powszechnie w wersji japońskiej. Aby znaleę po³osenie tych katalogów w danym systemie, nie nalesy ustawiaę zmiennej rodowiskowej GETTEXT_DATA_ROOT. W systemie Linux zgodnym z FHS jest to równowasne:

#define GETTEXT_DATA_ROOT '/usr/share/locale'

co powoduje, se katalogi komunikatów s¹ zainstalowane w:

/usr/share/locale//LC_MESSAGES/PLiP_hello.mo)

Za pomoc¹ dyrektywy #define trzeba tes zdefiniowaę pozosta³¹ kategoriź, czyli USE_YESNO_STR, która domylnie jest zdefiniowana i oznacza pobieranie odpowiedzi „tak/nie” zgodne ze standardem POSIX z wykorzystaniem umiejscowienia. Niewiele umiejscowień dostarczanych z bibliotek¹ libc w wersji GNU ma zdefiniowane te napisy i dlatego nalesy ich unikaę (w naszym przyk³adzie ma to tylko cel edukacyjny).

Za tymi definicjami nastźpuj¹ standardowe do³¹czenia plików:

locale.c

Demonstruje zastosowanie locale i gettext

#define GETTEXT_DATA_ROOT getcwd(NULL,0)

#define USE_YESNO_STR

/* Do³¹czenie wymaganych w³aciwoci*/

#include <locale.h> /* dla setlocale(3) i spó³ki */

#include <langinfo.h> /* dla nl_langinfo(3) i spó³ki */

#include <stdio.h>

#include <stdlib.h>

#include <string.h>

#include <time.h>

#include <regex.h>

#include <unistd.h>

/* och! */

Teraz ustawiamy w³aciwoci gettext. Makropolecenia oznaczone znakiem podkrelenia s¹ normalnie stosowane w aplikacjach korzystaj¹cych z gettext w celu wzrokowego odrósnienia napisów (i unikniźcia zbyt d³ugich wierszy), ale nie s¹ one definiowane w pliku nag³ówkowym. Do oznaczenia danych inicjowanych statycznie jest stosowany przedrostek N_ (patrz definicja funkcji usage umieszczona za przyk³adowym programem).

#include <libintl.h>

#define _(String) gettext (String)

#define N_(String) String

/* Prototypy zdefiniowanych funkcji */

void usage (char *);

void do_date ();

void do_hello ();

/* Zmienne globalne s¹ z³e, lecz jestem zbyt leniwy */

char *default_locate;

Oto program sterownika, który modyfikuje umiejscowienia:

int main (int argc, char *argv[])

Teraz zainicjujemy gettext przez powi¹zanie go do domylnego katalogu. Ta inicjacja takse powinna siź odbyę przed przetwarzaniem wiersza poleceń. Normalnie katalogiem domylnym jest $GETTEXT_DATA_ROOT/$LOCALE/$LC_CATEGORY/$TEXT_DOMAIN.mo, gdzie fragment $GETTEXT_DATA_ROOT w systemie Linux oznacza /usr/share/locale. Wartoę $LOCALE jest wyznaczana na podstawie wczeniej zainicjowanej default_locale (patrz wysej). Wartoę zmiennej $LC_CATEGORY jest równa LC_MESSAGES (patrz dokumentacja gettext opisuj¹ca wyj¹tki), za $TEXT_DOMAIN uzyskuje w naszym przypadku wartoę PLiP_hello po wywo³aniu podanej nisej funkcji textdomain

Zauwasmy, se funkcje biblioteczne ogólnego przeznaczenia nie mog¹ poprawnie skorzystaę z wywo³ania textdomain(3), poniewas spowoduje to konflikt z programem usytkownika. Normalnie w bibliotekach stosuje siź wywo³anie funkcji dgettext(3), w którym jako pierwszy argument podaje siź nazwź domeny jźzykowej komunikatów. Przy wywo³aniu gettext(3) argument ten jest wynikowy. W kodzie biblioteki mosna oczywicie dla wygody usyę makropolecenia lub funkcji wbudowanej.

Biblioteka gettext nie zosta³a jeszcze zainicjowana, a wiźc nie mosna przet³umaczyę komunikatu o b³ździe:

if (!textdomain ('PLiP_hello'))

#ifdef GETTEXT_DATA_ROOT

if (!bindtextdomain ('PLiP_hello', gettext_data_root))

#endif

Tutaj istnieje jedyny mosliwy sposób oczyszczenia pamiźci: zas¹danie tego od usytkownika. By³oby piźknie, gdyby da³o siź to zrobię automatycznie, ale problemem jest fakt, se dla rodzimej domeny jźzykowej (tutaj jest ni¹ jźzyk angielski) nie istnieje katalog komunikatów. B³¹d sygnalizowany jako niemosnoę odnalezienia katalogu nie jest wiźc w rzeczywistoci b³źdem.

Szczególnie widoczne s¹ tu problemy pojawiaj¹ce siź przy bezporednim sprawdzaniu umiejscowień konfigurowanych przez usytkownika. POSIX korzysta ze standardów ISO 639 dla kodów jźzyka oraz ISO 3166 dla kodów kraju i mosna to sprawdzię. Biblioteka libc w wersji GNU równies normalizuje nazwy kodowań (zmieniaj¹c w nich wielkie litery na ma³e i usuwaj¹c znaki przeniesienia oraz podkrelenia), ale nie jest to wystarczaj¹ce. Jedynym rozwi¹zaniem dla obs³ugi kodowania jest usycie katalogów dla UTF-8 i konwersja dokonywana „w locie”, jeli terminal mose obs³ugiwaę UTF-8. Niestety, nie uda siź to, jeli usytkownik zas¹da danych wejciowych i wyjciowych (czyli plików i gniazd sieciowych) z kodowaniem w takiej postaci, której program nie mose kontrolowaę. Ostatecznie, poniewas sk³adowa wystźpuj¹ca za „ ” w standardowej nazwie formatu umiejscawiaj¹cego nie zalesy od aplikacji, program prawdopodobnie nie by³by w stanie okrelię tego, co jest poprawne.

Administratorzy systemów mog¹ tu pomóc, tworz¹c plik locale.alias z ³atwymi do zapamiźtania nazwami ustawień umiejscawiaj¹cych, czźsto stosowanych w danym systemie.

Uwaga dla t³umaczy: ten komunikat powinien byę przet³umaczony na

'Jeli nie oczekiwalicie tego jźzyka, nalesy sprawdzię zmienne LANGUAGE,

LANG, LC_MESSAGES oraz LC_ALL. Jeli s¹ one ustawione poprawnie, to

nie ma katalogu komunikatów dla waszego jźzyka.'

puts (_('I hope you're happy with the default `POSIX' locale, because

nthat's what you've got! No message catalog found for you.'));

puts (_('Succesfully initialized I18N.'));

Teraz sprawdzamy argumenty i wywo³ujemy potrzebne funkcje:

if (argc != 2 || argv[1][1] !=

switch (argv[1][0])

putchar('n');

exit(EXIT_SUCCESS);

Nisej podano zlokalizowane funkcje dla wywietlania daty i czasu. Specyfikatory konwersji %c i %Z oznaczaj¹ wymagane formaty dla czasu i daty, zgodnie z umiejscowieniem:

#define SIZE 256

void do_date ()

Teraz funkcja wywietlaj¹ca „hello”:

void do_hello ()

while (1)

else if (regexec (&yre, buffer, 0, 0, 0))

else

Program do_hello zawiera dalej banalny przyk³ad zmiany umiejscowienia. Zmiana ta nie oznacza jednak, se wszystko mosna bździe zrobię za pomoc¹ gettext(3). W tym przyk³adzie faktycznie nic nie mosna zrobię.

/* Znak zachźty oraz odczyt danych wprowadzanych przez usytkownika */

printf (_('Enter a POSIX-style locale: '));

scanf ('255s', buffer);

/* Ustawianie umiejscowienia (locale) */

if (setlocale (LC_ALL, buffer))

}

else

printf (_('%s is not a real locale! Not one I know, anyway.n'),

buffer);

/* Oczyszczanie - tutaj oczywicie nadmiarowe

ale taka jest kolejnoę rzeczy */

setlocale (LC_ALL, default_locale);

Ta definicja i nastźpuj¹ca funkcja pokazuj¹ sposób t³umaczenia danych statycznych. Zwróęmy uwagź na wywo³anie gettext (menu[i-1].tag) w ostatniej instrukcji printf

Czysty przymus

/* OPTIONS musz¹ byę <= 9 */

#define OPTIONS 2

struct menu_item menu[OPTIONS] =

void usage (char *s)

n' : '|');

for (i = 1; i <= OPTIONS; ++i)

Tu wolź zastosowaę pe³ny identyfikator `gettext', aby podkrelię, se

zosta³ on zastosowany do obliczanych wartoci.

printf ('%d - %sn', i, gettext (menu[i-1].tag));

/* Koniec locale.c*/

Uruchomienie tego programu wymaga obecnoci plików .mo. Jeden z nich jest przeznaczony dla jźzyka angielskiego, a drugi dla japońskiego. Na ponisszym rysunku podano wynik kilku wywo³ań programu w oknie kterm (japońska odmiana xterm

Interesuj¹ca jest kompilacja tego programu, poniewas GCC ostrzega o b³źdnych definicjach umiejscowień. Wygl¹da na to, se w glibc 2.1.3 wystźpuje b³¹d podczas przywo³ywania ja_JP (powtórzona jest strefa czasowa JST). Dosyę interesuj¹cy jest fakt, se dla en_US nie wystźpuje napis „yes/no”, który na szczźcie nie powoduje zatrzymania programu. W ostatnim wierszu na powysszym rysunku mosna zauwasyę zmianź katalogu komunikatów z angielskiego na japoński.

I18N i programowanie z zastosowaniem Xlib

Pomimo tego, se nowoczeni programici nie tworz¹ interfejsów usytkownika, pos³uguj¹c siź tylko surow¹ bibliotek¹ Xlib, to na jej przyk³adzie pokasemy kilka problemów spotykanych przy internacjonalizacji interfejsów graficznych. Ich znajomoę przyda siź podczas wymaganej konwersji tekstu Unicode na rodzime kodowanie usyte w wybranym kroju pisma.

Podany nisej przyk³adowy program pokazuje tź mosliwoę oraz sposób obs³ugi wielojźzycznego tekstu w Xt. Funkcje najnisszego poziomu mog¹ byę ukrywane w nowoczesnych pakietach narzździowych przeznaczonych do tworzenia interfejsów graficznych, ale podstawowe zasady postźpowania z tekstem (okrelanie jźzyka i kodowania) pozostaj¹ takie same, chocias czasem ich nie widaę w jawnej postaci. W sytuacjach, gdy nie uda siź zastosowaę tych zasad, nie mosna jus nic wiźcej zrobię. Struktura wysszego poziomu nie jest naruszana przez interfejs graficzny.

Nawet przy stosowaniu Unicode nie uda siź zbyt wiele zmienię. Podobnie jak t³umaczenie, takse i projektowanie krojów pisma jest nieod³¹czn¹ cech¹ rodowiska kulturowego. Nie mosna wynaj¹ę japońskiego pisarza do t³umaczenia tekstów z jźzyka Hindi, podobnie jak nie ma sensu proszenie Rosjanina o zaprojektowanie tajskiego zestawu znaków. Nawet przy pos³ugiwaniu siź CID i Cmaps kilka krojów pisma, szczególnie chźtnie usywanych lokalnie, bździe zajmowaę ca³¹ przestrzeń Unicode. Nie ma wiźc teraz i prawdopodobnie nie bździe w przysz³oci mosliwoci utrzymania takich krojów pisma, zw³aszcza se dodawane s¹ nowe znaki.

Pozostaje tu takse swego rodzaju dwuznacznoę, szczególnie w zestawie znaków Han. Mimo tego, se usytkownicy uzgodnili, które znaki s¹ sobie równowasne w tradycyjnym oraz uproszczonym pimie chińskim, japońskim i koreańskim, styl pisania jest inny nawet dla takich samych znaków, co widaę na ponisszym rysunku:

Podstawowym wymaganiem, które musi spe³niaę przyk³adowy program, jest mosliwoę wywietlenia okna, którego g³ówn¹ zawartoę stanowi tabela zawieraj¹ca nazwy jźzyków (po angielsku), nazwy rodzime tych jźzyków (jeseli s¹ znane) i t³umaczenie angielskiego s³owa „hello”.

Projekt ogólny takiego programu nie jest skomplikowany. Podstawow¹ struktur¹ danych jest tablica, której elementami s¹ struktury. Kasda taka elementarna struktura ma szeę elementów, które s¹ napisami: nazwa jźzyka, t³umaczenie nazwy, t³umaczenie s³owa „hello”, nazwa kodowania rozpoznawanego przez iconv, nazwa rejestrowa kroju pisma i nazwa preferowanego kroju. We wszystkich napisach usywane jest kodowanie UTF-8. Konstrukcja okna jest umieszczona w tablicy zawieraj¹cej widsety Xt typu Label. Fragmenty X s¹ bardzo dziwne — tak widzi je autor nie maj¹cy w sobie nic z programisty X. Czysto geometryczne rozwasania s¹ nudne, wiźc pominiźto je w przyk³adzie.

Najpierw, jak zwykle, umieszczony jest materia³ nag³ówkowy. Sam program nie jest zinternacjonalizowany (nie korzysta z gettext), a wiźc jedynym nag³ówkiem powi¹zanym z I18N jest iconv.h

m17n.c

Pokazuje niektóre aspekty wielojźzycznego wywietlania tekstów

powi¹zanego z I18N.

#include <iconv.h>

/* Ogólnie wymagane */

#include <stdio.h>

#include <string.h>

#include <stdlib.h>

/* Wymagany materia³ X */

#include <X11/Intrinsic.h> /* Definicje wewnźtrzne */

#include <X11/StringDefs.h> /* Standardowe definicje nazw */

#include <X11/Xaw/Label.h> /* Etykiety z pakietu widsetów Athena */

#include <X11/Xaw/Form.h> /* Elementy formularzy z widsetów Athena */

Teraz definiujemy typy danych aplikacji zwi¹zane z I18N:

Wpis o jźzyku

Dane tekstowe

Przechowuje informacje o kasdym jźzyku

typedef struct _LangRec LangRec;

Deklaracje metody LangRec

int langRecValidP (LangRec*); /* prawda, gdy ograniczenia kodowania OK */

char* englishName (LangRec*); /* 'przekszta³ca' nazwź UTF-8 na ASCII */

/* Te funkcje przydzielaj¹ pamiźę; wywo³uj¹cy musi j¹ zwolnię */

char* nativeName (LangRec*); /* zmienia UTF-8 na kodowanie rodzime */

char* nativeHello (Langrec*); /* zmienia hello UTF-8 na kod rodzimy */

Dalej nastźpuj¹ informacje usywane w tabeli jźzykowej. Trzy pocz¹tkowe napisy w kasdym wpisie s¹ faktycznie zakodowane w UTF-8. Zwróęmy uwagź na to, se znaki ASCII wystźpuj¹ bez zmian, rozszerzone znaki alfabetu ³acińskiego stosowane w jźzyku hiszpańskim (np. ma³e „n” z tyld¹ i odwrócony wykrzyknik) s¹ zakodowane za pomoc¹ dwóch bajtów (dla bezpieczeństwa z modyfikatorem szesnastkowym), za znaki japońskie, chińskie i koreańskie maj¹ kody trzybajtowe:

#define NUMLANGS 6

LangRec languages[NUMLANGS] = ,

/* Jźzyki */

/* Japoński krój pisma usyty w tym miejscu jest zawarty w X11 */

/* Koreańskie i chińskie kroje pisma s¹ rzadziej spotykane */

'EUC-KR', 'ksc5601.1987-0', 'mincho' },

'GB2312', 'gb2312.1980-0', 'song ti' }

Nastźpny fragment programu zawiera deklaracje struktur danych i definicje funkcji tworz¹cych tabelź. Nie s¹ one interesuj¹ce z punktu widzenia I18N i dlatego tutaj je pominiźto.

Angielski krój pisma jest stosowany w kilku podprogramach. Dla wygody programisty zakodowano go na sta³e i zadeklarowano jako globalny. Zadeklarowano tu równies program pomocniczy tworz¹cy XLFD na podstawie rejestru kodowań i rodziny krojów pisma:

NUDNY FRAGMENT GLOBALNY

Globalne zmienne s¹ z³em, ale jestem leniwy.

char *englishXLFD = '-*-Helvetica-medium-r-*-*-24-*-100-100-*-*-iso8859-1';

XFontStruct *englishFont = NULL;

Deklaracje funkcji pomocniczej

char *makeXLFD (char*, char*);

Nastźpnie pojawiaj¹ siź funkcje zwi¹zane z I18N. Funkcja utfToNative korzysta z iconv(3), jak to widzielimy wczeniej. Wystźpuje tu jednak pewne wypaczenie spowodowane tym, se funkcja iconv(3) jest przeznaczona do obs³ugi strumieni zewnźtrznych:

/* Implementacje metody LangRec */

utfToNative()

wiźcej podstawowych manipulacji za pomoc¹ iconv

#define UTNBUFSZ 256

char* utfToNative (const char *source, const char *iconv_charset)

fprintf (stderr, 'iconv failed for %sn', iconv_charset);

iconv_close (cd);

return (char *) NULL;

Teraz nastźpuje kod obs³uguj¹cy kroje pisma. Mosna zostawię obs³ugź odwzorowania jźzyków na kroje pisma bibliotece Xlib, usywaj¹c krojów dostźpnych w tej bibliotece. Korzystaj¹ one jednak przewasnie z kodowania ISO-2022, co nie jest polecane dla aplikacji wymagaj¹cych dynamicznych zmian. Kroje te niezbyt dobrze siź sprawuj¹ w rodowisku Unicode ze wzglźdu na braki niektórych zestawów. Ich obs³uga jest takse niezbyt przyjazna, pomimo istnienia aplikacji pomocniczych zarówno w samym X11, jak i w pakiecie GNOME.

Nie mosna wiźc usyę Unicode i mieę nadziei na wybór ³adnych krojów pisma, poniewas niektóre jźzyki korzystaj¹ wprawdzie z takich samych znaków, ale pojźcie „³adnego wygl¹du” bywa w nich odmiennie rozumiane. W wypadku wspólnych znaków jźzyka chińskiego, japońskiego oraz koreańskiego glify s¹ zazwyczaj odmiennie ukszta³towane i osoba nie znaj¹ca uproszczeń usywanych przez Chińczyków i Japończyków nie potraktuje ich jako znaków o tym samym znaczeniu. W typowych zastosowaniach internacjonalizacyjnych nie ma z tym zbyt wielkiego problemu, ale w aplikacjach wielojźzycznych problem staje siź jus powasny.

/* Implementacja metody LabelRow */

init()

Zwraca 1 przy powodzeniu, 0 przy b³ździe (w szukaniu nativeFont).

Przerwanie przy b³ździe w szukaniu englishFont.

int init (LabelRow *labelRow, LangRec *lr, Widget parent)

}

if (!(nativeFont = XLoadQueryFont (XtDisplay(parent),

makeXLFD (lr->font, lr->x_registry))))

snprintf (widgetname, 128, 'english%d', rownum);

labelRow->english =

XtVaCreateManagedWidget (widgetname, labelWidgetClass, parent,

XtNlabel, englishName (lr),

/* fragment I18N */

XtNfont, englishFont,

XtNinternational, FALSE,

XtNecoding, englishFont->min_byte1 == englishFont->max_byte1

? XawTextEncoding8bit

: XawTextEncodingChar2b,

NULL);

snprintf (widgetname, 128, 'native%d', rownum);

labelRow->native =

XtVaCreateManagedWidget (widgetname, labelWidgetClass, parent,

XtNlabel, nativeName (lr),

XtNborderWidth, 0,

/* fragment I18N */

XtNfont, nativeFont,

XtNinternational, FALSE,

XtNecoding, nativeFont->min_byte1 == nativeFont->max_byte1

? XawTextEncoding8bit

: XawTextEncodingChar2b,

NULL);

snprintf (widgetname, 128, 'hello%d', rownum);

labelRow->hello =

XtVaCreateManagedWidget (widgetname, labelWidgetClass, parent,

XtNlabel, nativeHello (lr),

XtNborderWidth, 0,

/* fragment I18N */

XtNfont, nativeFont,

XtNinternational, FALSE,

XtNencoding, nativeFont->min_byte_1 == nativeFont->max_byte1

? XawTextEncoding8bit

: XawTextEncodingChar2b,

NULL);

++rownum;

return 1;

G³ówna funkcja programu po prostu ustawia pźtlź aplikacji w Xt i wywo³uje j¹. Jest to nudne, mosna to pomin¹ę i dlatego zosta³o to pominiźte.

Manipulacje krojem pisma i struktur¹ LangRec nie s¹ trudne. Jedynym wyj¹tkiem jest tu funkcja langRecValidP. Ma ona sprawdzaę, czy kasdy element LangRec sk³ada siź z trzech napisów w kodzie UTF-8 i dwóch napisów w kodzie ASCII. W przypadku ASCII wystarczy sprawdzenie, czy kasdy znak ma kod mieszcz¹cy siź w przedziale w zakresie od 0x20 do 0x7E. Kod UTF-8 wnosi wiźcej komplikacji, poniewas zalesy od kontekstu. Jego sygnatura jest jednak ca³kiem ³atwo rozpoznawalna. Jeli pierwszy bajt kodu jest kodem znaku ASCII (zerowy ósmy bit), to ca³y znak ma kod jednobajtowy (faktycznie jest wiźc to znak ASCII). W przeciwnym wypadku liczba najstarszych bitów równych 1 odpowiada liczbie bajtów kodu znaku, maj¹cych postaę 10xxxxxx. Kod tej funkcji nie zosta³ napisany ze wzglźdu na krótki termin przygotowania tekstu do ksi¹ski.

/* Manipulacje XLFD i XFont */

char *makeXLFD (char *font, char *registry)

/* Implementacja metody LangRec */

int langRecValidP (LangRec *lr)

char *englishName (LangRec *lr)

char *nativeName (LangRec *lr)

char *nativeHello (LangRec *lr)

/* koniec m17n.c */

Nieco nudne szczegó³owe zastosowania geometrii wystźpuj¹ce w programie nie zosta³y tu pokazane. Kończ¹c opis programu, chcemy dla przypomnienia pokazaę, czego nalesy oczekiwaę po kompilacji pe³nego kodu ród³owego pobranego z serwera ftp wydawnictwa Helion (ftp://ftp.helion.pl/przyk³ady/zaprli.zip):

Na szczźcie, niezalesnie od tego, se przetwarzanie danych wejciowych jest znacznie trudniejsze nis wytwarzanie danych wyjciowych, to w wielu wasniejszych pakietach do tworzenia interfejsów graficznych (np. Qt i GTK+) pojawi³y siź jus widsety tekstowe zgodne z XIM (w niektórych pakietach stosuje siź takse przekszta³canie na Unicode). Poniewas zaleca siź, aby kodowanie wewnźtrzne by³o odmian¹ Unicode, w przypadku t³umaczenia danych wejciowych z kodu rodzimego na Unicode nalesy zastosowaę metodź dzia³aj¹c¹ odwrotnie nis opisana w przyk³adowym programie.

I18N i interfejsy graficzne w Linuksie

Linux na poziomie podstawowej biblioteki systemowej (libc) znacznie rozwin¹³ siź w ci¹gu ostatnich kilku lat. Dotyczy to zarówno unormowania w³aciwoci, interfejsów programowych i sk³adni, jak i zastosowań — szczególnie w bibliotece libc w wersji GNU. Obs³uga tekstu jest na pewno ³atwiejsza nis prezentacja interfejsu graficznego, poniewas ma on na ogó³ strukturź liniow¹ (chocias wystźpuje w nim ³amanie wierszy), za GUI ma strukturź dwu- lub wiźcej wymiarow¹. Dlatego w³anie na wysszych poziomach, a w szczególnoci w pakietach do tworzenia GUI, nie nast¹pi³ tak znaczny postźp ani w normalizacji, ani w zastosowaniach. W pracach maj¹cych na celu opracowanie norm I18N dla Linuksa przewodzi Linux Internationalization Initiative. Opracowana tam szkicowa propozycja standardu Li18nux (dostźpna pod adresem https://www.li18nux.net/ i przewidziana do zatwierdzenia w czasie druku tej ksi¹ski) wskazuje szczególnie na GUI jako obszar wymagaj¹cy unormowania, ale nie gotowy jeszcze do przyjźcia jakichkolwiek rozwi¹zań ostatecznych.

Zawodowy programista pracuj¹cy w systemie Linux powinien dobrze zdawaę sobie sprawź z trudnoci, aby móc podj¹ę decyzjź o zastosowaniu najnowszych rozwi¹zań (które czźsto jeszcze nie uzyska³y postaci bibliotek) daj¹cych dodatkowe w³aciwoci funkcjonalne i przenonoę aplikacji.

Na przyk³ad, korzystaj¹c z czystego tekstu, zwykle tworzy siź listź wypunktowan¹ nastźpuj¹co:

o pozycja 1

o pozycja 2

Jeli tak¹ listź zapiszemy po hebrajsku, to naturalnie wiersze bźd¹ siź rozpoczynaę od prawej strony, za znaki wypunktowania zostan¹ „automatycznie” wyrównane do prawego marginesu. W interfejsie graficznym sprawa wygl¹da nieco inaczej. Obrazki bźd¹ce znakami wypunktowania s¹ umieszczane prawdopodobnie w sposób nie zwi¹zany z konkretnym rodowiskiem kulturowym (np. od lewego górnego rogu okna w dó³), a nastźpnie s¹ formatowane napisy tworz¹ce etykiety widsetów. W etykietach mosna wiźc uwzglźdnię hebrajskie formatowanie napisów od prawej do lewej, ale znaki wypunktowania pozostan¹ w takim przypadku na nieprawid³owych pozycjach.

Oczywiste jest, se takie rozwi¹zania, które s¹ prawid³owe w tekcie liniowo u³osonym (nawet ³amanym), bźd¹ wymaga³y wiźcej zachodu w wielowymiarowym interfejsie graficznym. Prawdopodobnie stanie siź to jeszcze trudniejsze, gdy do prezentacji interfejsu graficznego zostan¹ dodane pliki dwiźkowe i animacje. Pomimo tego, se wymiary obrazu, dwiźku i animacji wydaj¹ siź lepiej okrelone nis wymiary tekstu pisanego, to na pewno istniej¹ tu pu³apki wi¹s¹ce siź z normalizacj¹ i zastosowaniami w tych dziedzinach.

Niespodziewanie, ze wzglźdu na swój komercyjny charakter, zarówno dokumentacja, jak i wdrosenia biblioteki Qt s¹ znacznie bardziej zaawansowane nis GTK+. Biblioteka Qt wykorzystuje wewnźtrznie tylko Unicode i obs³uguje wiźkszoę kodowań zewnźtrznych (brak jeszcze obs³ugi jźzyków „dwukierunkowych”, jak arabski i hebrajski oraz skomplikowanych jźzyków „sk³adanych”, jak hindi lub jźzyk tajski). Qt zawiera katalogi komunikatów i korzysta z gettext PO do ich t³umaczeń, ale kompiluje je do w³asnego formatu (wynika to z tego, se w Qt nie mosna usyę gettext w wersji GNU na wielu platformach, tam gdzie libc w wersji GNU nie jest bibliotek¹ systemow¹).

Podobnie jak w duecie GTK+/GNOME, w Qt/KDE takse wyranie brak dokumentacji dla internacjonalizacji zarz¹dzania uk³adem interfejsu i komunikacji miźdzy klientami. Nie mosna tego jednak traktowaę jako braku w porównaniu do braków w samym wdroseniu. Wiźkszoę z zagadnień jest umieszczona na licie pos¹danych w³aciwoci. Najpowasniejszym brakiem w bibliotece Qt jest to, se nie nalesy ona do wolnego oprogramowania. Jeseli takie wymaganie dotyczy tworzonych programów (wynikaj¹ce czy to z powodu pewnej filozofii, czy tes z zobowi¹zań wobec licencji GPL), to nie mosna jej usyę. Z drugiej strony, Qt powinna byę silnym rywalem w przysz³oci, szczególnie w sensie przenonoci rozwi¹zań I18N na rósne platformy. Dokumentacja I18N jest dostźpna w sieci pod adresem https://doc.trolltech.com/i18n.html. Z drugiej strony, jeli planuje siź d³ugookresowo, to k³opoty w standardach i wdroseniach I18N na pewno powiźkszaj¹ ryzyko zwi¹zane z przyjźciem „zablokowanych” platform w rodzaju Qt, poniewas nie bździe mosna ich poprawiaę.

Wy³om w bies¹cym rozumieniu I18N stanowi¹ ostatnio opracowania z dziedziny „obiektów sieciowych”, uosabiane przez DCOM firmy Microsoft, otwarty standard CORBA i wdrosenia w GNOME „przyjaznych sieciowo” pulpitach przeznaczonych dla wolnych klonów systemu UNIX, a w szczególnoci dla Linuksa. Oczywicie, zestaw typów danych usywanych w architekturze CORBA jest wystarczaj¹co obszerny, aby zastosowaę w nim umiejscowienia zgodne ze standardem POSIX. Jedynym zmartwieniem jest to, se te typy danych s¹ zbyt ekspresyjne, aby pozwoli³y na wprowadzenie wielu wzajemnie niezgodnych koncepcji I18N. Zalecamy wiźc programistom ostrosnoę i przestrzeganie zgodnoci ze standardami w tych obszarach. Trochź wysi³ku w³osonego w dostosowanie do standardów, rozpoczynaj¹cego siź jus na pocz¹tku projektu zaprocentuje w przysz³oci bardzo dobrymi wynikami, jeli standaryzacja zostanie doprowadzona do końca.

Rola I18N w oprogramowaniu dla systemu Linux

As do tego miejsca w tym rozdziale zajmowalimy siź tylko internacjonalizacj¹ g³ównych bibliotek systemowych (libc Xlib i bibliotek zwi¹zanych z GUI). Trwaj¹ takse prace nad wprowadzeniem I18N do innych bibliotek, lecz nie s¹ one ujednolicone, poniewas nie ma zasad ogólnych, które mosna by wszździe przyj¹ę. Jako przyk³ad mosna podaę bazź danych PostgreSQL usywan¹ w aplikacji obs³uguj¹cej wyposyczalniź p³yt DVD. Baza ta w wersji 6.5.3 obs³ugiwa³a kilka kodowań danych, a w wersji 7.0.x dodano do niej obs³ugź Unicode (UTF-8). Ogólna obs³uga umiejscowień jest jednak doę s³aba, co potwierdzaj¹ nawet autorzy, wspominaj¹c o powolnoci tych funkcji. Biblioteka obs³uguj¹ca wywietlanie na ekranie, czyli ncurses, jest umiejscowiona w systemie na wystarczaj¹co niskim poziomie, aby umiejscowienia nie wp³ywa³y na ni¹ bezporednio. Jednak z drugiej strony, nie wprowadzono w niej jeszcze funkcji obs³uguj¹cych znaki o kodach wielobajtowych i znaki o sta³ej d³ugoci kodu, które s¹ wymienione w standardzie XSI. Nie ma wiźc wspomagania znaków o takich kodach nawet w emulatorach terminali posiadaj¹cych takie mosliwoci (wirtualna konsola Linuksa wcale nie obs³uguje takich znaków).

Podobnie jak biblioteki, takse i programy pomocnicze powstaj¹ce w ramach GNU s¹ najlepiej zinternacjonalizowane. Wiele z takich programów pomocniczych do obs³ugi plików, tekstów i pow³ok systemowych zawiera kompletne katalogi komunikatów dla rósnych wersji jźzykowych. Inne programy, do których mosna zaliczyę podstawowe programy sieciowe jak telnet i ftp, próbuj¹ tworzyę „czyste” 8-bitowe kana³y komunikacyjne i nikt jeszcze nie rozwasa³ zastosowania w nich modu³u gettext. Wiźkszoę z nich ma zlokalizowane wersje japońskie, ale znajduj¹ one niewielkie zastosowanie przy próbie uzyskania z nich np. wersji chińskiej lub francuskiej.

Jednym z najwasniejszych zagadnień s¹ jźzyki skryptowe. Sporód wasniejszych pow³ok systemowych tylko tcsh doczeka³a siź ostatnio internacjonalizacji. S¹ w niej katalogi komunikatów w jźzyku niemieckim, jźzykach romańskich, greckim i japońskim. Na szczźcie Perl w wersji 5.6, bźd¹cy najwasniejszym jźzykiem skryptowym zosta³ zmieniony w taki sposób, aby wewnźtrznie korzystaę z Unicode. Oprócz tego zawiera on pe³ny zestaw funkcji internacjonalizuj¹cych, które dzia³aj¹ tak samo, jak funkcje z biblioteki libc w wersji GNU. Python pozostaje nieco w tyle za jźzykiem Perl, ale w jego nastźpnym wydaniu bździe wprowadzona wewnźtrzna obs³uga Unicode, zatem modu³y wspomagaj¹ce I18N w jźzyku Python stan¹ siź wkrótce dostźpne.

I18N w rzeczywistych projektach

Dowiadczeni programici, którzy nie mieli jeszcze do czynienia z zagadnieniami I18N, dotar³szy to tego miejsca w ksi¹sce s¹ prawdopodobnie nieco oszo³omieni zakresem tematów i ich bardzo lakonicznym omówieniem. Mog¹ siź wówczas zastanawiaę, czy warto podejmowaę dodatkowy wysi³ek maj¹cy na celu poznanie tych zagadnień.

Celem tego rozdzia³u by³o przedstawienie krótkiego wprowadzenia do terminologii, metod i warsztatu usywanego przy I18N. Jeli Czytelnik czuje siź przekonany, se potźga I18N wymaga bolesnego wysi³ku i se mosna wiele zyskaę, podejmuj¹c ten wysi³ek, to czźę celów tego rozdzia³u zosta³a zrealizowana.

Rozdzia³ ten ma takse wykazaę, se zagadnienie I18N jest wartociowym przedsiźwziźciem. Patrz¹c na to ze strony zysków, trzeba np. pomyleę o mosliwoci przedstawienia swojego dzie³a na rynku licz¹cym miliard Chińczyków i drugi miliard Hindusów za stosunkowo niewielk¹ cenź lokalizacji (t³umacze w Tokio pobieraj¹ zwykle nie wiźcej nis jedn¹ trzeci¹ wynagrodzenia programisty, a zakres pracy da siź ³atwo oszacowaę). Nalesy tes pamiźtaę, se polepszanie podstawowego interfejsu usytkownika daje znikome zyski, poniewas usytkownicy naprawdź doceniaj¹cy aplikacjź prawdopodobnie bźd¹ sobie syczyli stosunkowo prostego interfejsu. I18N i wynikaj¹ca z tego lokalizacja da jednak ca³kowicie now¹ grupź cennych usytkowników, którzy nie usywali jeszcze przedstawionego im programu, bez wzglźdu na jego interfejs.

To rozumowanie, oczywicie, nie musi dotyczyę kasdej aplikacji. Warto jednak to przemyleę!

W praktyce podstawowe funkcje I18N bźd¹ kosztowaę prawdopodobnie mniej nis to siź wydaje na pierwszy rzut oka. Przede wszystkim, kasdy interfejs usytkownika mose byę ulepszony, a w wielu wypadkach proste podejcie ca³kowicie wystarcza do realizacji jakiego zadania. Jest wiźc prawdopodobne, se takie uproszczone potraktowanie sprawy I18N takse wystarczy dla potrzeb aplikacji. Oprócz tego, metody programowania obiektowego i narzździa automatycznie dodaj¹ce w³aciwoci I18N do programów umosliwiaj¹ odskok od nudnych zadań zarz¹dzania funkcjami niskiego poziomu i oznaczania komunikatów.

Programowanie obiektowe i I18N

Jeden z recenzentów tego rozdzia³u z wielkim bólem usi³owa³ wykazaę, se wiźkszoę metod I18N jest powtarzalna. Jest to naturalny obszar zastosowania metod programowania obiektowego. Mia³ on oczywicie racjź. Trzeba jednak podkrelię, se na dzień dzisiejszy wsparcie ze strony programowania obiektowego nie mose byę tak duse, jakiego siź oczekuje.

Najpierw rozwasmy zalety programowania obiektowego. Interfejsy w I18N (np. iconv(3)) s¹ bardzo ogólne, ale usywa siź w nich trudnych do odczytu konstrukcji (jak podwójne porednie odniesienie) i kilku obiektów po³¹czonych w bardzo ³adny sposób. W iconv(3) mamy dwa porednie bufory, dwa porednie wskaniki oraz kontekst konwersji, który trzeba przywo³aę w kasdym wywo³aniu. Naturalne jest wiźc po³¹czenie tego wszystkiego i dodanie metod wype³niania, konwersji i oprósniania buforów.

G³ównym powodem trudnoci w zastosowaniu metod obiektowych w I18N jest to, se w³aciwoci I18N s¹ s³abo przystosowane do zamykania w kontenerach (ang. encapsulation). Umiejscowienia ze standardu POSIX s¹ tego najlepszym przyk³adem, poniewas s¹ zmiennymi globalnymi dla procesu. Oznacza to, se nie mosna w prosty sposób zbudowaę obiektu zawieraj¹cego umiejscowienia i korzystaę z niego do zmiany tych umiejscowień.

Mosna potraktowaę konfiguracjź umiejscowień jako inicjacjź obiektu umiejscowienia, ale bardzo trudno to zrobię za pomoc¹ programowania obiektowego — s¹ to zwyk³e czynnoci w programowaniu strukturalnym, które mosna zrealizowaę za pomoc¹ funkcji lub makropolecenia.

Problem polega na tym, se aby zmienię umiejscowienie lokalnie, trzeba zatrzymaę inne dzia³aj¹ce w¹tki i wznowię je w sposób jawny po wyjciu z podprogramu. Automatyczne usuniźcie lokalnie przydzielonego obiektu mose pomóc przy zachowaniu pewnej dyscypliny w odtwarzaniu umiejscowienia. Jednak zmiana umiejscowienia jest operacj¹ kosztown¹, której nie mosna zbyt ³atwo wprowadzię.

Deskryptor konwersji usywany przez iconv(3) równies nie mose byę usywany przez rósne w¹tki. Tutaj takse mosna usyę metod programowania obiektowego, aby zapobiec operacjom, które nie mog¹ byę wykonywane poprzez publiczny interfejs. Polega to np. na utworzeniu klasy IconvThread, która bździe przydzielaę nowy prywatny deskryptor dla kasdego strumienia danych. Wydaje siź to nieefektywne i znacznie utrudnia projektowanie klasy ortogonalnej, która mog³aby byę usywana w kasdym kontekcie.

Drugim powodem os³abienia wydajnoci metod programowania obiektowego jest stopień komplikacji zadań. Przede wszystkim dotyczy to interfejsów usytkownika, które zawsze s¹ bardzo skomplikowane. Usytkownik mose pope³niaę bardzo wiele b³źdów przy wprowadzaniu danych, za programista musi pewnie obs³usyę jak najwiźcej takich mosliwych sytuacji. To zadanie jus ze swej natury wymaga wiele wysi³ku programisty. Spójrzmy teraz na ten problem w I18N: programista tworzy aplikacjź dla jźzyków, o których czźsto nawet nie s³ysza³, a wiźc nie ma pojźcia, jakiego rodzaju b³źdy trzeba bździe obs³usyę. B³źdy, które siź nie pojawiaj¹ lub które mosna zignorowaę dla danych wejciowych typu ASCII, mog¹ byę powszechnie pope³niane i byę niebezpieczne w jźzyku japońskim i odwrotnie. I18N ma siź wiźc tak do projektu zwyk³ego interfejsu jak „Kreigspiel” do szachów.

„Kreigspiel” jest odmian¹ gry w szachy, w której kasdy zawodnik ma oddzieln¹ szachownicź. Jedyn¹ informacj¹ o aktywnoci przeciwnika jest fakt pobicia (ale bez podawania rodzaju figury) oraz zabronienie ruchu przez sździego na skutek blokady miejsca przez figurź przeciwnika.

Programowanie obiektowe mose wiźc nadaę czytelnoę i u³atwię zachowanie porz¹dku dziźki mosliwoci zamykania w kontenerach. Wykorzystuj¹ce te zalety metody programowania obiektowego s¹ godne polecenia. Kasda aplikacja ma jednak rósne wymagania w stosunku do sk³adników I18N, wiźc obecnie mosna tylko pomarzyę o obszernej bibliotece zawieraj¹cej elementy wielokrotnego usytku.

I18N w pakietach do budowy aplikacji

Pakiety do tworzenia aplikacji bźd¹ z pewnoci¹ bardzo wspomaga³y I18N. Jedn¹ z najbardziej interesuj¹cych w³aciwoci, któr¹ dostrzeg³ autor tego rozdzia³u w kodzie interfejsu usytkownika przyk³adowej aplikacji do obs³ugi wyposyczalni DVD, by³o pojawienie siź w nim wiźkszoci wyników prac nad I18N. Autorzy ksi¹ski zastanawiali siź nad wprowadzeniem I18N, a programici po prostu to zrobili. Umosliwi³ to pakiet Glade.

Zastanówmy siź wiźc, co robi Glade (i czego nie robi) w dziedzinie I18N. Zauwasmy najpierw, se aplikacja nie zosta³a wcale lokalizowana. Nie wymaga ona niczego szczególnego w innych umiejscowieniach nis domylne umiejscowienie zgodne ze standardem POSIX. Przede wszystkim nie ma tu t³umaczeń. Pojawi³y siź w niej jednak nastźpuj¹ce w³aciwoci:

q Inicjacja funkcji umiejscawiaj¹cych w libc w wersji GNU (porednio poprzez GTK+),

q Inicjacja katalogu komunikatów (jawnie poprzez wywo³anie textdomain oraz bindtextdomain dodane przez Glade w pliku ./src/main.c

q Inicjacja metod obs³ugi wejcia (porednio poprzez GTK+),

q Deklaracja w³aciwoci gettext (dodana jawnie przez Glade w pliku ./src/support.h

q Pakowanie napisów w wywo³ania gettext (dodane jawnie przez Glade w postaci konwencjonalnego makropolecenia „

q Generacja szablonu katalogu komunikatów w pliku ./po/dvdstore.pot

Z punktu widzenia programisty to wszystko sta³o siź ca³kowicie automatyczne. W pakiecie Glade w wersji 0.5.7 wszystkie powyssze w³aciwoci — oprócz generacji szablonu katalogu komunikatów — dodawane s¹ domylnie. Proces ten jest uaktywniany po wyborze w Glade pozycji menu Options | LibGlade Options i uaktywnieniu Save Translatable Strings z plikiem po/dvdstore.pot. Katalog komunikatów nie jest kompletny, poniewas jest generowany w czasie tworzenia plików ród³owych. Wszystkie komunikaty dodane póniej w wywo³aniach zwrotnych i w g³ównym programie trzeba wiźc do³¹czaę rźcznie. Prawdopodobnie pakiet Glade mose to zrobię sam automatycznie po przebudowaniu projektu, ale wydaje siź, se do tego celu nie bźd¹ wywo³ywane funkcje pomocnicze gettext. Mosna takse skorzystaę z msgmerge(1) xgettext(1) lub pakietu Emacs pracuj¹cego w trybie po (dostźpnego jako po-mode.el w module gettext

W aplikacji niewiele pozosta³o do zrobienia, aby osi¹gn¹ę podstawow¹ funkcjonalnoę I18N. Po pierwsze, trzeba uzupe³nię szablon dla textdomain, zamieniaj¹c PACKAGE na dvdstore. Taka zamiana powinna byę wykonana takse w pliku src/support.h. Mosna siź spodziewaę, se w nastźpnych wersjach Glade bździe wykonywaę te czynnoci automatycznie, obecnie jednak tego nie robi.

Wywo³anie bindtextdomain jest zbźdne w naszej aplikacji i mosna je usun¹ę. Jest ono przydatne g³ównie tam, gdzie z jakich powodów dochodzi od konfliktów nazw z rósnych pakietów.

Wszystko to wystarcza do uzyskania podstawowej obs³ugi rósnojźzycznych komunikatów i trzeba jedynie znaleę t³umaczy, którzy utworz¹ pliki dvdstore.po dla kasdego obs³ugiwanego jźzyka, skompilowaę te pliki za pomoc¹ msgfmt(1) uzyskuj¹c pliki .mo nadaj¹ce siź do instalowania.

Do rozwi¹zania pozosta³y jeszcze trzy zagadnienia. Pierwsze z nich to brak obs³ugi rósnych walut. Jest to dosyę trudne, poniewas wymaga zmian projektu samej bazy danych polegaj¹cych na powi¹zaniu cen z rósnymi wersjami jźzykowymi. Powi¹zanie z umiejscowieniem mose jednak okazaę siź niewystarczaj¹ce, bowiem byę mose warto zrósnicowaę ceny w zalesnoci od wielkoci i po³osenia miejscowoci. Prawdopodobnie usycie do tego sk³adowej modyfikuj¹cej „ ” w umiejscowieniu s³us¹cej jako porednik do przechowywania adresu nie jest wystarczaj¹co elastyczne. Przygotowuj¹c siź jednak do takich modyfikacji, warto zmienię nastźpuj¹cy fragment kodu w pliku ./src/title_dialog.c

strncpy((new_title.rental_cost), g_strdup_printf('%f', cost), COST_LEN);

na nastźpuj¹cy:

char *buffer = g_malloc (COST_LEN);

/* Zauwasmy, se koszt jest zmiennoprzecinkowy takse w strfmon */

strfmon (buffer, COST_LEN, '%n, cost);

strncpy((new_title.rental_cost), buffer, COST_LEN);

Drugi problem polega na tym, se podobne zmiany musz¹ dotyczyę takse dat. Trzeba tu usyę funkcji strftime do formatowania dat widocznych dla usytkownika. G³ównym powodem tych zmian jest za³osenie o „humanizacji” dat i uzyskanie zgodnoci ze stylem zalecanym przez normź ISO 8601 (YYYY-MM-DD), tak aby w przysz³oci programista modyfikuj¹cy aplikacjź mia³ u³atwione zadanie (aby daty usywane wewn¹trz bazy danych i daty pokazywane usytkownikowi da³o siź ³atwo odrósnię).

Trzecim zagadnieniem jest usycie parametru opisuj¹cego pozycjź t³umaczonych napisów, gdy wystźpuje wiźcej nis jedna specyfikacja formatu. Na przyk³ad w pliku ./src/disk_dialog.c znajduje siź nastźpuj¹cy fragment kodu:

msg = g_strdup_printf(_('Created Disk ID %d for Title ID %d'),

new_disk.disk_id,

new_disk.title_id);

Wygl¹da to zupe³nie niewinnie, ale w niektórych jźzykach (np. w niemieckim i japońskim) usywany jest odmienny szyk nis w jźzyku angielskim (podobnie jak „odwrotna notacja polska”). Naturalnie jest w nich powiedzenie równowasne angielskiemu „For Title ID %d, Disk ID %d was created”. W jźzyku angielskim jest wiźc to mosliwe, chocias brzmi nieco dziwnie. Problem stanowi to, se programista mose nic nie wiedzieę o takich sprawach. Jest to zadanie, którym zajmuj¹ siź eksperci od t³umaczeń. W innych jźzykach mose byę wymagany jeszcze inny szyk.

Jedynym rozwi¹zaniem, które mose zastosowaę programista, s¹ zatem parametry pozycyjne. Jest to obecnie standardowa w³aciwoę w bibliotece jźzyka C i na pewno s¹ one obs³ugiwane przez libc w wersji GNU. W kodzie ród³owym nalesy wiźc dokonaę nastźpuj¹cej zmiany:

/* Uwaga na ci¹gi formatuj¹ce '%' INTEGER '$d' */

msg = g_strdup_printf(_('Created Disk ID %1$d for Title ID %2$d'),

new_disk.disk_id,

new_disk.title_id);

W pliku .po dla wersji japońskiej, czyli w /po/ja/dvdstore.po, nalesy dodaę

#: src/disk_dialog.c:30

msgid 'Created Disk ID %1$d for Title ID %2$d'

msgstr 'For Title ID %2$d, Disk ID %1$d was created'

Zwróęmy uwagź na to, jak parametry pozycyjne wskazuj¹ poprawne powi¹zania „Disk ID” z new_disk.disk_id oraz „Title ID” z new_disk.title_id. Nie powinno byę to zbyt k³opotliwe, poniewas umieszczanie parametrów pozycyjnych w kodzie ród³owym mosna w prosty sposób zautomatyzowaę za pomoc¹ skryptów jźzyka Perl lub Python. W rzeczywistoci jedynie 5% zlokalizowanych napisów w naszej aplikacji korzysta z wiźcej nis jednego konwertera formatu. Nie jest to rzecz niespotykana, poniewas takie napisy spotyka siź stosunkowo rzadko.

Podsumowuj¹c wszystko, wydaje siź, se nie w³osono zbyt wiele wysi³ku w internacjonalizacjź przyk³adowej aplikacji. Jest to usprawiedliwione faktem, se programici tworz¹cy aplikacjź nie specjalizuj¹ siź w dziedzinie I18N, ale mimo to wykonali ok. 95% zadań.

Co dalej z I18N w systemie Linux?

Organizacja o nazwie The Linux Internationalization Initiative (https://www.li18nux.net/) przoduje we wdrasaniu w³aciwoci I18N w systemie Linux, a ogólnie mówi¹c — w wolnych odmianach systemu UNIX. W³¹czenie tych w³aciwoci do w³asnego programu zalesy tylko od jego twórcy, a wiźc nie nalesy zwlekaę!

Odnoniki z komentarzami

Internacjonalizacja obejmuje szeroki zakres problemów, g³ównie o charakterze technicznym. Wspomnielimy jus w tym rozdziale o kilku materia³ach ród³owych, ale dla przypomnienia wymienimy je ponownie. Rozpoczynaj¹c od tej lektury, mosna bździe znaleę opis wszystkich zagadnień, którymi zajmuje siź I18N.

Li18nux - The Linux Internationalization Initiative

Jest to konsorcjum utworzone przez dystrybutorów systemu Linux, firmy i osoby zainteresowane tworzeniem standardów i najlepszych wzorców dla internacjonalizacji Linuksa. Wstźpn¹ wersjź standardu Li18nux 2000 (z maja 2000 r.) mosna znaleę pod adresem https://www.linux.net/root/LI18NUX2000/li18nux2k_draft.html.

Standardy ISO, zw³aszcza Unicode

Li18nux powo³uje siź na wiele standardów. Niestety, ich drukowane wersje s¹ zazwyczaj bardzo drogie. Wiźkszoę z nich ma swoje tańsze alternatywy, czźsto nawet lepszej jakoci. Kasdy z programistów podchodz¹cy powasnie do zagadnień I18N powinien mieę dostźp do standardu ISO 10646 (zawieraj¹cego definicje uniwersalnego zestawu znaków), ale kosztuje on oko³o 500 dolarów! Unicode Standard w wersji 3.0 kosztuje tylko oko³o 50 dolarów i zawiera nie tylko definicje zestawu znaków, ale takse wiele dodatkowych informacji o przetwarzaniu tekstu. Wiele tabel, przyk³adów i narzździ mosna takse znaleę w Internecie pod adresem https://www.unicode.org/.

Internetowe dokumenty RFC, zw³aszcza MIME

Seria dokumentów RFC publikowana przez Internet Engineering Task Force stanowi g³ówny obszar zainteresowania dla specjalistów wdrasaj¹cych poszczególne protoko³y i dla samych twórców standardów. Jednak wiele dokumentów RFC wzoruje siź na I18N, za grupa powiźcona standardowi MIME (RFC o numerach od 2045 do 2049) jest tu szczególnie wasna ze wzglźdu na zastosowanie MIME w poczcie elektronicznej i wiadomociach z grup dyskusyjnych. Oprócz tego wiele zasad stosowanych w MIME przyjźto bezporednio w innych protoko³ach (np. w HTTP). Warto wiźc przejrzeę dokument rfc-index.txt, dostźpny na wielu serwerach przechowuj¹cych kopie dokumentów RFC.

CJKV Information Processing: Chinese, Japanese, Korean, and Vietnamese Computing

Autorem tej ksi¹ski jest Ken Lunde, a wyda³o j¹ wydawnictwo O’Reilly and Associates w roku 1999. Jest to biblia dla osób zajmuj¹cych siź przetwarzaniem jźzyków azjatyckich i punkt wyjcia dla rozpoczynaj¹cych zaawansowane studia w tej dziedzinie. Wiele przyk³adów i narzździ mosna znaleę pod adresem: ftp://ftp.uu.net/vendor/oreilly/nutshell/cjkv/.

Wdrosenia

Oczywicie, to jest Linux. Wiele narzździ i aplikacji jest jus napisanych w wersjach miźdzynarodowych. Niektóre z nich nie s¹ mose doskona³e — lecz mosna spróbowaę polepszyę je samemu, nieprawdas? „Use the Source, Luke”.

q Biblioteki systemowe: j¹dro Linuksa, GNU libc, X11R6

q GUI i menedsery wygl¹du pulpitu: GTK+, GNOME, Qt, KDE

q Polecenia systemowe: programy pomocnicze GNU dla plików, pow³oki i tekstów

q Edytory: GNU Emacs/Mule, XEmacs/Mule, yudit

q Przegl¹darki: Lynx, Mozilla

q Jźzyki: C/C++, Perl, Python

q Biblioteki zwi¹zane z aplikacjami: bazy danych itp.

Nie ma jeszcze automatycznego oczyszczania pamiźci dla I18N, ale prawdopodobnie nied³ugo jus siź ono pojawi. I18N zapewni wiźc pracź dla wielu programistów w daj¹cym siź przewidzieę okresie. W sytuacji gwa³townie postźpuj¹cej globalizacji WWW i rynku oprogramowania (czyli ogólnie rzecz bior¹c — rozwoju oprogramowania) odpowiedzialni za opracowania dobrych projektów i ich wdrosenie na tym polu mog¹ siź spodziewaę wielkiej nagrody.

Politica de confidentialitate | Termeni si conditii de utilizare

DISTRIBUIE DOCUMENTUL

Vizualizari: 742
Importanta:

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Distribuie URL
https://www.scrigroup.com/limba/poloneza/313/Wersje-midzynarodowe72279.php

Adauga cod HTML in site
<a href="https://www.scrigroup.com/limba/poloneza/313/Wersje-midzynarodowe72279.php" target="_blank" title=" - https://www.scrigroup.com/limba/poloneza/313/Wersje-midzynarodowe72279.php">Wersje miźdzynarodowe</a>

Wersje miźdzynarodowe

komputerów

DOCUMENTE SIMILARE

Wersje miźdzynarodowe

Terminologia I18N

Czy Unicode nie jest rozwi¹zaniem?

Unicode

Czym to jest

Co to umosliwia

i czego nie umosliwia

Problem kodowania znaków

ISO2022: Techniki poszerzania zakodowanych zestawów znaków

Programowanie z usyciem Unicode

Modele I18N i rodowisko systemowe

Model umiejscowienia POSIX

Zestawienia

Typy znaków

Komunikaty

Waluta

Liczby

Czas

Przewodnik X/Open dotycz¹cy przenonoci (XPG)

Rozszerzenia GNU lib dla modeli POSIX i X/Open

Autonomiczna biblioteka i dokumentacja dla GNU gettext

Formatowanie danych wyjciowych i przetwarzanie danych wejciowych

X Window System

Formatowanie danych wyjciowych

Wprowadzanie danych przez usytkownika

Praktyczne aspekty programowania I18N

I18N i wewnźtrzne przetwarzanie tekstu

Programowanie z usyciem funkcji umiejscowień

Rozmiary

Przekszta³cenia

Obs³uga wejcia i wyjcia

Formatowanie napisu

Klasyfikacja znaku

Przekszta³cenia

Kopiowanie i wype³nianie napisu

Przeszukiwanie napisu

Zestawienia

Wyrasenia regularne

Manipulacja umiejscowieniami

Katalogi wiadomoci

I18N i programowanie z zastosowaniem Xlib

I18N i interfejsy graficzne w Linuksie

Rola I18N w oprogramowaniu dla systemu Linux

I18N w rzeczywistych projektach

Programowanie obiektowe i I18N

I18N w pakietach do budowy aplikacji

Co dalej z I18N w systemie Linux?

Odnoniki z komentarzami

Li18nux - The Linux Internationalization Initiative

Standardy ISO, zw³aszcza Unicode

Internetowe dokumenty RFC, zw³aszcza MIME

CJKV Information Processing: Chinese, Japanese, Korean, and Vietnamese Computing

Wdrosenia

DISTRIBUIE DOCUMENTUL

Comenteaza documentul:

Modele I18N i rodowisko systemowe

Przewodnik X/Open dotycz¹cy przenonoci (XPG)

Formatowanie danych wyjciowych i przetwarzanie danych wejciowych

Formatowanie danych wyjciowych

Obs³uga wejcia i wyjcia

Katalogi wiadomoci

Odnoniki z komentarzami