CATEGORII DOCUMENTE
Afaceri Calculatoare Casa masina Didactica pedagogie Diverse Educatie Finante Geografie Istorie & politica Legislatie Limba Management Sanatate Tehnologie

Bulgara	Ceha slovaca	Croata	Engleza	Estona	Finlandeza	Franceza
Germana	Italiana	Letona	Lituaniana	Maghiara	Olandeza	Poloneza
Sarba	Slovena	Spaniola	Suedeza	Turca	Ucraineana

Administracja	Bajki	Botanika	Budynek	Chemia	Edukacja	Elektronika	Finanse
Fizyczny	Geografia	Gospodarka	Gramatyka	Historia	Komputerów	Książek	Kultura
Literatura	Marketingu	Matematyka	Medycyna	Odżywianie	Polityka	Prawa	Przepisy kulinarne
Psychologia	Różnych	Rozrywka	Sportowych	Technika	Zarządzanie

XML i libxml

komputerów

+ Font mai mare | - Font mai mic


DOCUMENTE SIMILARE

XML i libxml

Ostatnio najmodniejszym tematem jest XML, czyli eXtensible Markup Language. Jeseli spojrzymy do którejkolwiek gazety „komputerowej”, to znajdziemy wzmiankź o XML, czźsto w po³¹czeniu ze skrótami SAX, XSLT, DOM, DTD i innymi. Przegl¹daj¹c katalogi ksi¹sek, równies mosna natrafię na bardzo wiele pozycji powiźconych XML i tematom pokrewnym.

Podczas wstźpnych rozmów z wydawnictwem Wrox omawialimy koncepcjź i zawartoę tej ksi¹ski oraz przyk³adow¹ aplikacjź, która mia³a pos³usyę jako szkielet pomagaj¹cy pokazaę metody omawiane w kasdym z rozdzia³ów. Aby ta aplikacja dzia³a³a, potrzebne by³y jakie przyk³adowe dane do katalogu wyposyczalni p³yt DVD. Wydawnictwo natychmiast wys³a³o nam dane (podziźkowania dla DanM!) w formacie XML. Oto pocz¹tkowy fragment tego pliku pokazany dla oddania atmosfery (przy okazji: ceny nie s¹ poprawne):

<?xml version='1.0' encoding='UTF-8' standalone='yes' ?>

<!DOCTYPE catalog [

<!ELEMENT catalog (dvd+) >

<!ELEMENT dvd (title, price, director, actors, year_made)>

<!ATTLIST dvd

asin CDATA #REQUIRED >

<!ELEMENT title (#PCDATA)>

<!ELEMENT price (#PCDATA)>

<!ELEMENT director (#PCDATA)>

<!ELEMENT actors (actor+)>

<!ELEMENT actor (#PCDATA)>

<!ELEMENT year_made (#PCDATA)>

<title>Grand Illusion</title>

<director>Jean Renoir</director>

<actor>Jean Gabin</actor>

</actors>

<year_made>1938</year_made>

</dvd>

<title>Seven Samurai</title>

<director>Akira Kurosawa</director>

<actor>Takashi Shimura</actor>

<actor>Toshiro Mifune</actor>

</actors>

<year_made>1954</year_made>

</dvd>

</catalog>

By³y to rzeczywicie dobre dane przyk³adowe i nie bylimy raczej zdumieni formatem przekazu, ale w jaki sposób mielimy je przekszta³cię na postaę usyteczn¹ w naszej bazie danych? Pocz¹tkowo zak³adalimy, se dane bźd¹ dostarczone w postaci pliku z polami oddzielonymi za pomoc¹ przecinków (tzw. format CSV, ang. comma separated variable) lub w innym formacie ³atwo przyswajalnym przez bazź danych.

Oczywicie, mosna by³o napisaę nowy program w jźzyku C (lub w jźzyku Python, Perl itd.), który zmienia³by format zapisu danych. Mylelimy takse o zastosowaniu programów flex i bison wspomagaj¹cych obs³ugź sk³adni. Zastanawialimy siź nad napisaniem programu przekszta³caj¹cego w postaci arkusza stylu (XSL, eXtensible Stylesheet Language), próbuj¹c rozgryę ten plik za pomoc¹ programu awk lub wyraseń regularnych jźzyka Perl

Doszlimy w końcu do wniosku, se dokonanie „poprawnego” rozbioru XML bździe mosliwe za pomoc¹ parsera XML. Po cós budowaę w³asny parser, jeli istnieje kilka eleganckich i bezp³atnych programów? Ich zastosowaniem zajmiemy siź w tym rozdziale.

Opiszemy tutaj nastźpuj¹ce zagadnienia:

q Krótki przegl¹d dokumentów XML i sposoby ich definiowania,

q Przegl¹d zastosowań niektórych programów wspomagaj¹cych przetwarzanie dokumentów XML w systemie Linux,

q Omówienie wywo³ań zwrotnych programu SAX zastosowanych do pobierania danych z dokumentu XML.

Struktura dokumentu XML

Zanim zajmiemy siź problemami odzysku danych z naszego dokumentu dvdcatalog.xml, powinnimy dok³adnie poznaę, czym jest XML i jak s¹ tworzone dokumenty XML.

Sk³adnia XML

Na pierwszy rzut oka dokumenty XML wygl¹daj¹ bardzo podobnie do dokumentów HTML, poniewas zawieraj¹ znaczniki, atrybuty znaczników oraz dane miźdzy znacznikami. Takie podobieństwo wynika z tego, se zarówno HTML, jak i XML wywodz¹ siź ze wspólnego ród³a, czyli z SGML (Standard Generalized Markup Language). XML jest podzbiorem SGML i — mimo podobieństwa do HTML wystźpuj¹ miźdzy nimi bardzo wasne rósnice:

q HTML jest usywany g³ównie dla celów zobrazowania informacji.

Niezalesnie od tego, se pierwotne wersje HTML koncentrowa³y siź wokó³ opisu elementów dokumentu (np. „to jest nag³ówek”), to póniej zaczźto stosowaę wiele znaczników (ang. markup tags) nios¹cych informacjź o sposobie wywietlania danych, nie rozszerzaj¹c jednak ich znaczenia na definicje faktycznej zawartoci dokumentu. Znaczniki w XML nie zawieraj¹ za informacji o sposobie prezentacji dokumentu — mówi¹ natomiast o tym, czym s¹ w istocie przekazywane w nim dane. Oczywicie, mosemy usyę znaczenia danych do okrelenia sposobu ich prezentacji, ale mimo wszystko jest to bardzo istotne rozrósnienie. Spójrzmy na pierwszy film opisany w naszym przyk³adowym dokumencie. Na stronie HTML opisuj¹cej ten film moglibymy widzieę wyrósniony tekst „Jean Renoir” i „Jean Gabin”, oznaczaj¹cy osoby. Bez informacji kontekstowej nie mosna by³oby jednak powiedzieę, kto jest aktorem, a kto resyserem. W XML mosemy oznaczyę te pola w³anie odpowiednio jako resysera i jako aktora, czyli przekazaę informacjź o ich znaczeniu.

q Dokumenty HTML nie s¹ spe³niaj¹ wymagań XML.

Odnosi siź to nawet do tych dokumentów, które s¹ zgodne z definicjami HTML w wersji 4. Zosta³a zdefiniowana nowa wersja HTML oznaczana skrótem XHTML, która zapewnia równoczesn¹ zgodnoę definicji XHTML i XML.

q W znacznikach XML jest brana pod uwagź wielkoę liter.

W HTML znacznik <H1> jest traktowany tak samo jak znacznik <h1>, lecz w XML s¹ to ca³kowicie rósne znaczniki. W jźzyku angielskim nieco dziwna wydaje siź zamiana wielkich liter na ma³e, ale w innych jźzykach uzalesnienie XML od wielkoci liter jest przyjmowane w sposób naturalny i pozwala unikn¹ę wielu pu³apek spotykanych przy automatycznej konwersji. Dane XML nie ograniczaj¹ siź tylko do zestawu znaków ASCII; mosna w nich stosowaę pe³ny zestaw UNICODE jeseli tylko jest to potrzebne. Nie wolno tylko usywaę znaczników, których nazwy rozpoczynaj¹ siź od xml lub xsl, niezalesnie od wielkoci usytych liter. Wszystkie nazwy, które tak siź rozpoczynaj¹, s¹ zarezerwowane przez World Wide Web Consortium (W3C), czyli przez komitet normuj¹cy XML.

Dobrze sformatowany dokument XML

Podobnie jak najnowsze wersje standardu HTML, równies i standardy dla dokumentów XML s¹ cile okrelone za pomoc¹ regu³ sk³adniowych opracowanych przez World Wide Web Consortium (dalej nazywane W3C). Mosna siź z nimi zapoznaę w materia³ach ród³owych wymienionych na końcu tego rozdzia³u. Dokument XML musi spe³niaę te wymagania, aby mosna by³o go nazwaę dokumentem „dobrze sformatowanym”. Jeseli te regu³y nie s¹ spe³nione, nie jest to dokument XML.

W tym rozdziale omówimy skrótowo regu³y sk³adni XML, których nalesy przestrzegaę.

Sekcje

Kasdy dokument XML sk³ada siź z trzech sekcji (a nie tak jak HTML — z dwóch). Sekcje te zosta³y nazwane: prolog, treę i epilog (faktycznie w standardzie nie usyto nazwy epilog). Jedynie sekcja treę (ang. body) jest obowi¹zkowa; pozosta³e dwie nie musz¹ wystźpowaę w dokumencie.

Prolog

Pierwsza sekcja dokumentu XML stanowi¹ca prolog „mose i powinna rozpoczynaę siź od deklaracji XML” (to cytat wziźty z oficjalnej normy). Pomimo tego, se przed chwil¹ wspomnielimy o braku przymusu usycia tej sekcji, to dokument normatywny zaleca usycie jej przynajmniej w minimalnej postaci we wszystkich dokumentach XML. Deklaracja XML wygl¹da nastźpuj¹co:

<?xml version='1.0'?>

Jak ³atwo odgadn¹ę, deklaracja ta zawiera nie tylko informacjź, se dokument jest dokumentem XML, ale takse to, se spe³nia okrelon¹ wersjź specyfikacji XML (w tym przypadku 1.0). Mosna takse podaę w tej deklaracji specyfikacjź jźzyka oraz informacje dodatkowe, mówi¹ce czytelnikowi (cz³owiekowi lub komputerowi), czy do interpretacji XML wymagane s¹ jakie dokumenty zewnźtrzne. W naszym przyk³adzie wygl¹da to nastźpuj¹co:

<?xml version='1.0' encoding='UTF-8' standalone='yes' ?>

Mamy tu informacjź, se w dokumencie usyto znaków omiobitowych zdefiniowanych w zestawie Unicode UTF-8 (czyli ISO-LATIN1) i se nie s¹ wymagane sadne dokumenty zewnźtrzne. W prologu mosna takse okrelię typ dokumentu, rozpoczynaj¹c od oznaczenia <!DOCTYPE (tak jak w naszym przyk³adzie). Poniewas jednak nie omawialimy tego oznaczenia, to powrócimy do niego przy okazji skrótowego omawiania definicji typów dokumentu. Prolog mose takse zawieraę komentarze.

Treę

W treci dokumentu XML znajduj¹ siź w³aciwe dane. Zawiera ona tylko jeden element — objźty par¹ znaczników w taki sposób, jak dokument HTML jest objźty znacznikami <HTML></HTML>. W XML kasdy element mose zawieraę elementy zagniesdsone dowolnego poziomu. W naszym przyk³adzie pojedynczym elementem jest catalog, w którym s¹ zagniesdsone inne elementy zawieraj¹ce takse zagniesdsone elementy itd. Doę trudn¹ definicjź „elementu” od³osymy do nastźpnego podrozdzia³u.

W treci mosna wstawiaę komentarze.

Epilog

Epilog jest czźsto pomijany. Mose on zawieraę instrukcje dotycz¹ce przetwarzania i opisy zaawansowanych zagadnień, którymi nie musimy siź tutaj zajmowaę.

Elementy

Definiuj¹c treę dokumentu XML dla wygody pominźlimy definicjź samego elementu. Poniewas element jest podstawowym kontenerem do przechowywania danych w dokumencie XML, to jego znaczenie jest bardzo wasne. Musimy wiźc omówię go oddzielnie w tym podrozdziale.

Elementy s¹ pojemnikami zawieraj¹cymi dane, atrybuty, inne elementy lub kombinacje tych wszystkich sk³adników. Elementy s¹ ograniczane za pomoc¹ znaczników w nawiasach trójk¹tnych, podobnych do znaczników HTML. W odrósnieniu od HTML, w XML nie wolno pomin¹ę znacznika końcowego (w HTML czźsto pomijany jest np. znacznik końcowy </P>). Oprócz tego, o czym jus wspomniano, w znacznikach wasna jest wielkoę liter.

Znacznik pocz¹tkowy sk³ada siź z otwieraj¹cego nawiasu trójk¹tnego, nazwy i opcjonalnego zestawu atrybutów oraz z końcowego nawiasu trójk¹tnego. Znacznik końcowy zawiera dodatkowo ukonik umieszczony za nawiasem otwieraj¹cym. Poprawnie zapisany znacznik XML ma wiźc nastźpuj¹c¹ postaę:

<my_tag_name>The data content goes here</my_tag_name>

W pe³ni dozwolony jest brak zawartoci miźdzy par¹ znaczników. Oznacza to, se zamiast pisaę:

<my_tag_name> </my_tag_name>

mosemy usyę skróconego zapisu:

<my_tag_name/>

Taki pusty znacznik mose wygl¹daę nieco dziwnie, ale tylko dlatego, se nie omówilimy jeszcze atrybutów znacznika. Pozwalaj¹ one zawrzeę w znaczniku informacjź ilociow¹ prawie w taki sam sposób, jak w znacznikach HTML. Jako przyk³ad mosna podaę specyfikacjź tabeli, zawieraj¹c¹ szerokoci marginesu i wype³nienia:

</TABLE>

W XML dodajemy atrybuty z wartociami w bardzo podobny sposób, na przyk³ad zapis:

<my_tag_name text_type='example'>The data content goes here</my_tag_name>

definiuje znacznik z atrybutem text_type o wartoci example

Zasady dodawania atrybutów do znaczników XML s¹ bardziej cis³e nis przy znacznikach HTML:

q W XML wszystkie wartoci atrybutów musz¹ byę ujźte w cudzys³ów lub w apostrofy. Nie mosna wiźc np. usyę znacznika <TABLE BORDER=2>, który w HTML jest poprawny.

q W HTML jest mosliwe, chocias czasami powoduje to b³źdy, kilkakrotne usycie tej samej nazwy atrybutu w ramach jednego znacznika. W XML takie powtórzenia nie s¹ dozwolone.

q W wartociach atrybutów nie mog¹ wystźpowaę dwa znaki specjalne < i &. Zamiast nich trzeba stosowaę znane takse z HTML skróty < i %amp;

q Jeseli wewn¹trz atrybutu musz¹ wystźpowaę cudzys³owy tego samego rodzaju, co cudzys³owy ograniczaj¹ce wartoę atrybutu, to zamiast nich nalesy usyę skrótów ' (dla oznaczenia apostrofu) lub " (dla oznaczenia pojedynczego znaku cudzys³owu).

Jasne s¹ kryteria wyboru informacji przekazywanej w czźci znacznika zawieraj¹cej atrybuty oraz w postaci danych zawartych miźdzy par¹ znaczników. Ogólnie mówi¹c, jeseli dane nie zmieniaj¹ znaczenia, a zw³aszcza nie zmieniaj¹ wartoci, to nalesy zastosowaę atrybuty. Jeseli informacja nie zalesy od jakich czynników, to nalesy j¹ przekazaę jako dane. Jako przyk³ad, mosna podaę dokument XML opisuj¹cy samochód. Kolor samochodu mose wystźpowaę jako atrybut, poniewas nie zmienia istoty samego samochodu, stanowi¹c tylko szczegó³ jego wygl¹du. Pojemnoę silnika powinna byę jednak przekazywana jako dane, poniewas istotnie wp³ywa na sam samochód. Jeli nie mamy pewnoci, jak rozdzielię tak¹ informacjź, to zawsze bezpieczniejsze bździe przekazanie jej jako dane, a nie jako atrybut.

Zagniesdsanie elementów

Dokument XML nie by³by wiele wart, gdybymy usyli w nim tylko jednego znacznika. Znakomita wiźkszoę usytecznych cech XML wynika z tego, se znaczniki mosna w nim zagniesdsaę. W naszym przyk³adzie pokazanym na pocz¹tku rozdzia³u mielimy znacznik catalog, wewn¹trz którego by³ umieszczony znacznik dvd, za wewn¹trz dvd umieszczone by³y kolejne znaczniki np. title i actors. Poniewas do dokumentu mosna wstawię ten sam znacznik wielokrotnie, to wewn¹trz znacznika dvd o atrybucie „Seven Samurai” znajduj¹ siź dwa znaczniki opisuj¹ce aktorów. Widzimy wiźc, se dokument XML opisuje pewn¹ strukturź drzewiast¹. Jeli narysujemy schemat tej struktury, to zobaczymy, se catalog zawiera wielokrotne wpisy dvd dvd zawiera elementy title price director actors i year_made, za actors zawiera jeden lub wiźcej elementów actor

W XML nalesy koniecznie przestrzegaę poprawnoci zagniesdsania sekwencji znaczników. Wszystkie znaczniki musz¹ byę dok³adnie uporz¹dkowane. W HTML konstrukcja taka, jak w ponisszym przyk³adzie jest wprawdzie niedozwolona, poniewas zawiera niepoprawnie zagniesdsone znaczniki, ale przegl¹darki interpretuj¹ j¹ zazwyczaj w „rozs¹dny” sposób:

<B>Hello<I>Word</B></I>

W XML tego rodzaju sekwencja jest traktowana jako powasny b³¹d i powoduje, se ca³y dokument staje siź niepoprawny.

Komentarze

Komentarze w XML s¹ bardzo podobne do komentarzy stosowanych w HTML. Komentarz rozpoczyna siź od znaków

Wewn¹trz komentarza nie wolno wstawię dwóch minusów ( ) ani kończyę treci komentarza minusem (

W odrósnieniu od HTML, parsery XML nie maj¹ obowi¹zku przegl¹daę treci komentarza, a wiźc znana sztuczka z ukrywaniem skryptów wewn¹trz komentarza nie mose byę tu stosowana. Na szczźcie tego rodzaju sztuczki nie s¹ potrzebne, poniewas w XML okrelono sposób do³¹czania instrukcji przetwarzania dokumentu.

Poprawnoę XML

W poprzednim podrozdziale omówiono regu³y sk³adni XML, które zawsze musi spe³niaę dokument, aby mosna by³o go nazwaę dokumentem XML. Regu³y te nic nie mówi¹ o zawartoci dokumentu lub sekwencjach znaczników w XML — nakazuj¹ tylko zgodnoę ich sk³adni z XML. Zazwyczaj nie wystarcza to do okrelenia formatu dokumentu, który ma byę przetwarzany. Za³ósmy, se nasz katalog p³yt DVD zawiera nastźpuj¹ce dane:

<title>Grand Illusion</title>

<director>Jean Renoir</director>

<actor>Jean Gabin</actor>

</actors>

<year_made>1938</year_made>

</dvd>

<director>Jean Renoir</director>

<wibble>Black Adder</wibble>

<year_made>1954</year_made>

<title>Seven Samurai</title>

<director>Akira Kurosawa</director>

<actor>Takashi Shimura</actor>

<actor>Toshiro Mifune</actor>

</actors>

<year_made>1954</year_made>

</dvd>

Co oznaczaj¹ np. ponissze elementy?

<director>Jean Renoir</director>

<wibble>Black Adder</wibble>

<year_made>1954</year_made>

Poniewas s¹ one umieszczone na zewn¹trz jakiego znacznika dvd, nie ma mosliwoci dok³adnego okrelenia, do którego znacznika dvd nalesy je przypisaę. Oprócz tego nie mosna okrelię, czego dotyczy znacznik wibble. Widzimy wiźc, se powysszy fragment dokumentu XML jest dobrze sformatowany i ma poprawn¹ sk³adniź, ale jest bezusyteczny ze wzglźdu na swoj¹ niepoprawnoę semantyczn¹. Musimy wiźc znaleę sposób takiego definiowania struktury dokumentu XML, aby oprócz sk³adni mosna by³o zdefiniowaę dok³adnie znaczniki i ich sekwencje, które mog¹ wystźpowaę w danym dokumencie. Ten problem mosna rozwi¹zaę miźdzy innymi za pomoc¹ definicji typu dokumentu okrelanej skrótem DTD (od Document Type Definition).

Definicja typu dokumentu (DTD)

DTD jest dok³adn¹ specyfikacj¹ tego, co mose siź pojawię w danym dokumencie XML, a wiźc narzuca pewnego rodzaju ograniczenia na strukturź dokumentu w postaci okrelonego zestawu i sekwencji znaczników. Dokumenty XML, z którymi jest zwi¹zana DTD s¹ klasyfikowane jako „poprawne”. Jest to dodatkowe wymaganie, niezalesne od „dobrego sformatowania”, a wiźc dokument XML nie mose byę „poprawny”, jeli nie jest takse „dobrze sformatowany”.

£atwo siź przekonaę o koniecznoci stosowania odpowiednio zdefiniowanej struktury dokumentu XML, poniewas bździemy siź nim pos³ugiwali g³ównie do przenoszenia informacji. W XML, w odrósnieniu od HTML, nie wystźpuje co takiego jak znaczenie wynikaj¹ce z samego dokumentu ani wstźpnie zdefiniowane znaczniki. Bez odpowiedniego „s³ownika” nie mosna wiźc okrelię znaczenia dokumentu XML Zanim rozpocznie siź jego rozpowszechnianie, nalesy uzgodnię jego strukturź. Wszystko to mosna osi¹gn¹ę, stosuj¹c DTD.

Tworzenie DTD

Definicja typu dokumentu (DTD) stanowi szkielet XML. W tym rozdziale zbrak³oby miejsca na pe³ne omówienie wszystkich zagadnień zwi¹zanych z DTD, a wiźc pokasemy tylko zagadnienia podstawowe. Czytelnicy chc¹cy uzyskaę wiźcej informacji na ten temat powinni siź zapoznaę z materia³ami ród³owymi wskazanymi na końcu tego rozdzia³u. Podstawź DTD stanowi deklaracja ELEMENT, która ma nastźpuj¹c¹ postaę:

<!ELEMENT mytagname >

Deklaracja ta oznacza, se „mytagname” jest znacznikiem w strukturze dokumentu XML. Za nazw¹ definiowanego znacznika mosna wymienię zawarte w nim elementy podrzźdne. Obowi¹zuj¹ tu pewne regu³y dotycz¹ce sposobu dodawania elementów podrzźdnych, definiowania listy tych elementów, sposobu ich wyboru oraz ich dopuszczalnej liczby. Regu³y te s¹ bardzo proste:

Operator	Znaczenie
	Usywany w licie do rozdzielenia elementów podrzźdnych, które musz¹ pojawiaę siź w wymienionym porz¹dku
	Wybór sporód elementów podrzźdnych
	Opcjonalny element podrzźdny
	Dowolna liczba wyst¹pień elementu podrzźdnego (zero lub wiźcej razy)
	Co najmniej jedno wyst¹pienie elementu podrzźdnego
	Grupowanie elementów podrzźdnych

Operatory oraz nastźpuj¹ za elementem, do którego siź odnosz¹.

Pokasemy to na przyk³adzie opisu zwyk³ej kanapki. Za³ósmy, se chcemy zdefiniowaę element sandwich zawieraj¹cy parź elementów bread, miźdzy którymi bździe wystźpowa³ jeden element honey albo jelly. Mosemy to zapisaę nastźpuj¹co:

<!ELEMENT sandwich (bread, (honey | jelly), bread) >

Fragment XML spe³niaj¹cy tź specyfikacjź powinien mieę postaę:

Za³ósmy teraz, se wype³nienie kanapki ma byę opcjonalne. Dodajemy wiźc odpowiedni kwantyfikator:

<!ELEMENT sandwich (bread, (honey | jelly)?, bread) >

Mamy teraz zapis oznaczaj¹cy opcjonalnoę. Jeseli trzeba, mosemy zastosowaę dowolnie duso nawiasów, powiźkszaj¹c stopień z³osonoci naszej definicji.

Wróęmy jednak do naszego pocz¹tkowego przyk³adu z katalogiem p³yt DVD. Wymagamy, aby element catalog sk³ada³ siź z pewnej liczby elementów dvd. Zawsze musi tu wystźpowaę co najmniej jeden element dvd. To wymaganie zapisujemy w nastźpuj¹cy sposób:

<!ELEMENT catalog (dvd+) >

Musimy zapisaę, se element dvd zawiera elementy podrzźdne (ang. sub-elements), czyli title price director actors i year_made. Deklaracja dvd jest wiźc nastźpuj¹ca:

<!ELEMENT dvd (title, price, director, actors, year_made)>

Na najnisszym poziomie zagniesdsania musimy wskazaę, se w elemencie actors musi wystźpowaę przynajmniej jeden element actor

<!ELEMENT actors (actor+)>

Zdefiniowalimy w ten sposób strukturź znaczników, ale nie mamy jeszcze sadnych informacji o dopuszczalnych atrybutach tych znaczników. Wiemy, se nasz element dvd musi mieę numer asin. Definiujemy to, dodaj¹c do naszej DTD element ATTLIST

<!ATTLIST dvd

asin CDATA #REQUIRED >

Taki zapis oznacza, se element dvd charakteryzuje siź atrybutem asin, który zawiera dane znakowe (napis) i jest atrybutem obowi¹zkowym. Ogólna postaę znacznika ATTLIST jest nastźpuj¹ca:

<!ATTLIST nazwa_znacznika nazwa_atrybutu typ_danych_atrybutu kwalifikator>

Ci¹g nazwa_znacznika nazwa_atrybutu typ_danych_atrybutu kwalifikator mose byę powtarzany wielokrotnie — pod warunkiem, se sadne atrybuty siź nie powtórz¹. Dozwolone s¹ tu nastźpuj¹ce typy danych:

Typ danych	Znaczenie
CDATA	Napis
ID	Nazwa unikatowa w dokumencie XML
IDREF	Odwo³anie do innego elementu za pomoc¹ podanego ID
IDREFS	Odwo³anie do listy innych elementów za pomoc¹ podanych ID
ENTITY	Nazwa zewnźtrznej jednostki
ENTITIES	Lista nazw zewnźtrznych jednostek
NMTOKEN	Nazwa
NMTOKENS	Lista nazw
NOTATION	Zdefiniowana na zewn¹trz notacja, np. TEX lub PNG
Explicit value	Ci¹g jawnie zdefiniowanych wartoci

Omówienie wszystkich wymienionych tu typów wykracza znacznie poza zakres tego rozdzia³u.

Kwalifikator wystźpuj¹cy w elemencie ATTLIST mose mieę nastźpuj¹ce wartoci:

Wartoę	Znaczenie
#REQUIRED	Atrybut musi siź pojawię
#IMPLIED	Atrybut jest opcjonalny
#FIXED <wartoę>	Atrybut musi mieę podan¹ wartoę
<wartoę domylna>	Jeli atrybutowi nie nadano wartoci, to automatycznie przybiera on podan¹ wartoę domyln¹

Poniewas nasz element dvd ma tylko jeden atrybut, to w specyfikacji DTD tego elementu trzeba usyę tylko jednej deklaracji ATTLIST

Musimy takse okrelię typ danych, które mog¹ wystźpowaę w elementach miźdzy ich znacznikami pocz¹tkowymi i końcowymi. Na najnisszym poziomie wszystkich danych znajduj¹ siź przetwarzalne dane znakowe (Parseable Character Data), co w XML zapisujemy jako (#PCDATA). Zakończymy wiźc nasz¹ specyfikacjź DTD wpisem, który to definiuje:

<!ELEMENT title (#PCDATA)>

<!ELEMENT price (#PCDATA)>

<!ELEMENT director (#PCDATA)>

<!ELEMENT actor (#PCDATA)>

<!ELEMENT year_made (#PCDATA)>

Podsumujmy nasze rozwasania, podaj¹c specyfikacjź DTD w ca³oci:

<!ELEMENT catalog (dvd+) >

<!ELEMENT dvd (title, price, director, actors, year_made)>

<!ATTLIST dvd

asin CDATA #REQUIRED >

<!ELEMENT title (#PCDATA)>

<!ELEMENT price (#PCDATA)>

<1ELEMENT director (#PCDATA)>

<!ELEMENT actors (actor+)>

<!ELEMENT actor (#PCDATA)>

<!ELEMENT year_made (#PCDATA)>

Mosna to wyrazię opisowo: element catalog zawiera jeden lub wiźcej elementów dvd. Kasdy element dvd musi mieę atrybut asin, który zawiera pewne dane. Element dvd zawiera elementy title price directory actors oraz year_made Element actors zawiera przynajmniej jeden element actor. Wszystkie elementy najnisszego poziomu musz¹ zawieraę dane znakowe.

Musimy siź zgodzię, se specyfikacjź DTD ³atwiej zrozumieę nis taki opis (pod warunkiem, se rozumie siź podstawy DTD).

Schematy

Pomimo tego, se DTD zawieraj¹ dok³adne definicje struktury dokumentu, to doę trudno jest siź nimi pos³ugiwaę. Z tego w³anie powodu W3C opracowuje bardziej rygorystyczn¹ i zarazem bardziej elastyczn¹ metodź, tzw. schematy (ang. schemas). Bźd¹ siź one lepiej nadawa³y do definiowania sposobów przetwarzanie plików XML i u³atwi¹ aplikacjom wymianź danych w tym formacie.

W czasie pisania tej ksi¹ski rozwasano kilka zg³oszonych propozycji, które stanowi¹ g³ówny przedmiot zainteresowania w wiatku XML. Obserwuje siź konkurencyjn¹ walkź rósnych firm na tym polu i próby wymuszania uznania w³asnego rozwi¹zania za standard, powi¹zane z bezp³atnym udostźpnianiem narzździ i stron w Internecie wspieraj¹cych takie rozwi¹zania. Na szczźcie zostanie to wkrótce rozwi¹zane i powstanie uzgodniony oficjalny standard. Poniewas podczas pisania tych s³ów nie istnia³ jeszcze ostateczny schemat definiowania XML, to w pozosta³ych czźciach tego rozdzia³u bździemy omawiaę tylko DTD, nie zwasaj¹c na to, se prawdopodobnie specyfikacja ta mose byę w przysz³oci zast¹piona bardziej z³osonym dokumentem.

Powi¹zania DTD z dokumentem XML

Po zdefiniowaniu specyfikacji DTD musimy powi¹zaę j¹ z dokumentami XML, których strukturź ona definiuje. Dla potrzeb naszego katalogu p³yt DVD wystarczy po prostu wstawienie tej specyfikacji do dokumentu. Pamiźtajmy jednak, se w ogólnym przypadku takie rozwi¹zanie nie jest dobre: jeseli dwie instytucje chc¹ wymieniaę dokumenty w formacie XML, to niezbyt wygodne jest, aby kasda wiadomoę zawiera³a w³asn¹ specyfikacjź. Potrzebny jest zatem uzgodniony standard zewnźtrzny, z którym bźd¹ zgodne wszystkie wymieniane dokumenty XML. Schematy XML zapewniaj¹ce tak¹ zgodnoę s¹ dopiero opracowywane.

Specyfikacja DTD w naszym przyk³adowym dokumencie XML jest w³¹czona w dokument za pomoc¹ znacznika <!DOCTYPE okrelaj¹cego typ dokumentu:

<!DOCTYPE catalog [

<!ELEMENT catalog (dvd+) >

<!ELEMENT dvd (title, price, director, actors, year_made)>

<!ATTLIST dvd

asin CDATA #REQUIRED >

<!ELEMENT title (#PCDATA)>

<!ELEMENT price (#PCDATA)>

<!ELEMENT director (#PCDATA)>

<!ELEMENT actors (actor+)>

<!ELEMENT actor (#PCDATA)>

<!ELEMENT YEAR_MADE (#pcdata)>

Rozbiór XML

Jeli zrozumielimy jus sposób przekazywania danych katalogowych w naszym przyk³adowym dokumencie XML, to musimy dokonaę rozbioru tego dokumentu. Czynnoę ta musi poprzedzię przetwarzanie danych zawartych w dokumencie. W tym momencie mamy powasny dylemat: jaki parser zastosowaę? Stosowane s¹ dwa odmienne modele rozbioru dokumentów XML: model obiektowy dokumentu (oznaczany skrótem DOM od s³ów Document Object Model) oraz model, w którym wykorzystuje siź prosty interfejs programowy dla XML (skrótowo nazywany SAX od s³ów Simple API for XML). Przed dokonaniem wyboru i rozpoczźciem pracy nad kodem omówimy skrótowo obydwa z nich.

DOM

Konsorcjum W3C wyda³o standardow¹ specyfikacjź dla modelu obiektowego (DOM), która okrela dostźp do wewnźtrznych elementów dokumentu w sposób unormowany i niezalesny od usytego jźzyka programowania. W modelu DOM dokument jest pobierany i dokonywany jest jego rozbiór. Od tego momentu staje siź on dostźpny dla programu, który mose go modyfikowaę. Po zakończeniu modyfikacji modelu obiektowego mosna go ponownie zapisaę jako dokument XML.

Istnieje jednak powasna wada modelu obiektowego: ca³y dokument przed przetworzeniem musi byę przetrzymywany w pamiźci i mose to sprawiaę k³opoty przy dusych plikach XML. Dlatego tes powszechnie usywany jest mniej oficjalny standard, czyli SAX, nie stwarzaj¹cy takich ograniczeń.

SAX

SAX zosta³ pierwotnie napisany w jźzyku Java. Ostatnio projektem tej specyfikacji zarz¹dza³ David Meggison i na jego stronie internetowej mosna znaleę najwiessze informacje (adres jest podany w wykazie róde³ na końcu rozdzia³u).

Specyfikacja jest bardzo prosta i zosta³a wykorzystana w sposób prawie uniwersalny w parserze XML napisanym w jźzyku Java. Istniej¹ takse wersje dla jźzyków C i C++ (patrz wykaz materia³ów ród³owych).

Wed³ug modelu SAX dokument XML nie jest ³adowany do pamiźci w ca³oci, ale odczytywany czźciami. Udostźpniane s¹ tu wywo³ania zwrotne do w³asnego kodu usytkownika, oznaczaj¹ce np. pocz¹tek znacznika, znalezienie komentarza lub wykrycie końca dokumentu. Zmusza to programistź do nieco wiźkszego wysi³ku, poniewas musi on przyjmowaę dokument XML w kolejnoci zgodnej z dokonywanym rozbiorem, a nie w kolejnoci dowolnej.

Taki sposób dzia³ania przypomina nieco wywo³ania zwrotne (ang. callbacks) usywane w GNOME podczas obs³ugi zdarzeń. SAX jest interfejsem typu tylko do odczytu, nie generuj¹cym dokumentów XML. W wielu praktycznych zastosowaniach jest to jednak rozwi¹zanie ca³kowicie wystarczaj¹ce, a pozbycie siź niedogodnoci zwi¹zanych z przetrzymywaniem ca³ego dokumentu w pamiźci oznacza, se mose to byę rozwi¹zanie jedyne dla bardzo dusych dokumentów XML.

Biblioteka libXML (gnome-xml)

W naszej aplikacji obs³uguj¹cej wyposyczalniź p³yt DVD zdecydowalimy siź skorzystaę z modelu SAX, a w szczególnoci z biblioteki o nazwie libxml (poprzednio znanej pod nazw¹ gnome-xml) z nastźpuj¹cych powodów:

q Wiedzielimy, se biblioteka ta by³a jus stosowana w Glade i se dzia³a³a ona pewnie.

q Wystźpuje w niej interfejs do jźzyka C, czyli tego, który jest podstawowym jźzykiem programowania stosowanym w tej ksi¹sce.

q Potrzebowalimy jedynie odczytywaę dokumenty XML, a nie tworzyę je.

q Biblioteka ta jest bardzo szybko rozwijana.

Jeseli na komputerze z systemem Linux jest jus zainstalowany pakiet GNOME, to prawie na pewno mosna znaleę tam bibliotekź libxml. Jeseli zamiast GNOME jest stosowany inny system interfejsów graficznych, to mose jej nie byę. Nie stwarza to problemu, bowiem libxml jest dostźpna w postaci pakietu RPM.

Na stronie macierzystej libxml mosna znaleę adresy serwerów umosliwiaj¹cych pobranie pakietu. Nalesy pamiźtaę o pobraniu zarówno pakietu standardowego, jak i wersji -devel potrzebnej do kompilacji programów obs³uguj¹cych XML (chyba se instalacja odbywa siź po w³asnej kompilacji kodu ród³owego).

Kod korzystaj¹cy z libxml wydaje siź na pierwszy rzut oka nieco dziwny. To wrasenie wynika czźciowo z koniecznoci zast¹pienia oryginalnych konstrukcji w jźzyku Java konstrukcjami w jźzyku C. Kolejn¹ przyczyn¹ dziwnego wygl¹du jest usycie funkcji wywo³ań zwrotnych, z czym nie wszyscy programici s¹ zaznajomieni.

Podstawowy przepis na zastosowanie modelu SAX przy przetwarzaniu dokumentu XML jest bardzo prosty:

q Utworzyę egzemplarz parsera,

q Napisaę zestaw funkcji, które bźd¹ wywo³ywane po wykryciu przez parser okrelonych konstrukcji,

q Poinformowaę parser o swoich funkcjach,

q Nakazaę, aby parser przeprowadzi³ rozbiór pliku,

q Parser wywo³uje utworzone funkcje podczas przetwarzania XML, powiadamiaj¹c o przetwarzanych przez siebie danych.

W praktyce trzeba jeszcze pokonaę kilka dodatkowych k³opotów, ale schemat dzia³ań nie odbiega zbytnio od powysszego.

Tź sekwencjź dzia³ań mosna przedstawię graficznie:

Tworzenie i wywo³ywanie parsera

Chyba wszyscy maj¹ jus dosyę tej teorii — zapoznajmy siź wiźc z niewielkim przyk³adowym programem, który korzysta z parsera zawartego w libxml. Program nazywa siź sax1.c

#include <stdlib.h>

#include <stdio.h>

#include <parser.h>

#include<parserInternals.h>

int main()

xmlParseDocument(ctxt_ptr);

if (!ctxt_ptr->wellFormed)

xmlFreeParserCtxt(ctxt_ptr);

printf('Parsing completen');

exit(EXIT_SUCCESS);

Program ten jest doę krótki, a wiźc nie dodawalimy do niego sadnych funkcji wywo³ań zwrotnych. Nie nalesy siź tym martwię — jus wkrótce bździemy mieli okazjź je zobaczyę.

Przy kompilacji tego programu nalesy podaę cieskź do do³¹czanych plików nag³ówkowych parser.h i parserInternals.h. Jeli na komputerze jest zainstalowana wersja libxml wczeniejsza nis 2, to te pliki s¹ prawdopodobnie umieszczone w katalogu /usr/include/gnome-xml; poczynaj¹c od wersji 2 nalesy ich szukaę w /usr/include/xml. Program nalesy takse konsolidowaę z bibliotekami xml i zlib (ta druga bibliotek jest wymagana dlatego, se libxml mose czytaę skompresowane pliki XML). Polecenie uruchamiaj¹ce kompilacjź przyk³adowego programu mose mieę postaę:

$ gcc -I/usr/include/gnome-xml sax1.c -lxml -lz -o sax1

lub:

$ gcc -I/usr/include/xml sax1.c -lxml -lz -o sax1

Spójrzmy teraz na szczegó³y naszego kodu:

xmlParserCtxtPtr ctxt_ptr;

ctxt_ptr = xmlCreateFileParserCtxt('dvdcatalog.xml');

if (!ctxt_ptr)

Powysszy fragment tworzy parser, wskazywany nastźpnie przez ctxt_ptr. Wywo³anie:

xmlParseDocument(ctxt_ptr);

uruchamia rozbiór pliku przez parser, za instrukcja:

if (!ctxt_ptr->wellFormed)

jest wywo³ywana po zakończeniu przetwarzania i mose ostrzec o tym, se dokument jest niepoprawnie sformatowany. Końcowe wywo³anie:

xmlFreeParserCtxt(ctxt_ptr);

zwalnia parser po zakończeniu pracy.

Po uruchomieniu tego programu zobaczymy na ekranie:

$./sax1

Parsing complete

Jest to komunikat pocz¹tkowy, lecz niewiele z niego wynika: wiemy tylko, se parser nie potraktowa³ naszego pliku XML jako b³źdnie sformatowanego. Spróbujmy zaburzyę ten plik, aby sprawdzię, jak zareaguje na to parser.

Umiecimy wiźc celowo w jednym z wpisów dvd znacznik <B>

<title>Grand Illusion</title>

<director>Jean<B>Renoir</director>

<actor>Jean Gabin</actor>

</actors>

<year_made>1938</year_made>

</dvd>

Uruchamiamy parser ponownie:

$./sax1

dvdcatalog.xml:7: error: Opening and ending tag mismatch: B and director

<director>Jean<B>Renoir<director>

dvdcatalog.xml:12: error: Opening and ending tag mismatch: director and dvd

</dvd>

dvdcatalog.xml:25: error: Opening and ending tag mismatch: dvd and catalog

</catalog>

dvdcatalog.xml:26: error: detected an error in element content

dvdcatalog.xml:26: error: Premature end of data in tag <catalog>

<dvd asin='07800

Document not well formed

Parsing complete

Upewnilimy siź jus, se parser rzeczywicie przetwarza nasz dokument i podaje usyteczne komunikaty po wykryciu b³źdów.

Zanim przejdziemy do omawiania dalszych zagadnień, musimy przywrócię plik XML do pierwotnego stanu. Sposób obs³ugi b³źdów zg³aszanych przez parser omówimy nieco póniej, gdy stan¹ siź jasne metody do³¹czania w³asnych funkcji wywo³ań zwrotnych, które mosna bździe usyę, jeli domylna obs³uga b³źdów nie bździe wystarczaj¹ca.

Informacja o dokumencie

W naszym pierwszym przyk³adzie wystźpowa³o wyrasenie:

ctxt_ptr->wellFormed

Umosliwia³o ono sprawdzenie, czy dokument jest poprawnie sformatowany. Biblioteka libxml zawiera takse kilka innych usytecznych elementów w tej kontekstowej strukturze. Przegl¹daj¹c plik parser.h zobaczymy zdefiniowany typ _xmlParserCtxt, który zwiera kilka elementów, a miźdzy innymi informacje o wersji XML i sposobie kodowania znaków. Mosna je wykorzystaę do uzyskania pe³niejszej informacji o pliku przetwarzanym przez parser. Usyjemy tej w³aciwoci w programie sax2.c, rósni¹cym siź od sax1.c tylko nastźpuj¹cym fragmentem:

if (!ctxt_ptr->wellFormed)

printf('XML version %s, encoding %sn', ctxt_ptr->version, ctxt_ptr->encoding);

ctxt_ptr->sax = NULL

Po kompilacji i uruchomieniu tego programu otrzymujemy:

$./sax2

XML version 1.0, encoding UTF-8

Parsing complete

Zastosowanie wywo³ań zwrotnych

Wiemy jus, se parser przetwarza nasz plik, sprawdza jego poprawnoę i pobiera podstawowe informacje na jego temat, a wiźc mosna rozpocz¹ę tworzenie funkcji wywo³ań zwrotnych. Pos³us¹ one do uzyskiwania danych zawartych w pliku XML.

W pliku parser.h zdefiniowano strukturź xmlSAXHandler, która podaje miejsca dostźpne dla wywo³ań zwrotnych. Strukturź tź omówimy za chwilź.

Zdefiniowano takse prototypy funkcji, których nalesy usyę w wywo³aniach zwrotnych:

typedef xmlParserInputPtr (*resolveEntitySAXFunc) (void *ctx,

const CHAR *publicId,

const CHAR *systemId);

typedef void (*internalSubsetSAXFunc) (void *ctx, const CHAR *name,

const CHAR *ExternalID,

const CHAR *SystemID);

typedef xmlEntityPtr (*getEntitySAXFunc) (void *ctx, const CHAR *name);

typedef void (*entityDeclSAXFunc) (void *ctx, const CHAR *name, int type,

const CHAR *publicId,

const CHAR *systemId,

CHAR *content);

typedef void (*attributeDeclSAXFunc) (void *ctx, const CHAR *elem,

const CHAR *name,

int type, int def,

const CHAR *defaultValue,

xmlEnumerationPtr tree);

typedef void (*elementDeclSAXFunc) (void *ctx, const CHAR *name,

int type, xmlElementContentPtr content);

typedef void (*unparsedEntityDeclFunc)(void *ctx,

const CHAR *name,

const CHAR *publicId,

const CHAR *systemId,

const CHAR *notationName);

typedef void (*setDocumentLocatorSAXFunc) (void *ctx,

xmlSAXLocatorPtr loc);

typedef void (*startDocumentSAXFunc) (void *ctx);

typedef void (*endDocumentSAXFunc) (void *ctx);

typedef void (*startElementSAXFunc) (void *ctx, const CHAR *name,

const CHAR **atts);

typedef void (*endElementSAXFunc) (void *ctx, const CHAR *name);

typedef void (*attributeSAXFunc) (void *ctx, const CHAR *name,

const CHAR *value);

typedef void (*referenceSAXFunc) (void *ctx, const CHAR *name);

typedef void (*charactersSAXFunc) (void *ctx, const CHAR *ch, int len)

typedef void (*ignorableWhitespaceSAXFunc) (void *ctx,

const CHAR *ch, int len);

typedef void (*processingInstructionSAXFunc) (void *ctx,

const CHAR *target,

const CHAR *data);

typedef void (*commentSAXFunc) (void *ctx, const CHAR *value);

typedef void (*warningSAXFunc) (void *ctx, const char *msg, );

typedef void (*errorSAXFunc) (void *ctx, const char *msg, );

typedef void (*fatalErrorSAXFunc) (void *ctx, const char *msg, );

typedef int (*isStandaloneSAXFunc) (void *ctx);

typedef int (*hasInternalSubsetSAXFunc) (void *ctx);

typedef int (*hasExternalSubsetSAXFunc) (void *ctx);

Nalesy zwrócię uwagź na to, se usywany jest tu typ CHAR, a nie char. Jest to nowy typ zadeklarowany w nag³ówkach i takie oznaczenie nie jest b³źdem.

Na szczźcie, do przetworzenia pliku XML i pobrania z niego usytecznych informacji potrzeba tylko kilku wywo³ań zwrotnych. Zanim utworzymy wymagan¹ g³ówn¹ funkcjź wywo³ania zwrotnego, dodajmy do naszego kodu dwie proste funkcje, które bźd¹ wykorzystywane w celach szkoleniowych.

Funkcje te bźd¹ sygnalizowaę pocz¹tek i koniec dokumentu i bźd¹ wywo³ywane w tych w³anie miejscach. Mosna je znaleę w podanych wysej deklaracjach pod nazwami startDocumentSAXFunc i endDocumentSAXFunc. Wykorzystuje siź je czźsto w operacjach inicjuj¹cych i oczyszczaj¹cych pamiźę.

Aby usyę wywo³ania zwrotnego, nalesy wykonaę nastźpuj¹ce trzy czynnoci:

q Utworzyę funkcjź obs³uguj¹c¹ wywo³anie zwrotne,

q Ustawię w strukturze wywo³ań zwrotnych libxml wywo³ywanie tej funkcji,

q Przekazaę do parsera informacjź o strukturze wywo³ań zwrotnych.

Pierwszy etap jest prosty, a nasze funkcje wywo³ań zwrotnych maj¹ nastźpuj¹c¹ postaę (nie stosujemy jeszcze parametrów):

static void start_document(void *ctx)

static void end_document(void *ctx)

Teraz nastźpuje niewielka sztuczka z ustawianiem struktury wywo³ań zwrotnych. Najpierw nalesy we w³asnym kodzie zadeklarowaę strukturź typu xmlSAXHandler i przydzielię w odpowiednich miejscach wskaniki do naszych funkcji.

Struktura xmlSAXHandler opisuj¹ca dostźpne wywo³ania zwrotne znajduje siź w pliku parse.h

typedef struct xmlSAXHandler xmlSAXHandler;

Jak widzimy, wskaniki do funkcji wywo³ań zwrotnych s¹ odpowiednio nazwane, a wiźc ³atwo mosna z nich skorzystaę.

Wszystkie lokalizacje nieusywanych funkcji wywo³ań zwrotnych musz¹ mieę wskanik NULL, dziźki czemu libxml uzyska informacjź o tym fakcie. Aby zabezpieczyę siź przed zmianami struktury, usyjemy funkcji memset oczyszczaj¹cej ca³¹ jej zawartoę i nadaj¹cej jej wartoci NULL, a nastźpnie jawnie wpiszemy wskaniki do usywanych funkcji wywo³ań zwrotnych. Kasdy, kto usywa³ struktur wywo³ań zwrotnych, dobrze wie, jaki chaos mose spowodowaę wpisanie wskanika do funkcji w nieprawid³owe miejsce, jeli lista tych funkcji jest d³uga

static xmlSAXHandler mySAXParseCallbacks;

memset(&mySAXParseCallbacks, sizeof(mySAXParseCallbacks), 0);

mySAXParseCallbacks.startDocument = start_document;

mySAXParseCallbacks.endDocument = end_document;

Na zakończenie musimy poinformowaę parser o naszej strukturze wywo³ań zwrotnych:

if (!ctxt_ptr)

ctx_ptr->sax = &mySAXParseCallbacks;

xmlParseDocument(ctxt_ptr);

ctxt_ptr->sax = NULL;

Zwróęmy uwagź na to, se po zakończeniu rozbioru pliku wskanikowi kontekstu ponownie nadano wartoę NULL

Po po³¹czeniu tych wszystkich fragmentów w ca³oę nadajemy jej nazwź sax3.c i po uruchomieniu widzimy, se nasze funkcje s¹ wywo³ywane automatycznie podczas przetwarzania dokumentu:

$./sax3

Document start

Document end

Parsing Complete

W tym przyk³adzie usunźlimy informacjź o wersji XML i kodowaniu znaków, poniewas nie wnosi ona tu nic nowego.

Widzimy wiźc, se konfiguracja wywo³ań zwrotnych nie jest trudna. Przejrzyjmy teraz ca³¹ listź wywo³ań zwrotnych i sprawdmy, które z nich mog¹ siź przydaę. W praktyce oko³o 95% wszystkich potrzeb wystźpuj¹cych przy rozbiorze dokumentu mosna zaspokoię, korzystaj¹c tylko z piźciu wywo³ań (mosna takse usyę jeszcze trzech dodatkowych, które zajmuj¹ siź obs³ug¹ b³źdów). Tymi w³anie funkcjami zajmiemy siź nisej. Wszystkie z nich wymagaj¹ podania wskanika void *ctx jako pierwszy parametr. Jego zastosowanie zostanie omówione przy okazji opisywania rósnic wystźpuj¹cych miedzy poszczególnymi wywo³aniami zwrotnymi.

Obs³uga b³źdów

Wszystkie funkcje obs³ugi b³źdów maj¹ ten sam format, lecz korzystaj¹ z rósnych wywo³ań zwrotnych zalesnych od stopnia wasnoci b³źdu. S¹ to nastźpuj¹ce trzy funkcje:

typedef void (*warningSAXFunc) (void *ctx, const char *msg, );

typedef void (*errorSAXFunc) (void *ctx, const char *msg, );

typedef void (*fatalErrorSAXFunc) (void *ctx, const char *msg, );

Funkcja warningSAXFunc obs³uguje ostrzesenia, errorSAXFunc obs³uguje zwyk³e b³źdy, a fatalErrorSAXFunc obs³uguje b³źdy krytyczne, przy których parser nie mose kontynuowaę dzia³ania. W odrósnieniu od poprzednich wywo³ań tutaj usywany jest zwyczajny typ char, a nie CHAR

Wszystkie wymienione wysej funkcje wymagaj¹ rósnej liczby argumentów. Mosna uzyskaę do nich dostźp za pomoc¹ wywo³ania stdarg. Komunikaty o b³źdach mog¹ byę wówczas wywietlane (po do³¹czeniu <stdarg.h>), a wiźc mamy:

va_list args;

va_start(args, msg);

vprint(msg, args);

va_end(args);

Jeli wywo³ujemy nasz parser z wiersza poleceń tak, jak opisywalimy, to obs³uga b³źdów dzia³a bez problemów. Gdy usyjemy jakiego interfejsu graficznego, to nie bździe jus to takie proste i musimy utworzyę nieco bardziej rozbudowane procedury korzystaj¹ce z wywo³ań zwrotnych.

Oto przyk³ad pochodz¹cy z pliku saxp.c, w którym zastosowano wywo³ania zwrotne do obs³ugi b³źdów. Plik ten znajduje siź w zestawie programów testowych w pakiecie Glade:

static void gladeError(GladeParseState *state, const char*msg, )

Pocz¹tek dokumentu

Funkcja startDocumentSAXFunc jest wywo³ywana jednokrotnie w momencie rozpoczźcia rozbioru dokumentu, zawsze przed jakimkolwiek innym wywo³aniem zwrotnym. Jej prototyp wygl¹da nastźpuj¹co:

typedef void (*startDocumentSAXFunc) (void *ctx);

Koniec dokumentu

Funkcja endDocumentSAXFunc jest wywo³ywana jednokrotnie po zakończeniu rozbioru dokumentu — albo z powodu wykrycia końca dokumentu, albo po wyst¹pieniu b³źdu krytycznego. Oto jej prototyp:

typedef void (*endDocumentSAXFunc) (void *ctx);

Pocz¹tek elementu

Funkcja startElementSAXFunc jest wywo³ywana zawsze po wykryciu nowego elementu:

typedef void (*startElementSAXFunc) (void *ctx, const CHAR *name,

const CHAR **atts);

Parametr name oznacza nazwź elementu, za parametr atts ma albo wartoę NULL, albo jest list¹ wskaników do nazw i wartoci atrybutów, zakończon¹ wartoci¹ NULL. W naszym przyk³adowym katalogu p³yt DVD element dvd ma atrybut asin, którego wartoci¹ jest napis — a wiźc tablica parametrów atts bździe zawieraę dwa wskaniki: jeden na napis „asin”, a drugi na faktyczn¹ treę tego napisu (sk³adaj¹cego siź z cyfr). W nastźpnej wersji parsera pokasemy sposób dostźpu do tych atrybutów.

Koniec elementu

Funkcja endElementSAXFunc jest wywo³ywana zawsze po wykryciu końca elementu, nawet wtedy, gdy jest to element pusty (np. zapisany jako <fud/>). Dziźki temu kasdemu wywo³aniu zwrotnemu zwi¹zanemu z pocz¹tkiem elementu towarzyszy odpowiednie wywo³anie oznaczaj¹ce koniec elementu (pod warunkiem, se nie wyst¹pi b³¹d krytyczny):

typedef void (*endElementSAXFunc) (void *ctx, const CHAR *name);

Znaki

Funkcja charactersSAXFunc jest wywo³ywana zawsze po wykryciu sekwencji znaków nie tworz¹cych jakiego specyficznego sk³adnika, np. elementu lub komentarza:

typedef void (*charactersSAXFunc) (void *ctx, const CHAR *ch, int len);

W przypadku d³ugich napisów mosna je dzielię na mniejsze fragmenty, wywo³uj¹c tź funkcjź wielokrotnie. Aplikacja musi wówczas zadbaę o odpowiedni¹ obs³ugź takich wywo³ań.

Przyk³ad wywo³ania zwrotnego

Wiemy jus, jak wygl¹daj¹ wywo³ania zwrotne i mosemy utworzyę jaki kod, który bździe realizowa³ bardziej skonkretyzowane zadania, czyli bździe pobiera³ dane i atrybuty z elementów. Jest to pierwsze realistyczne podejcie do rozbioru dokumentu. Oto kod, któremu nadalimy nazwź sax4.c

#include <stdlib.h>

#include <stdio.h>

#include <string.h>

#include <parser.h>

#include <parserInternals.h>

static void start_document(void *ctx);

static void end_document(void *ctx);

static voidstart_element(void *ctx, const CHAR *name, const CHAR **attrs);

static void end_element(void *ctx, const CHAR *name);

static void chars_found(void *ctx, const *chars, int len);

static xmlSAXHandler mySAXParseCallbacks;

int main()

ctx_ptr->sax = &mySAXParseCallbacks;

xmlParseDocument(ctxt_ptr);

if (!ctxt_ptr->wellFormed)

ctxt_ptr->sax = NULL;

xmlFreeParserCtxt(ctxt_ptr);

printf('Parsing completen');

exit(EXIT_SUCCESS);

} /* main */

static void start_document(void *ctxt) /* start_document */

static void end_document(void *ctx) /* end_document */

static void start_element(void *ctx, const CHAR *name, const CHAR **attrs)

}

} /* start_element */

static void end_element(void *ctx, const CHAR *name) /* end_element */

#define CHAR_BUFFER 1024

static void chars_found(void *ctx, const CHAR *chars, int len) /* chars_found */

Przyk³ad jest dosyę d³ugi, ale niezbyt skomplikowany — z wyj¹tkiem dwóch fragmentów, na które warto zwrócię szczególn¹ uwagź:

q funkcja start_element pokazuje sposób wykrywania obecnoci atrybutów oraz dostźpu do ich nazw i wartoci,

q funkcja chars_found wywietla znalezione dane. Zwróęmy uwagź na to, se przekazywany napis nie kończy siź wartoci¹ NULL (a przynajmniej tak siź dzieje w bies¹cej implementacji) — a wiźc, chc¹c wywietlaę odpowiedni¹ liczbź znaków, trzeba zastosowaę specjalne rodki.

Po uruchomieniu programu sax4 otrzymamy nastźpuj¹ce wyniki (podane tu w skróconej postaci):

$ ./sax4

Document start

Element catalog started

Found 5 characters:

Element dvd started

Attribute asin

Attribute 0780020707

Found 8 characters:

Element title started

Found 14 characters: Grand Illusion

Element title ended

Found 8 characters:

Element price started

Found 5 characters: 29.99

Element price ended

Found 8 characters:

Element director started

Found 11 characters: Jean Renoir

Element director ended

Found 8 characters:

Element actors started

Found 11 characters:

Element actor started

Found 10 characters: Jean Gabin

Element actor ended

Found 8 characters:

Element actors ended

Wnikliwi czytelnicy wykryj¹ tu bardzo szybko trudnoci. Przy wywo³ywaniu procedury start_element nie jest jeszcze znana zawartoę elementu, za przy wywo³aniu chars_found jus nie wiemy, który element by³ przetworzony. Oprócz tego, funkcja chars_found jest wywo³ywana w tych miejscach, w których nie ma potrzeby przetwarzania znaków. Jest to wada parsera pos³uguj¹cego siź modelem SAX. Mosna j¹ omin¹ę, zachowuj¹c informacjź o stanie parsera.

Utrzymywanie informacji o stanie parsera

Potrzeba utrzymywania informacji o stanie przy sekwencyjnym przetwarzaniu strukturalnych danych jest prawie oczywista i biblioteka libxml dysponuje pewnymi w³aciwociami, które mosna wykorzystaę do tego celu.

W kontekstowej strukturze, podobnie jak we wskaniku do struktury wywo³ań zwrotnych, istnieje wskanik void * do zmiennej userData, któr¹ mosna wykorzystaę do przechowywania informacji o stanie. Informacja ta nie ma cile okrelonej postaci, co jest tu zalet¹, poniewas mosna wówczas uzyskaę co wiźcej nis tylko czysty stan. Przy kasdym wywo³aniu funkcji wywo³ania zwrotnego wskanik do naszej struktury jest przekazywany jako pierwszy argument (wskanik void * ctx do wywo³ań zwrotnych) i tej w³aciwoci jeszcze nie wykorzystalimy.

Aby utrzymywaę informacjź o stanie parsera, musimy najpierw zadeklarowaę strukturź do jej przechowywania. W przypadku naszego pliku XML, oprócz informacji o stanie parsera, potrzebna jest jeszcze dodatkowa informacja o liczbie aktorów wystźpuj¹cych w danym filmie. W poprzednich rozdzia³ach za³osylimy, se z jednym tytu³em filmu bźd¹ zwi¹zane dok³adnie dwie osoby i jeli brak bździe nazwisk, to na ich miejsce wpisywana bździe wartoę NULL

Specyfikacja DTD w naszym pliku XML przewiduje, se z tytu³em jest zawi¹zany zawsze co najmniej jeden aktor (musi wyst¹pię element actors, który zawiera co najmniej jeden element actor). Mog¹ wiźc wyst¹pię tytu³y, dla których podane bźd¹ nazwiska wiźcej nis dwóch aktorów. Musimy wiźc wychwycię tylko przypadki z jednym aktorem, aby dla drugiego wpisu usyę wartoci NULL

Najpierw wyliczymy wszystkie stany, w których mose znaleę siź parser:

typedef enum parse_state;

Nastźpnie zadeklarujemy strukturź do przechowywania stanu parsera i liczby aktorów:

typedef struct catalog_parse_state;

W funkcji g³ównej deklarujemy egzemplarz tej struktury, a w strukturze kontekstowej parsera przydzielamy jej wskanik:

xmlparserCtxtPtr ctxt_ptr;

catalog_parse_state parsing_state;

ctxt_ptr = xmlCreateFileParserCtxt('dvdcatalog.xml');

if (!ctxt_ptr)

ctxt_ptr->sax = &mySAXParseCallbacks;

ctxt_ptr->userData = &parsing_state;

xmlParseDocument(ctxt_ptr);

Dostźp do struktury stanu w kasdym z naszych wywo³ań zwrotnych mosemy uzyskaę poprzez wskanik ctx

static void start_element(void *ctx, const char *name, const char **attrs) parse_event;

/* Mapa stanów */

typedef enum parse_state;

Deklarujemy strukturź do przechowywania informacji przekazywanych miedzy wywo³aniami zwrotnymi. T¹ informacj¹ jest stan parsera i liczba aktorów:

/* Struktura przechowuj¹ca miźdzy wywo³aniami stan i liczbź aktorów */

typedef struct catalog_parse_state;

Deklarujemy teraz prototypy:

/* Prototypy wywo³ań zwrotnych */

static void start_document(void *ctx);

static void end_document(void *ctx);

static void start_element(void *ctx, const char *name, const char **attrs);

static void end_element(void *ctx, const char *name);

static void chars_found(void *ctx, const char *chars, int len);

/* Funkje pomocnicze */

static parse_event get_event_from_name(const char *name);

static parse_state state_event_machine(parse_state curr_state, parse_event

curr_event);

oraz strukturź wywo³ania zwrotnego:

static xmlSAXHandler mySAXParseCallbacks;

main()

G³ówna procedura realizuje kolejno nastźpuj¹ce zadania:

q tworzy parser,

q konfiguruje wywo³ania zwrotne,

q ustawia wskanik na dane przechowuj¹ce stan miźdzy wywo³aniami zwrotnymi,

q s¹da przetworzenia dokumentu,

q usuwa wywo³ania zwrotne,

q usuwa parser.

Kod tej procedury zawiera niewiele wiźcej wierszy nis powysszy opis:

int main()

ctxt_ptr->sax = &mySAXParseCallbacks; /* Set callback map */

ctxt_ptr->usrData = &parsing_state;

xmlparseDocument(ctxt_ptr);

if (!ctxt_ptr->wellFormed)

ctxt_ptr->sax = NULL;

xmlFreeParserCtxt(ctxt_ptr);

printf('Parsing completen');

exit(EXIT_SUCCESS);

} /* main */

start_document()

To wywo³anie zwrotne jest wzywane na pocz¹tku rozbioru dokumentu. Zeruje ono informacjź zawart¹ w maszynie stanu:

static void start_document(void *ctx) /* start_document */

end_document()

To wywo³anie zwrotne jest wzywane na zakończenie rozbioru dokumentu. Zmienia ono informacjź zawart¹ w maszynie stanu w taki sposób, aby kasde nastźpne wywo³anie zwrotne by³o traktowane jako niewasne:

static void end_document(void *ctx) /* end_document */

start_element()

Wywo³anie zwrotne start_element jest wzywane po kasdym wykryciu pocz¹tku elementu w przetwarzanym dokumencie XML. Jego g³ównym zadaniem jest wywo³anie maszyny stanu w celu okrelenia jego nowej wartoci. Dodatkowo zliczani s¹ aktorzy oraz obs³ugiwane atrybuty elementu dvd

static void start_element(void *ctx, const char *name, const char **attrs)

if (curr_event == parse_actors_e)

if (state_ptr->current-state == parse_dvd_s)

}

} /* start_element */

end_element()

To wywo³anie zwrotne jest wzywane po wykryciu końca elementu. Wywo³uje ono maszynź stanu do obs³ugi tego zdarzenia:

static void end_element(void *ctx, const char *name) /* end_element */

chars_found()

Funkcja chars_found jest wywo³ywana zawsze, gdy wykryty napis nie jest nazw¹ elementu, komentarzem lub atrybutem. Na podstawie bies¹cego stanu w maszynie stanu okrelany jest sposób przetwarzania znaków. Elementy price i year_made s¹ traktowane nieco odmiennie, aby pokazaę, jak maszyna stanu mose wykrywaę mieszaninź specyficznych i uogólnionych elementów, usywaj¹c stanu parse_valid_string_s dla elementów typu rodzimego:

/* W celu uproszczenia za³osylimy ograniczenie d³ugoci nazwy zdarzenia

oraz przekazywanie wszystkich znaków podczas jednego wywo³ania */

#define CHAR_BUFFER 1024

static void chars_found(void *ctx, const char *chars, int len) /* switch */

} /* chars_found */

get_event_from_name()

Mamy takse funkcjź pomocnicz¹, która s³usy do przekszta³cania nazw elementów na wyliczone zdarzenia:

/* Odwzorowanie nazw elementów na wyliczone zadarzenia */

const struct events[] = ,

static parse_event get_event_from_name(const char *name)

return parse_other_e;

} /* get_event_from_name */

state_event_machine()

Na zakończenie mamy maszynź stanu, która okrela nowy stan na podstawie podanego stanu bies¹cego i zdarzenia:

/* Przeszukiwanie maszyny stanu */

const struct event_state[] = ,

{parse_director_e, parse_valid_string_s],

static parse_state_event_machine(parse_state curr_state, parse_event

curr_event)

return parse_unknown_s;

} /* state_event_machine */

Po uruchomieniu tego programu (z plikiem wejciowym skróconym z powodu braku miejsca w ksi¹sce) uzyskujemy bardzo przejrzysty wynik. Zwróęmy uwagź na to, se kasdy aktor ma przypisany numer, pod którym wystźpuje w elemencie dvd, a zarówno resyser, jak i tytu³ filmu maj¹ dodany napis „Other valid”. Pokazalimy wiźc, se mosna uprocię parser, jeli nie trzeba rozrósniaę znaczenia jakich elementów, obs³uguj¹c je w jednolity sposób!

Element dvd started

Attribute asin

Attribute 0780020707

Other valid Grand Illusion

Price 29.99

Other valid Jean Renoir

Actor Jean Gabin (1)

Year 1938

Element dvd started

Attribute asin

Attribute 0780020685

Other valid Seven Samurai

Price 27.99

Other valid Akira Kurosawa

Actor Takashi Shimura (1)

Actor Toshiro Mifune (2)

Year 1954

Parsing complete

Materia³y ród³owe

G³ównym miejscem do rozpoczźcia jakichkolwiek prac z XML jest strona ze standardami W3C pod adresem: https://www.w3.org/xml.

Warto równies zajrzeę do wersji standardu XML opatrzonej komentarzami, któr¹ mosna znaleę pod adresem: https://www.xml.com/pub/a/axml/axmlintro.html[ZW1] .[MH2]

Strona macierzysta biblioteki libxml, poprzednio znanej jako gnome-xml, znajduje siź pod adresem: https://xmlsoft.org. Oprócz dokumentacji i odnoników do plików, które mosna pobraę, jest to równies dobre ród³o odnoników do innych informacji o XML, które warto przeledzię. Alternatywne ród³o dokumentacji libxml mosna znaleę pod adresem https://www.daa.com.au/~james/gnome/xml-sax/xml-sax.html.

Doskona³e ród³o prac na temat XML z grupy Open Source mosna znaleę pod adresem https://xml.apache.org/, dotyczy to zw³aszcza parsera XML o nazwie Xerces, który jest dostźpny w wersjach Java i C++, dzia³a w systemie Linux i zastosowano w nim model DOM blisko spokrewniony ze standardem W3C dla schematów XML.

Firma IBM wykonuje duso prac dotycz¹cych XML (i Linuksa), a wiźc strona https://www.alphaworks.ibm.com/ jest czźsto dobrym miejscem na zapoznanie siź z nowymi technologiami.

Dobrym ród³em wiedzy jest takse strona Jamesa Clarka — https://www.jclark.com/.

Inny interfejs DOM o nazwie Gdome zbudowany na podstawie libxml mosna znaleę pod adresem: https://levien.com/gnome/gdome.html.

Standard interfejsu SAX do rozbioru XML znajduje siź pod adresem: https://www.megginson.com/SAX.

Zestaw najczźciej zadawanych pytań na temat XML z odpowiedziami (FAQ) znajduje siź pod adresem: https://www.ucc.ie/xml.

Bezp³atny edytor XML (napisany w jźzyku Java) znajduje siź pod adresem: https://www.merlotxml.org/.

Napisano takse bardzo wiele ksi¹sek o XML, ale trudno jest wskazaę tź, od której warto zacz¹ę. Jedn¹ z takich pozycji godnych przeczytania mose byę XML. Vademecum profesjonalisty, wyd. Helion (ISBN 83-7197-434-5).

Podsumowanie

W tym rozdziale omówilimy struktury dokumentu XML oraz specyfikacje DTD, definiuj¹ce te struktury. Przedyskutowalimy takse rósnice miźdzy „dobrym sformatowaniem” dokumentu XML oznaczaj¹cym poprawnoę sk³adniow¹ a „poprawnoci¹” dokumentu, potwierdzon¹ przez zwi¹zan¹ z nim specyfikacjź DTD.

Nastźpnie skrótowo omówilimy dwa g³ówne rodzaje parserów stosowanych do dokumentów XML (model DOM i model SAX).

Pokazalimy takse szczegó³owo bibliotekź libxml stanowi¹c¹ pierwotnie czźę interfejsu graficznego GNOME, ale obecnie przekszta³con¹ do postaci samodzielnego narzździa. Zawiera ona parser dzia³aj¹cy na zasadzie SAX i wyposasony w interfejs programowy do jźzyka C.

Na zakończenie rozdzia³u pokazalimy parser przetwarzaj¹cy nasz plik catalog.xml

[ZW1]Aktualny to: https://www.xml.com/pub/a/axml/axmlintro.html

[MH2]nieaktualny!

Politica de confidentialitate | Termeni si conditii de utilizare

DISTRIBUIE DOCUMENTUL

Vizualizari: 657
Importanta:

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Distribuie URL
https://www.scrigroup.com/limba/poloneza/313/XML-i-libxml15399.php

Adauga cod HTML in site
<a href="https://www.scrigroup.com/limba/poloneza/313/XML-i-libxml15399.php" target="_blank" title=" - https://www.scrigroup.com/limba/poloneza/313/XML-i-libxml15399.php">XML i libxml</a>

XML i libxml

komputerów

DOCUMENTE SIMILARE

XML i libxml

Struktura dokumentu XML

Sk³adnia XML

Dobrze sformatowany dokument XML

Sekcje

Prolog

Treę

Epilog

Elementy

Zagniesdsanie elementów

Komentarze

Poprawnoę XML

Definicja typu dokumentu (DTD)

Tworzenie DTD

Schematy

Powi¹zania DTD z dokumentem XML

Rozbiór XML

DOM

SAX

Biblioteka libXML (gnome-xml)

Tworzenie i wywo³ywanie parsera

Informacja o dokumencie

Zastosowanie wywo³ań zwrotnych

Obs³uga b³źdów

Pocz¹tek dokumentu

Koniec dokumentu

Pocz¹tek elementu

Koniec elementu

Znaki

Przyk³ad wywo³ania zwrotnego

Utrzymywanie informacji o stanie parsera

main()

start_document()

end_document()

start_element()

end_element()

chars_found()

get_event_from_name()

state_event_machine()

Materia³y ród³owe

Podsumowanie

DISTRIBUIE DOCUMENTUL

Comenteaza documentul:

Treę

Poprawnoę XML

Materia³y ród³owe