De geest van Pythagoras.

SURF — Uitgerekend nu?
Zeist, 9 april 1997
Frans Wiering
Computer en Letteren, Universiteit Utrecht

Inleiding

De programmacommissie heeft mij uitgenodigd hier te spreken over 'de betekenis van ICT voor de geavanceerde alfa-wetenschapper'. Aanleiding voor deze uitnodiging was dat ik verantwoordelijk ben voor het IWI-project Thesaurus musicarum italicarum of kortweg TMI. Ik zal u nog het een en ander vertellen over dit projekt. Daarbij zal ik proberen mijn ervaringen bij de opzet en uitvoering van dit project te generaliseren in enkele algemene uitspraken over de alfa-informatica of zelfs de wetenschappelijke informatievoorziening als geheel.

Van huis uit ben ik musicoloog. Daarom wil ik graag beginnen met een kleine reis door de muziekgeschiedenis. Deze begint rond 500 voor Christus, met een legende over de Griekse filosoof en wiskundige Pythagoras.

Pythagoras in de smederij (154 Kb)

Op een dag liep Pythagoras langs een smederij, waar vier smeden op het aambeeld hamerden. Gewoonlijk leverde zulk werk een enorm kabaal op, maar ditmaal weerklonken er consonante, welluidende, samenklanken. Pythagoras ging op zoek naar de oorzaak. Hij woog de hamers en ontdekte dat iedere hamer een ander gewicht had. Maar de verhoudingen tussen deze gewichten waren in eenvoudige getallen uit te drukken. Met deze kennis experimenteerde hij verder en kwam tot het inzicht dat alle consonante samenklanken uit de getallen 1, 2, 3 en 4 af te leiden waren

1:2	Oktaaf
1:3	Oktaaf en kwint
1:4	Twee oktaven
2:3	Kwint
3;4	Kwart

Getallen en muziek versmolten tot één geheel in Pythagoras' leer. Aangezien hij — als archetypische beta — de kosmos als een mathematische constructie opvatte, beschouwde hij haar dus in feite ook als een muzikaal geheel.

Kosmische harmonie volgens Zarlino (1589) (158 Kb)

Dit idee had verstrekkende gevolgen. Er ontstond een leer van de 'muziek der sferen' die tussen de planeten zou klinken. Ook de menselijke microcosmos was getalsmatig en dus muzikaal geordend. Dergelijke muziek te kennen werd een hoog wetenschappelijk doel. De praktische muziek werd beschouwd als minderwaardig. Verkeerde muziek — en dat was vrijwel alle muziek — kon de menselijke microcosmos verstoren. De bronnen geven hiervan een aantal afschrikwekkende voorbeelden. Het zal u niet verbazen dat van deze muziek zelf vrijwel niets is overgeleverd. Een van de weinige bewaarde fragmenten is een gedeelte uit de tragedie Orestes van Euripides.

Papyrusfragment van Orestes van Euripides (106 Kb)

Dit muziekbeeld, enerzijds een verheven, gecompliceerde muziektheorie en anderzijds een minderwaardige, simplistische muziekpraktijk, is nog tot in de 16e eeuw aantoonbaar. Maar de muziek veranderde. In de late middeleeuwen ontstond de meerstemmigheid, gebaseerd op de harmonieuze intervallen van Pythagoras. Deze ontwikkelde zich in de Renaissance tot verfijnde kunstvorm. Zulke muziek componeren kon men pas na jaren van training. Allereerst moest de componist de 'grammatica van de samenklanken' beheersen. Maar het belangrijkste was dat hij de betekenis van een tekst door middel van muziek tot de luisteraar kon laten doordringen. Deze muzikale rhetorica was nauwelijks in regels te vangen. Ook de notatie van deze muziek was tot kunst verheven.(1)

Johannes Ockeghem, Missa 'Ecce ancilla domini' (Chigi codex, c. 1495) (201 Kb)

Grootmeesters in deze kunst waren de 'Nederlanders', meest Vlaamse componisten die in de 15e en 16e eeuw aan de vele Italiaanse hoven werkzaam waren. Van hen genoot Adrian Willaert (1490-1562) misschien wel het grootste prestige. Ik laat het begin horen van Willaerts motet Ave Virgo. Het combineert twee gebeden tot Maria in een zesstemmige structuur. Ik toon u het begin van het stuk in oude notatie.

Adrian Willaert, Ave virgo; sopraan en tenor van deel 1 (57 Kb)

Het was niet meer vol te houden dat theoretische muziek verheven was en praktische minderwaardig, ook niet voor de theoretici zelf. In 1558 beweerde de grootste van hen, en daarom de hoofdpersoon in mijn IWI-project, Gioseffo Zarlino, dat de perfecte musicus beide, theorie èn praktijk, volledig diende te beheersen. De zojuist genoemde Adrian Willaert benaderde dit ideaal het dichtst, en was daarom voor Zarlino 'de nieuwe Pythagoras'. Anderen stelden plompverloren dat muziektheorie slechts een hulpmiddel was bij het echte verheven werk, het componeren.

Het is misschien verwonderlijk dat in deze muziekcultuur de theorie bloeide als nooit tevoren. Lijvige boeken verschenen aan de lopende band, vooral in Italië, maar ook in Frankrijk, Duitsland, Spanje en soms in de Nederlanden. In het algemeen behandelen ze eerst de mathematische basis van de muziek, dan de praktische muzikale grammatica, en tenslotte het einddoel van de muziek: de emotionele zeggingskracht. Zoals dat in de Italiaanse renaissance op zoveel andere gebieden gebeurde, is ook in de relatie tussen theoretische en praktische muziek een keerpunt bereikt. De alfa's hebben van de beta's gewonnen.

Ik heb deze reis door 20 eeuwen muziekgeschiedenis met u gemaakt om een aantal thema's te introduceren.

het eerste thema is omkering. Het eenvoudige blijkt complex; hel lage wordt verheven. Dit thema speelt ook een rol in de alfa-informatica.
het tweede thema is de tegenstelling prescriptief-descriptief. De muziektheorie heeft vaak strenge normen aan de praktijk opgelegd, en genadeloos veroordeeld wat daaraan niet voldeed. Maar we hebben ook de tegenstroom leren kennen die het natuurlijke, spontane of emotionele in de muziek wil beschrijven. Ook deze tegenstelling zal nog een rol in mijn betoog spelen.
het derde thema is het historische bronnenmateriaal dat in de TMI wordt ontsloten: de muziektheorie van de Italiaanse Laatrenaissance. Als ik daarvan straks enkele voorbeelden laat zien, weet u waarover ik het heb.

Digitalisering van bronnen

De behoefte om een aantal hoofdbronnen van de muziektheorie van de Italianse Renaissance te digitaliseren kwam rechtstreeks voort uit mijn onderzoek naar die muziektheorie. Zonder elektronische teksten bleek een aantal onderzoeksvragen vrijwel onoplosbaar. Andere onderzoekers in de humaniora zijn voor vergelijkbare onderzoeksvragen gesteld en hebben de digitalisering van ander bronnenmateriaal ter hand genomen. Dat kan van alles zijn: er bestaan elektronische teksten van de kerkvaders, middeleeuwse encyclopedieën, en romans uit de vorige eeuw en nog veel meer.

De fundamentele behoefte van de letterenonderzoeker is toegang tot documenten. Iedereen die wel eens een boek van enige omvang heeft doorgewerkt op zoek naar die ene speciale uitspraak weet hoe betrekkelijk de toegankelijkheid van een papieren document is.Voor historische bronnen komt daarbij dat ze vaak onvolledig, beschadigd, slecht leesbaar, schaars of beperkt raadpleegbaar zijn, dat inhoudsopgaven meestal ontbreken en eventuele indexen van een ontroerend naïeve visie op tekstontsluiting getuigen. Een elektronische tekst doet veel van deze problemen als sneeuw voor de zon verdwijnen. Ook zijn er op een elektronische tekst acties denkbaar die op een papieren tekst vrijwel ontuitvoerbaar zijn, zoals zoeken met logische operatoren, wildcards, en bepaling van woordfrequenties. En dan noem ik nog maar een paar hele simpele voorbeelden.

Resultaat zoeken met logische operatoren naar modo/modi en forma/forme (250 Kb)

Frequenties per 10% van een tekst van de synomiemen modo/modi en tuono/tuoni (44 Kb)

De aanmaak van een elektronische tekst lijkt een simpele taak: je haalt het document door de scanner, corrigeert eventuele fouten, voegt wat codes voor oriëntatie toe, en klaar ben je. Helaas, bij bronnenmateriaal werkt dat niet zo. Ik noem een paar addertjes die onder het gras zitten:

OCR van handgeschreven teksten en oud drukwerk is op zijn best een moeizaam proces;
niet-standaard tekens. U denkt misschien aan Griekse of Hebreeuwse letters, maar voor de computer beginnen niet-standaard tekens al bij de accentletters.
Tekst met accentletters en Grieks en hebreeuws schrift (Zarlino, Sopplimenti musicali, 1588; 223 Kb)

kennelijke fouten in de bron.
Drukfout 'ocitamehtaM' (Zarlino, Sopplimenti musicali, 1588; 37 Kb)
heel belangrijk: varianten in de overlevering van een werk
niet-tekstueel materiaal; diagrammen (113 Kb), muzieknotatie (144 Kb).

niet-gestandaardiseerde spelling: een woord als 'verità' komt in mijn materiaal op ten minste 4 manieren gespeld voor.
```
verità
verita
uerità
uerita
```
vage of ambigue gegevens, bij voorbeeld namen en verwijzingen.

Dan zijn er nog de technologische kwesties: hard- en software, media en dataformaat. 'Addertjes onder het gras' is een understatement: er is eerder sprake van een slangenkuil van problemen.

Deze problemen worden vaak ontweken door voor een aanzienlijk vereenvoudigde weergave van het document te kiezen. De tekst wordt als ASCII-file opgeslagen. Bijzondere tekens worden genegeerd of met ad-hoc codes weergegeven. De spelling wordt gestandaardiseerd. Afbeeldingen worden weggelaten of los bijgevoegd, zoals vroeger bij de Verkade-albums. De verrijking van de tekst beperkt zich tot de toevoeging van wat oriëntatiemiddelen.

Het gaat niet aan om het nut van dergelijke digitale teksten te bagatelliseren. Maar problemen worden op deze manier vermeden, niet opgelost. Mede daarom geniet het bouwen van een electronisch corpus als activiteit niet zo'n hoge status. Immers, het is gereedschapsbouw, zo stelt men wel, en dan nog van een laag technologisch kaliber. De onderzoeker die besluit zelf een corpus te ontwikkelen wordt daardoor óók nog eens geconfronteerd met organisatorische belemmeringen. Wanneer men een subsidie aanvraagt, wordt deze niet zelden afgewezen vanwege het ontbreken van een fundamentele onderzoeksdoelstelling, een te laag innovatief gehalte, of een combinatie van beide. En dan heb ik het schijnargument van de modieusheid nog niet genoemd. Mijn ervaring is dat zelfs projecten die de digitalisering van bronnenmateriaal combineren met duidelijk omschreven onderzoek aan dit materiaal geen al te grote slaagkans hebben.

Als de onderzoeker in deze droevig stemmende situatie niet al van de plannen afziet, zal hij/zij besluiten het dan maar in de eigen tijd te doen. Dit werk wordt niet als onderzoek gekwalificeerd: het is dus zaak er snel vanaf te zijn. Daarom zal er eens te meer naar ad-hocoplossingen gegrepen worden. Zo is de vicieuze cirkel rond, en wordt de ICT in de letterenwereld even marginaal als de zo geminachte praktische muziek in de oudheid.

Maar laten we de zaak nu eens van de andere kant bekijken. Wetenschappers ontlenen hun bestaansrecht aan confrontatie met problemen, niet met het vermijden ervan. Mijn voorbeelden van bronnenmateriaal hebben een scala van problemen getoond op het niveau van datastruktuur. Daarbij komt nog eens dat standaard-software niet in staat is allerlei standaard-onderzoeksvragen te beantwoorden. Twee voorbeelden:

het localiseren in een tekst van alle vervoegingen van een werkwoord (in de Romaanse talen gaat het al gauw om tientallen vormen), zonder daarbij de spellingsvarianten over het hoofd te zien;
het vergelijken van een aantal varianten van dezelfde tekst, zonder het spoor bijster te raken

Kortom, hier ligt een heel terrein aan uitdagingen. Maar de oplossingen komen nooit 'vanzelf'. In de eerste plaats moeten wij alfa's zelf aan de slag, zelf initiatieven ondernemen. We moeten laten zien hoe complex onze data wel zijn. We moeten ze analyseren en modellen ontwikkelen om ze vast te leggen. Het karakter van de modellen moet generiek en niet ad-hoc zijn. Ook de onderzoeksvragen die we met de data willen beantwoorden moeten we analyseren — wat belangrijk inzicht in de methodiek van het vak zelf oplevert — en de uitkomsten terugkoppelen naar de datastructuren. We moeten denken over uitwisseling van data, verrijking ervan en over wetenschappelijke communicatie. Dan moeten we realistische, maar vooral onbescheiden eisen op softwaregebied stellen. We moeten zelf data aanmaken om onze modellen te testen, en desnoods zelf prototypen van software bouwen. Vanuit deze positie kunnen we samenwerking zoeken met technologen en software-ontwikkelaars. Dezen zijn vaak genoeg gecharmeerd van de complexiteit van onze data, de omvang ervan, en van de ingewikkelde bevraging die we erop los willen laten.

In dit proces hebben we wel degelijk met zowel fundamentele onderzoeksvragen als geavanceerde technologische problematiek te maken. Voor mij is in dit geheel de modellering van de data het meest fundamenteel. Op het gebied van de data ligt onze specifieke deskundigheid, maar vooral, de levenscyclus van het elektronisch document is veel langer dan die van hard- en software. Conservering is vaak hoofd- of nevendoel van digitaliseringsprojecten. De rest van mijn betoog zal vooral structurering en presentatie van de data betreffen.

De TEI

Sinds ruim 10 jaar bestaat er een ISO-standaard voor de beschrijving van gestructureerde documenten waar u allen wel eens van gehoord zult hebben: SGML, Standard Generalized Markup Language. Documentstructuur is het kernbegrip: SGML heeft van zich niets met layout te maken. De markup, weergegeven door tags tussen scherpe haken, formeel vastgelegd in een beschrijving, de Document Type Definition of DTD. Deze beschrijving maakt deel uit van het document zelf. De markup kan dus voor iedere SGML-applicatie verschillen. Een algemeen bekende SGML-applicatie is HTML.

Daarnaast definieert SGML methoden voor het omgaan met vreemde tekens, met grafisch en ander niet-SGML-materiaal, met niet-hiërarchische relaties in een document: hyperlinks zitten voorgebakken in SGML. Uiteindelijk manifesteert een SGML-document zich als een pure ASCII-file, maar dan een die gestuctureerd is op een geformaliseerde en gedocumenteerde wijze. Een SGML-document is per definitie platform-onafhankelijk.

Aanvankelijk trok de SGML-standaard vooral de aandacht van grootgebruikers van documenten als IBM en het Amerikaanse ministerie van defensie, speciaal vanwege de grote voordelen die de structurering biedt bij information retrieval. Sinds een paar jaar wordt SGML meer en meer in het bedrijfsleven toegepast, zij het in Nederland op zeer bescheiden schaal. De ontwikkeling van SGML-software draait op volle toeren.

SGML voldoet aan een belangrijke eis, die ik zojuist genoemd heb: het is een generiek model, niet een ad-hocoplossing. Daarom heeft het al snel de aandacht van letterenonderzoekers getrokken. Sinds 1986 bestaat het Text Encoding Initiative (TEI), een wereldwijd samenwerkingsverband van honderden onderzoekers. Samen ontwikkelen zij een Document Type Definition voor hun bronnenmateriaal.

Belangrijke uitgangspunten van het TEI zijn:

beschrijving van de bron in al zijn onregelmatigheden; geen norm opleggen die de bron geweld aandoet (dat was een van de thema's die ik eerder noemde);
de onderzoeker moet zelf informatie kunnen toevoegen, zonder dat de brontekst zelf daardoor verandert;
uitbreidbaar tot onvoorziene brontypen.

Vanwege de tijd geef ik hiervan maar een enkel voorbeeld van TEI-markup: namelijk die voor de eerder genoemde drukfout:

to doue termina la metà di tutta la chorda;
& lo dimostra più oltra, come uedere-<lb>

mo. Ma prima fà un bellissimo discorso, &
da buon <sic corr= 'Mathematico'>ocitamehtaM</sic>;
accioche al<supplied>-</supplied><lb>

cun non prenda marauiglia, ch'ei habbia
più tosto pigliato il numero 18. ch'un'<lb>

De TEI-DTD is nog steeds in ontwikkeling. Maar het is nu al de omvangrijkste ooit geproduceerd. Daarmee is deze de toetssteen voor SGML-software geworden. Hier lopen de alfa's dus voorop in de ontwikkelingen.

Zoals u gezien heeft, volgt het TMI-project de TEI-richtlijnen. Dat wil niet zeggen dat daarmee alle problemen opgelost zijn. Ik noem een paar gebieden die we nog aan het ontginnen zijn: meertalige teksten, tabellen, diagrammen, muzieknotatie.

Nieuwe mogelijkheden

TEI-documenten kunnen uitgroeien tot fantastische informatiebronnen. Maar dat is de helft van het verhaal. Markup maakt de documenten vrijwel onleesbaar. Er is software nodig om deze informatiebronnen te bevragen en op een intuïtieve manier te presenteren. Maar men is niet aan een bepaald pakket of software-lijn gecommitteerd. Alles wat SGML ondersteunt is bruikbaar. Dit is de SGML-paradox: software is tegelijk essentieel en irrelevant.

Viewers

SGML-viewers vertalen abstracte documentstructuur naar zichtbare documentstijl. Dit gaat in twee stappen:

welke elementen worden zichtbaar gemaakt, welke niet;
lay-out van de zichtbare elementen .

1. Het eerste punt is het interessantst. Vanuit SGML-perspectief is bij voorbeeld een inhoudsopgave niet een aparte sectie van het document, maar een documentstijl waarin de hoofdstuktitels zichtbaar zijn, terwijl de lopende tekst onzichtbaar is.

TEI-document met automatisch gegenereerde inhoudsopgave (167 Kb)

Maar er is meer mogelijk. Er kunnen allerlei 'views' op hetzelfde document gegenereerd worden. In de wereld van de humaniora betekent dit bijvoorbeeld het volgende. Een document kan getoond worden zoals het in bron A is overgeleverd is, zoals het in bron B overgeleverd is, of zoals het luidt in de uitgave van onderzoeker C. Men kan namen of citaten uit de bron isoleren, of een lijst van correcties die in de bron zijn aangebracht genereren. Kortom, de tekst van het document krijgt een dynamisch karakter.

TEI-document met namenlijst (120 Kb)

Twee views van een TEI-document (links standaard, rechts met variant; 183 Kb)

Dit betekent dat teksteditie, een van de grondslagen van de humaniora, een fundamenteel ander karakter krijgt. Een papieren teksteditie toont slechts één bepaalde visie op het materiaal. Materiaal dat daarvan afwijkt krijgt letterlijk een ondergeschikte positie. Alternatieve lezingen en bronnen kunnen daarmee alleen uit het perspectief van de bevoordeelde versie bekeken worden. Dit lijkt een beperking van het papieren medium, maar het leidt ook tot een verstarring van het tekstbegrip tot de oertekst, 'de versie die de auteur bedoeld zou hebben'.

In een elektronische editie is er niet per definitie sprake van een bevoorrechte tekst en een aantal afwijkingen. Hier zijn varianten in ieder geval qua beschikbaarheid gelijkwaardig. Iedere 'view' van het document is een andere selectie uit al het beschikbare materiaal. Zulke views kunnen bij voorbeeld corresponderen met veranderingen die een tekst in de loop der tijden heeft ondergaan. Niet de oertekst, maar zulke latere versies hebben nogal eens de grootste invloed gehad. Zulke dynamische aspecten van de tekstoverlevering en -receptie hebben thans veel aandacht in het onderzoek. Het digitale document biedt voor het eerst een editievorm die bij dat onderzoek aansluit. Hier blijkt hoe fundamenteel alfa-informatisering kan zijn.

De digitale werkplaats

Ook op een andere manier zijn elektronische documenten niet statisch. Er kan informatie aan toegevoegd worden. In simpele vorm hebben veel browsers deze faciliteit al. Een voorbeeld van annotatie met SoftQuad Explorer:

tekst wordt gemarkeerd (140 Kb)
annotatie wordt toegevoegd (154 Kb)
tekst bevat nu een annotatie-icoon (128 Kb)

Deze annotatie wordt als SGML-document opgeslagen en maakt dus deel uit van het documentaire informatiesysteem. Hoog genoteerd op mijn ICT-wensenlijstje staat een webserver waarop hetzelfde plaatsvindt, maar dan voor een hele groep onderzoekers. Bronnenstudie wordt hiermee tot een collectief proces. Beter gezegd: het collectieve aspekt van bronnenstudie wordt niet langer verborgen in de individuele publikatie, maar onderstreept en uitgebuit. Dit is de achtergrond van het concept 'digitale werkplaats' waarvan u in Surfcahier no 6. kennis heeft kunnen nomen.

De digitale bronneneditie zal zo niet alleen dynamiek van de tekst, maar ook de dynamiek van het wetenschappelijk onderzoek weergeven. Dat bepaalde teksten 'altijd nieuw zijn' – u vult maar in welke tekst u wilt – is dan niet langer een clichébeeld maar pure werkelijkheid.

Besluit

Mijn conclusie kan alleen maar zijn dat ICT een belangrijk hulpmiddel kan zijn voor de alfa-onderzoeker. Onderzoek dat vrijwel onuitvoerbaar was, kan nu in een ommezien worden verricht. Weloverwogen toepassing van ICT leidt tot bezinning over methoden en grondslagen van het eigen vak. En de alfa heeft materiaal, kennis en problemen in huis die aan de technologie een stevige uitdaging bieden. De vicieuze cirkel van simpele technologie, lage wetenschappelijke status en geringe financiële middelen kan en moet daarmee doorbroken worden. Ik ben blij dat IWI daarin het voortouw heeft willen nemen en hoop dat er nog vele dergelijke projecten zullen volgen.

Drie stellingen voor discussie:

De onderzoeker dient als inhoudelijk specialist zelf de informatisering ter hand nemen en niet de technologische ontwikkeling af te wachten.
Geen complexer data dan alfa-data.
ICT toepassing leidt tot bezinning op grondslagen en tot fundamentele ontwikkeling van het vak, juist in de letterenvakken.