Uitleg bij het gedititaliseerde deel van het woordenboek

Om het woordenboek beter doorzoekbaar te maken heb ik het plan opgevat om het te digitaliseren. Maar aangezien de fotografische interface redelijk werkt, heeft het geen haast. Tot dusver heb ik 4.050 lemma’s ingevoerd. Hieronder geef ik kort de eigenschappen van het reeds gedigitaliseerde deel weer.

De opbouw van een lemma

De oorspronkelijke opbouw en inhoud van de lemma’s blijft grotendeels gehandhaafd. Belangrijke verschillen zijn de navolgende:

  1. Volgend op de originele titelwoorden en voorafgaand aan de definitie, voeg ik (indien nodig) tussen ronde haken de moderne spelling toe van het Japanse titelwoord, en tevens eventuele andere spellingsvormen van het betreffende woord die niet genoemd worden in het origineel.
  2. De weergave van lemma’s is zonder context van de oorspronkelijke pagina, maar aangevuld met andere resultaten die treffers zijn voor de zoekopdracht.
  3. Af en toe wordt de definitie gevolgd door een noot.

Zoekopdrachten en resultaten

Bij zoekopdrachten kijkt het programma zowel naar titelwoorden als afzonderlijke woorden en uitdrukkingen in de definitie. Dat betekent dat bij een Japanse zoekopdracht er niet alleen resultaten kunnen zijn voor titelwoorden, maar ook resultaten voor treffers in de Japanse synoniemen en voorbeeldzinnen. Treffers op titelwoorden staan bovenaan, onder de aanduiding TITELWOORDEN. Treffers in de definitie worden opgesomd onder de aanduiding TREFWOORDEN.

Er kunnen ook zoekopdrachten in het Nederlands worden gegeven, maar aangezien dit een Japans - Nederlands woordenboek is, zullen resultaten voor Nederlandse woorden meestal minder specifiek zijn. Het aantal extra Japanse en Nederlandse trefwoorden uit de definities is momenteel 29.955.

Bij een zoekopdracht kan er gekozen worden voor vier verschillende zoekstrategieën:

  1. exacte woord of uitdrukking (exact)
    woorden of uitdrukkingen die precies overeenkomen met de ingevoerde zoekopdracht
    (dit is de standaard zoekstrategie)
  2. begin van een woord of uitdrukking (prefix)
    alle woorden of uitdrukkingen die met dat woord of die letters beginnen
  3. einde van een woord of uitdrukking (suffix)
    alle woorden of uitdrukkingen die met dat woord of die letters eindigen
  4. deel van een woord of uitdrukking (substring)
    alle woorden of uitdrukkingen die deels overlappen met dat woord of die letters

Vaste frasen zijn niet altijd als geheel via de standaard (exacte) zoekstrategie te vinden. Een frase als ik begrijp niet dat dient daarom ofwel gezocht te worden via bijvoorbeeld begrijpen ofwel met de zoekstrategie deel van een woord of uitdrukking (substring).

Het kan voorkomen dat alternatieve spellingen voor de woorden die daadwerkelijk in het oorspronkelijke woordenboek zijn opgenomen verwijzen naar het (vermoedelijk) gewenste resultaat. Zo leidt bijvoorbeeld nippon naar nihon, en sayounara naar sayōnara. Vooralsnog geschiedt dit soort verwijzingen automatisch, zonder dat het programma daar extra de aandacht op vestigt.

Spelling en transcriptie van de zoekopdracht

Er zijn vier mogelijkheden:

  1. Japanse woorden gespeld met het latijnse alfabet (alleen resultaten op titelwoorden).
    Het transliteratie systeem van is dat van Hepburn, met de ん altijd weergegeven als n. Een onregelmatigheid in de spelling van Van de Stadt, is zijn gebruik van het streepje ‘-’. Hij gebruikt het incidenteel zowel in plaats van een spatie als op het punt waar een apostrof uitkomst zou hebben geboden. Bijvoorbeeld mata-no-na en an-anri no. Van de Stadt is niet consistent in de toepassing hervan. Invoer met hiragana (zie hieronder) vermijdt eventuele onduidelijkheden.
    Om problemen met de invoer van (de lange klinkers) ā, ū en ō te voorkomen kunnen deze tekens ook ingevoerd worden als kliker met circumflex of klinker gevolgd door een = teken (is-gelijk teken), of met de zogenaamde wāpuro spelling: ou voor ō en uu voor ū, etc. (dit laatste kan in theorie ongewenste resultaten geven).
  2. Japanse woorden in hun originele spelling (mix van kanji, okurigana, katakana, etc.). (Dit geeft zowel resultaten via titelwoorden als via trefwoorden uit de definitie.)
  3. Japanse woorden gespeld in hiragana (moderne spelling). (Resultaat: titelwoorden en die trefwoorden die volledig in hiragana geschreven zijn.)
  4. Nederlandse woorden (alleen resultaten via trefwoorden uit de definitie van het lemma).

In principe heb ik zowel voor het Japans als het Nederlands de vooroorlogse spelling gehandhaafd, maar om het zoeken te vergemakkelijken heb ik een aantal zaken toegevoegd: (i) van de titelwoorden de moderne Japanse spelling (en eventuele varianten) (ii) waar het de iets meer dan 300 kanji betreft die in modern Japans zijn vereenvoudigd (shinkyūjitai, 新旧自体) , converteer ik die automatisch (iii) Nederlandse trefwoorden indexeer ik zowel op hun vooroorlogse als moderne spelling.

In de definities kunnen (nog) woorden voorkomen in vooroorlogse Japanse spelling (言ふ etc.) die niet gekoppeld zijn aan een trefwoord in de moderne spelling. Bij Japans in de definites dat deel is van een voorbeeldzin heb ik vaak helemaal geen apart trefwoord opgenomen (denk bijvoorbeels aan partikels als を of に etc.) en dat Japans kan dan ook alleen via de zoekstrategie deel van een woord worden gevonden.

Extra resultaten

Af en toe voeg ik lemma’s toe die ontbreken in het originele woordenboek, duidelijk afgescheiden onder de aanduiding SUPPLEMENT. Tevens voeg ik wat bronmateriaal toe, als extra illustratie bij de lemma’s van Van der Stadt, onder de aanduiding TEKST EN UITLEG (met bronvermelding). Zie bijvoorbeeld het resultaat voor 偶然 of het resultaat voor wazig. De voorbeelden zijn niet altijd vindbaar via in romaji gespeld Japans. Het supplement en de tekst en uitleg tellen momenteel 284 items;

Sinds 9 maart 1912 geeft het gedigitaliseerde deel van jiten.nl ook resultaten uit het modern Japans-Nederlandse woordenboek van het Waran Project van de Universiteit Leuven (bij de laatste update van 9 februari 2013 29.076 ingangen). Warandict wordt alleen doorzocht via titelwoorden, trefwoorden en losse woorden uit de definities (dat wil zeggen: niet op frasen, zoals dat kan bij nichiran db en het supplement via zoeken op deel van een woord of uitdrukking).

Vereenvoudigde karakters

De lemma's van het digitale woordenboek volgen de traditionele, vooroorlogse spelling (karakters en kana) maar eventuele afwijkende moderne spelling van het titelwoord staat aan het begin van het lemma tussen haakjes. Google herkent sommige oude spellingsvormen (bijvoorbeeld bepaalde later vereenvoudigde karakters) maar andere niet).