Hier sind knapp 3500 Wörter (nur Lemmata, keine Beugungsformen) mit englischer Übersetzung. Die txt-Datei ist die (unbereinigte) Kopie der angegebenen Webseite.
[...] all classical entries have been verified with the Oxford Latin Dictionary (OLD) Lewis and Short (S) is next in authority [...] Souter and Latham are poorly represented Stelten (Ecc) is more fully represented [...]. [...] it is a complete dictionary, with [...] a number of entries specifically or solely applicable to the Christian Church
______________________________________
In response to several requests, a simple ASCII text list has been created of the two million primary words that the WORDS program and dictionary can form by adding inflections to stems. This list has been reduced to half by eliminating duplicates. The downloadable ZIP of this file is over 2 MB.
Bussinchens Kommentar: Leider wird die Webseite http://www/erols/com/whitaker/listall.zip, wo man die besagte Zip-Datei downloaden kann, nicht angezeigt. Möglicherweise wird es darauf hinauslaufen, dass wir William Whitaker per E-mail [url=mailto:whitaker@erols.com">whitaker@erols.com kontaktieren müssen, um an diese lateinische Wörterliste heranzukommen. Ich aber rechne mir aber relativ gute Chancen aus, dass wir die Liste von ihm bekommen können, wenn er wirklich auf unsere E-Mail reagiert (--> siehe ganz unten in diesem Posting unter Lizenz).
Zitat Currently there are some ommissions.
1) Latin has a widely used enclitic, -que, also -ne and -ve. In principle these could be tacked on to almost any word. If the spell checking system had the capability of recognizing them, that would be the most convenient way of handling this problem. Otherwise, completeness would require their addition to every word, quadrupling the size of the list.
2) Many Latin verb forms are subject to syncope, contracting the form for pronounciation. In WORDS this is handled by a process. For the list another method must be used and the contracted words generated by modifing both stem and ending.
3) There are some common combined words in Latin in which the first part of the word is declined, followed by a fixed form. Unlike the enclitic situation, these forms are limited and should be generated seperately (quidam). Other qu- pronouns are handled seperately in WORDS and need special processing here also.
4) Uniques have not yet been added. This is a trivial matter.
5) There is the problem of prefixes and suffixes. WORDS provides for hundreds of these. It would be impractical to multiply the list by mechanically including all such possibilities. Fortunately, this may not be a significant problem. The philosophy for the dictionary has been to include all words, even those which could be easily generated by a base and fixes, as they occur or are found in sources. This means that the most common compound words are in the system, but that coverage is mostly concentrates on classical Latin.
6) In later times especially, there came some more or less common spelling variations. These are handled in WORDS by TRICKS. They can be relatively expensive, but are only applied to words which otherwise have failed, are these are becoming rarer. This process, if generally applied, would not only expand the list enormously, the added words would not advance the goal of spell checking. They are, in some sense, misspelled words. For a reader, it can be useful to have a guess at the word. He can examine the form and context and judge whether it makes sense. It is not a process to be applied mechanically.
7) There is a divergence in the way editors treat the non-Latin characters J and V. These are the consonant forms of I and U. They are explicit in English, so for convenience, familiarity, and pronounciation general practice in the past has been to use them. More recently, some academic purists have rejected this and eliminated J and V altogether. (Note that the same purists use lower case letters, in spite of the fact that the Romans had only the upper case.) WORDS keeps the variant characters in the dictionary and maps them to a single character in processing. A list could include both expressions, and it would only add a few percent in size. However, that would allow inconsistent spelling choices in a text. This seems to be contrary to the goals of a spell checker. It is probably better eventually to offer two seperate lists so that the user may select the option appropriate for his work.
All the above factors are applied by processes in the WORDS program. Running WORDS looking for UNKNOWNS will give a superior spell check, but the list can be useful in conjunction with common editors. Experience will determine its effectiveness.
All parts of the WORDS system, source code and data files, are made freely available to anyone who wishes to use them, for whatever purpose.
______________________________________
Feedback:
Feedback is invited. If there is a problem in installing or operating, in the results or their display, or if your favorite word is omitted from the dictionary, please let me know. All comments are appreciated. Check back for new version releases at
Bei Juppiter, der Download der Zip-Datei listall funktioniert, wenn man von dieser Seite hier ausgeht: http://users.erols.com/whitaker/wordsoth.htm und auf den Link LISTALL klickt!!!
Zitat LISTALL is a simple zipped listing of all Latin words that can be generated with the dictionary and inflections. It is alphabetical, one copy of each unique form. This file was produced following several requests by people who wanted this to use in conventional spellcheckers.
Mithilfe der Datei DICTPAGE.RAW, die komprimiert als dictpage.zip auf http://users.erols.com/whitaker/dictpage.htm heruntergeladen werden kann, müsste es doch möglich sein, die Wortbedeutungen in die Liste LISTALL einzufügen.
Bei Juppiter, bei Teutates und bei all den anderen eminenten Gottheiten, dann hätten wir ja ganz tolle Tooltips für die gelegten lateinischen Wörter und die Bedeutungen in der Anzeige in der Wortsuche!!!
Zitat von http://latinscrabble.larkvi.com/regulae.php Latin Scrabble follows all the same rules as regular (English) Scrabble (no proper nouns, &c.), except as modified by the following rules.
1. Any Latin word may be used in any legitimate morphological form. The fact that a morphological form is not specifically attested does not disqualify it from being used, so long as it is correct and the word is not explicitly defective. The passive voice used for an intransitive verb in the third person singular is grammatically correct, but in no way opens up the use of the passive voice for otherwise normal intransitive verbs. A Latin grammar (e.g. Kennedy) should be used to judge any special forms and to judge the correctness of any form that is in doubt.
2. Lewis and Short's dictionary is the official arbiter of whether a word is acceptable, with two caveats: ◦ All forms of leo, lere are inadmissable. This is an incorrect etymology found in Priscan, not an actual word. ◦ 'Omega' will be admitted, as it is used prominently in the Vulgate, and it is confusing that 'alpha' is acceptable and 'omega' isn't. No other greek letters are allowed, though 'mu' is also a Latin exclamatory, 'beta, ae' is a beet, etc.
3. Medievalisms ((-e for -ae/-oe, h appearance/dissapearance, c for t, etc.) are not allowed, and Classical spelling should be used, except for cases where said medievalism is recognized as a lexeme in Lewis and Short's dictionary.
4. 'i' and 'j' are used interchangeably, as are 'u' and 'v.' In play, there is absolutely no distinction between these letters.
5. No enclitics (-ne, -ve, -que). Words that terminate in -que may be used if they have a separate meaning attested in Lewis and Short for the form terminating -que. Thus, 'quandocumque' is acceptable, whereas 'agricolaeque' is not.
6. Blank tiles may be used for any missing Latin letter, not just those supplied in the tilesets; accordingly, words that employ k, y, or z may be played.
Zitat von http://latinscrabble.larkvi.com/regulae.php 1. Any Latin word may be used in any legitimate morphological form. The fact that a morphological form is not specifically attested does not disqualify it from being used, so long as it is correct and the word is not explicitly defective. The passive voice used for an intransitive verb in the third person singular is grammatically correct, but in no way opens up the use of the passive voice for otherwise normal intransitive verbs. A Latin grammar (e.g. Kennedy) should be used to judge any special forms and to judge the correctness of any form that is in doubt.
Und schon geht's los mit den Problemen:
In der LISTALL-Liste von William Whitaker, die ich Linhart geschickt habe und die eigentlich als Ausgangspunkt für unser zukünftiges latin.dic dienen könnte, stehen - wie ich eben bei einer Stichprobe gesehen habe - z.B. bei dem intransitiven Verb dormire jedoch alle Passivformen, siehe Anhang. Diese Formen würden dann theoretisch bedeuten: ich werde geschlafen, du würdest geschlafen werden, ihr wart geschlafen worden, usw. (Vergleiche im Deutschen die Unzulässigkeit von Formen wie geschlafener, geschlafenen, geschlafenem usw.)
Laut dem lateinischen Scrabble Word Checker sind diese Formen aber teils zulässig, teils nicht, zum Beispiel:
dormimur - wir werden geschlafen dormiar - ich möge geschlafen werden dormibimini - ihr werdet geschlafen werden (übrigens handelt es sich hier um eine falsche Futurumbildung mit -bi-, die jedoch in William Whitakers Liste steht) dormiebaris - du wurdest geschlafen dormiuntor - sie sollen geschlafen werden dormiundus - "ein zu geschlafen werdender" / einer, der geschlafen werden muss (Gerundiv, wobei das Gerundiv immer passivischen Sinn hat)
... und lauter solcher Stuss! Was soll ich dazu sagen?! - Bei Juppiter, diese Liste wurde wohl maschinell erstellt, ohne dass einer je hinterfragt hat, was solche Formen in Wirklichkeit bedeuten!!!
Man kann damit relativ leicht eine Wortliste mit sämtlichen Beugungsformen erzeugen. Diese Liste enthält ca. 1,5 Millionen Wörter und sieht auf den ersten Blick recht gut aus. Die Analyse der zweibuchstabigen Wörter zeigte allerdings einige Merkwürdigkeiten. Z.B. sind folgende Wörter enthalten:
EC: lt. PONS (http://de.pons.eu/latein-deutsch/?gclid=...CFZYS3wodGBCVLw) ein proklitisches Demonstrativpartikel, d.h. eine Vorsilbe, aber kein eigenständiges Wort, IA: wird von II hergeleitet (als Formen von ii erhält man ia, iis, io, iorum, ium), LE: wird von LEO hergeleitet (LEO ist einerseits als Substantiv und anderseits als Verb (!!!) eingetragen.)
Wenn sich herausstellt, dass das tatsächlich ungültige Wörter sind, ist diese Quelle in meinen Augen unbrauchbar.
Zitat von linhart EC: lt. PONS (http://de.pons.eu/latein-deutsch/?gclid=...CFZYS3wodGBCVLw) ein proklitisches Demonstrativpartikel, d.h. eine Vorsilbe, aber kein eigenständiges Wort, IA: wird von II hergeleitet (als Formen von ii erhält man ia, iis, io, iorum, ium), LE: wird von LEO hergeleitet (LEO ist einerseits als Substantiv und anderseits als Verb (!!!) eingetragen.)
Wenn sich herausstellt, dass das tatsächlich ungültige Wörter sind, ist diese Quelle in meinen Augen unbrauchbar.
zu EC: Stimmt. Ist eine Variante von E, EX, kommt aber ausschließlich bei Komposita als Vorsilbe vor (steht ebenfalls so in Langenscheidts Handwörterbuch Lateinisch-Deutsch), niemals eigenständig, darf in der Wörterliste also nicht als Lemma auftreten.
zu IA: Sämtliche Formen, die du nennst, (außer iis = Dat./Abl.PLur. des Demonstrativpronomens is, ea, id) sind mir auf Anhieb unbekannt. Wenn man wenigstens einen Kontext hätte... Mal schauen, ob ich mithilfe von Perseus etwas herausfinden kann, ob es sich möglicherweise um irgendwelche seltene Nebenformen handelt...
zu LE: Als Verb?! Hierzu schreibt http://latinscrabble.larkvi.com/regulae.php Lewis and Short's dictionary is the official arbiter of whether a word is acceptable, with two caveats: • All forms of leo, lere are inadmissable. This is an incorrect etymology found in Priscan, not an actual word.
---------------
Glaubst du, dass sich solche Fehler wie die genannten, durch das gesamte WB hindurchziehen und es dadurch unbrauchbar machen? Maile mir doch bitte mal die Liste. Ich würde gern Stichproben machen.
Zitat von linhartHier taucht also zum ersten Mal die Frage auf, ob wir auch spät- oder neulateinische Wörter aufnehmen sollen. Ich tendiere zu einem Ja. D.h. ich wäre dafür, alle Wörter, die im großen Langenscheidt-Schulwörterbuch stehen, ebenso wie die aus L/S aufzunehmen.
Wir müssen jetzt offenbar anfangen, Grundsatzentscheidungen zu fällen. Ich werde dafür einen gesonderten Thread einrichten.
Vorab aber schon mal meine Meinung zu dieser Frage:
Spät- und neulateinische Wörter würde ich in unser latin.dic aufnehmen, aber in eine eigene Kategorie verfrachten. Lieber Linhart, wäre der damit verbundene Aufwand für dich vertretbar?
Am besten würde es mir gefallen, wenn in der Standardkategorie nur klassischer Wortschatz wäre: Standard = Klassisches Latein. Ich glaube, das käme auch unseren zukünftigen Usern entgegen, denn ich kann mir durchaus vorstellen, dass man Scrabble3D auch im Lateinunterricht einsetzen könnte, und an den Schulen wird nun mal vorrangig klassisches Latein gelehrt. 3D-Scrabblen auf Latein wäre Formenlehre und Vokabellernen in einem, aber eben mal auf eine ganz andere, spielerische Art...
Auch mittellateinische Wörter (Mittellatein ist das Latein des Mittelalters) könnten wir aufnehmen, aber auch die würde ich dann in eine gesonderte Kategorie packen. Entsprechend würde ich mit dem Humanistenlatein der Frühen Neuzeit verfahren.
Das mit der eigenen Kategorie ist grundsätzlich eine gute Idee, aber schwer zu realisieren. Ich kann ja nicht alle Wörter der Liste einzeln durchgehen. Das mache ich nur bei den 2- und 3-buchstabigen, und da zeigt sich eben, dass die Wordchecker-Listen anscheinend auch spät- und neulateinische Wörter enthalten, und das ist der Hauptgrund, warum ich sie drinnen lassen will. Sie sind aber in der Liste nicht markiert, sodass ein Aussortieren ein nicht vertretbarer Aufwand wäre.
Zitat von linhartHier taucht also zum ersten Mal die Frage auf, ob wir auch spät- oder neulateinische Wörter aufnehmen sollen. Ich tendiere zu einem Ja. D.h. ich wäre dafür, alle Wörter, die im großen Langenscheidt-Schulwörterbuch stehen, ebenso wie die aus L/S aufzunehmen.
Wir müssen eine klare Linie verfolgen. Sollen wir plötzlich auch den Langenscheidt als Referenzwerk benutzen? Davon war doch bisher nie die Rede, sondern nur davon, dass der L&S das offizelle Referenzwerk ist.
Da der L&S 2019 Seiten umfasst, gehe ich allerdings davon aus, dass alles, was im Langenscheidt steht, sowieso auch im L&S steht, aber nicht umgekehrt, d.h. dass der Langenscheidt (im Großen und Ganzen) eine Teilmenge von L&S ist. Mein Langenscheidts Handwörterbuch umfasst nämlich nur 1266 Seiten.
Zitat von linhartDas mit der eigenen Kategorie ist grundsätzlich eine gute Idee, aber schwer zu realisieren. Ich kann ja nicht alle Wörter der Liste einzeln durchgehen. Das mache ich nur bei den 2- und 3-buchstabigen, und da zeigt sich eben, dass die Wordchecker-Listen anscheinend auch spät- und neulateinische Wörter enthalten, und das ist der Hauptgrund, warum ich sie drinnen lassen will. Sie sind aber in der Liste nicht markiert, sodass ein Aussortieren ein nicht vertretbarer Aufwand wäre.
Seufz. Ich verstehe. Immer wieder tun sich solche Hürden auf, die wir nicht überwinden können, es sei denn in jahrzehntelanger, und von daher unzumutbarer Kleinarbeit...
Die weitere Diskussion, die über das Thema der in diesem Thread behandelten zweibuchstabigen Wörter hinausgeht, wird ab jetzt im Nachbarthread Wie wir mit den verschiedenen Listen umgehen... weitergeführt.
Separate Kategorien nur für ein paar 2- bis 3-buchstabige Wörter anzulegen, ist natürlich Nonsens. Ich hatte geglaubt, solche spät- und neulateinischen Wörter ließen sich mithilfe eines Vergleichs der WORDS-Liste LISTALL von Whitaker (inkl. Funktion des perioden-Taggings, siehe unten in Uvius' Mail) und der Diogenes-Listen latin-lemmata.txt bzw. latin-analysis.txt ausfindig machen. Ich erinnere daran, was Uvius mir in einer seiner Mails geschrieben hatte:
Zitat von Uvius in einer seiner Mails an BussinchenDie in Diogenes enhaltenen, letztlich auf das Programm Morpheus aus dem Perseus-Umfeld zurückgehenden belegten Wortformen sind
1. unvollständig (z.B. fehlt laudabamini und viele andere Formen, weil es im Korpus einfach nicht vorkommt),
2. aus verschiedensten Epochen und Stilen zusammengemischt (nur die 100 Jahre um Augustus entsprechen in etwa unserer normativen Schulgrammatik),
3. teilweise fehlerhaft.
Ich würde Ihnen daher als pragmatischen Ansatz empfehlen, eine Untermenge des Lexikons zu verwenden. Verschiedene Wege kommen mir in den Sinn:
- Einschränken auf klassische Lemmata, beispielsweise durch Vergleich mit anderen Wortlisten. Wenn Sie von Whitaker ausgehen, könnten Sie ja das Perioden-Tagging dazu nutzen.
- Verzicht auf belegte (damit ja auch teilweise problematische) Wortformen und Erstellung einer eigenen Wortformenliste. Das ist machbar, der Morpheus-Code beispielsweise ist frei über Perseus verfügbar und bei einiger Einarbeitung auch nutzbar, wie mir die Arbeit eines Kollegen gezeigt hat. Ich selbst bin in dieser Materie noch nicht so weit vorgedrungen, weil mir momentan die Zeit dazu fehlt, tatsächlich bin ich selbst aber aus anderen Gründen (Textkorrektur) an einer solchen Vollformenliste sehr interessiert.
Siehst du da keine Möglichkeit, das irgendwie umzusetzen, Linhart?
Ich dränge dich nicht, ich verlange nichts, ich frage nur mal an, weil ich nicht weiß, was du zu bewerkstelligen imstande bist und was nicht... Es ist ja auch alles so wahnsinnig aufwendig...!
Danke für deine ausführliche Stellungnahme! Ich habe auch schon daran gedacht, die Spellchecker-Liste mit der Whitaker-Liste und/oder den Diogenes-Listen zu vergleichen. Es gibt da aber gewisse Hürden. Um das zu verstehen, muss man zunächst einmal wissen, wie die Spellchecker-Liste aufgebaut ist: Sie besteht aus zwei Teilen. Der erste Teil (la.dic) ist eine Liste der "Grundwörter", wo bei jedem Wort ein oder mehrere Codebuchstaben stehen, die die Beugung angeben. Der zweite Teil (la.aff) enthält dann für jeden Beugungscode die entsprechenden Endungen. Leider sind die "Grundwörter" aber nicht einfach die Lemmata. Es gibt viele Wörter, die nicht ganz regelmäßige Formen haben, und da sind diese Formen alle oder teilweise auch als Grundwörter angeführt. Bei vielen Verben ist z.B. die 1. Person Sing. des Perfekts als Grundwort eingetragen. Es gibt auch viele Substantive, wo der Genitiv als Grundwort aufscheint.
Am ehesten kann ich mir vorstellen, dass ich feststelle, welche Wörter aus la.dic nicht in den Diogenes-Listen stehen. Das sind dann "Grundwörter", die (mit relativ hoher Wahrscheinlichkeit) nicht (in dieser Form) in der Literatur aufscheinen. Wenn das nicht allzu viele sind, kann man sie vielleicht einzeln durchgehen. Die meisten wird man dann streichen können.
Zunächst möchte ich aber die dreibuchstabigen Wort für Wort anschauen.
Ich habe übrigens auch schon bei ca. 650 Verben, wo das Passiv nicht sinnvoll ist, den Code (und die Eintragungen in la.aff) entsprechend geändert.