Als Ausgangsbasis für unsere Arbeit am zukünftigen latin.dic für Scrabble3D stehen uns verschiedene frei im Internet verfügbare Wörterlisten zur Verfügung.
Diese sind: • LISTALL, die Wörterliste von William Whitakers Programm WORDS (mehr Info)
• Spellchecker-Listen la.dic und la.aff (OpenOffice Spell-Checking Wörterbuch: "Latin Dictionary for Thunderbird" (mehr Info)
• Diogenes-Listen latin-lemmata.txt und latin-analyses.txt (mehr Info)
--------------------------------------------
Als Referenzwörterbuch verwenden wir:
Charlton T. Lewis; Charles Short [1879], A Latin Dictionary
• Charlton T. Lewis; Charles Short [1879], A Latin Dictionary, Online-Fassung (mehr Info)
• Charlton T. Lewis; Charles Short [1879], A Latin Dictionary, Programm (mehr Info)
• Lewis & Short Latin Dictionary.pdf (410,576 KB), Faksimile, (mehr Info)
Zitat von linhart auf Dreibuchstabige lateinische WörterDas mit der eigenen Kategorie ist grundsätzlich eine gute Idee, aber schwer zu realisieren. Ich kann ja nicht alle Wörter der Liste einzeln durchgehen. Das mache ich nur bei den 2- und 3-buchstabigen, und da zeigt sich eben, dass die Wordchecker-Listen anscheinend auch spät- und neulateinische Wörter enthalten, und das ist der Hauptgrund, warum ich sie drinnen lassen will. Sie sind aber in der Liste nicht markiert, sodass ein Aussortieren ein nicht vertretbarer Aufwand wäre.
Seufz. Ich verstehe. Immer wieder tun sich solche Hürden auf, die wir nicht überwinden können, es sei denn in jahrzehntelanger, und von daher unzumutbarer Kleinarbeit...
Separate Kategorien nur für ein paar 2- bis 3-buchstabige Wörter anzulegen, ist natürlich Nonsens.
Ich hatte geglaubt, solche spät- und neulateinischen Wörter ließen sich mithilfe eines Vergleichs der WORDS-Liste LISTALL von Whitaker (inkl. Funktion des perioden-Taggings, siehe unten in Uvius' Mail) und der Diogenes-Listen latin-lemmata.txt bzw. latin-analysis.txt ausfindig machen.
Ich erinnere daran, was Uvius mir in einer seiner Mails geschrieben hatte:
Zitat von Uvius in einer seiner Mails an BussinchenDie in Diogenes enhaltenen, letztlich auf das Programm Morpheus aus dem Perseus-Umfeld zurückgehenden belegten Wortformen sind
1. unvollständig (z.B. fehlt laudabamini und viele andere Formen, weil es im Korpus einfach nicht vorkommt),
2. aus verschiedensten Epochen und Stilen zusammengemischt (nur die 100 Jahre um Augustus entsprechen in etwa unserer normativen Schulgrammatik),
3. teilweise fehlerhaft.
Ich würde Ihnen daher als pragmatischen Ansatz empfehlen, eine Untermenge des Lexikons zu verwenden. Verschiedene Wege kommen mir in den Sinn:
- Einschränken auf klassische Lemmata, beispielsweise durch Vergleich mit anderen Wortlisten. Wenn Sie von Whitaker ausgehen, könnten Sie ja das Perioden-Tagging dazu nutzen.
- Verzicht auf belegte (damit ja auch teilweise problematische) Wortformen und Erstellung einer eigenen Wortformenliste. Das ist machbar, der Morpheus-Code beispielsweise ist frei über Perseus verfügbar und bei einiger Einarbeitung auch nutzbar, wie mir die Arbeit eines Kollegen gezeigt hat. Ich selbst bin in dieser Materie noch nicht so weit vorgedrungen, weil mir momentan die Zeit dazu fehlt, tatsächlich bin ich selbst aber aus anderen Gründen (Textkorrektur) an einer solchen Vollformenliste sehr interessiert.
Siehst du da keine Möglichkeit, das irgendwie umzusetzen, Linhart?
Ich dränge dich nicht, ich verlange nichts, ich frage nur mal an, weil ich nicht weiß, was du zu bewerkstelligen imstande bist und was nicht... Es ist ja auch alles so wahnsinnig aufwendig...!
[...] Ich finde es auch merkwürdig, dass das Wort ANO nicht im L&S steht (Diskussion hierzu siehe Dreibuchstabige lateinische Wörter). Wie dieses Wort dann in die Spellcheckerliste von OpenOffice kommt, ist mir daher schleierhaft. Man müsste dazu wissen, wie diese Spellcheckerliste entstanden ist. Wer weiß, vielleicht basiert die ja auf der Diogenes-Liste, die ihrerseits leider, wie Uvius schon geschrieben hatte, mit Fehlern behaftet ist. Das wäre zumindest ein Ansatz zur Erklärung, warum ANO mit all seinen (vielleicht richtigen, vielleicht auch falschen) Formen in der Diogenes-Liste latin-lemmata.txt steht.
Zitat von Linhart Ich sehe also momentan keine einfache Möglichkeit, automatisch zu prüfen, welche Wörter der Spellchecker-Liste in L&S stehen.
Ich verstehe. Zu dumm aber auch, dass weder die Datei Lewis & Short Latin Dictionary.pdf (410,576 KB) (siehe hierzu mein Posting im Nachbarthread) noch das Programm Lewis & Short ls_latindictionary.exe (siehe auch hierzu mein Posting) eine Kopierfunktion enthalten.
Wenn wir eine Kopierfunktion hätten, wäre uns so viel geholfen...
Dabei ist doch gar kein Copyright mehr auf dem alten, aber dennoch bewährten L&S aus dem Jahre 1891... Ich frage mich, wer heute an dem Werk kommerzielle Interessen hat, die es verbieten, eine Kopierfunktion einzubauen...
Ich habe schon daran gedacht, die Spellchecker-Liste mit der Whitaker-Liste und/oder den Diogenes-Listen zu vergleichen. Es gibt da aber gewisse Hürden. Um das zu verstehen, muss man zunächst einmal wissen, wie die Spellchecker-Liste aufgebaut ist: Sie besteht aus zwei Teilen. Der erste Teil (la.dic) ist eine Liste der "Grundwörter", wo bei jedem Wort ein oder mehrere Codebuchstaben stehen, die die Beugung angeben. Der zweite Teil (la.aff) enthält dann für jeden Beugungscode die entsprechenden Endungen. Leider sind die "Grundwörter" aber nicht einfach die Lemmata. Es gibt viele Wörter, die nicht ganz regelmäßige Formen haben, und da sind diese Formen alle oder teilweise auch als Grundwörter angeführt. Bei vielen Verben ist z.B. die 1. Person Sing. des Perfekts als Grundwort eingetragen. Es gibt auch viele Substantive, wo der Genitiv als Grundwort aufscheint.
Am ehesten kann ich mir vorstellen, dass ich feststelle, welche Wörter aus der Spellchecker-Liste la.dic nicht in den Diogenes-Listen stehen. Das sind dann "Grundwörter", die (mit relativ hoher Wahrscheinlichkeit) nicht (in dieser Form) in der Literatur aufscheinen. Wenn das nicht allzu viele sind, kann man sie vielleicht einzeln durchgehen. Die meisten wird man dann streichen können.
Zunächst möchte ich aber die dreibuchstabigen Wort für Wort anschauen.
Ich habe übrigens auch schon bei ca. 650 Verben, wo das Passiv nicht sinnvoll ist, den Code (und die Eintragungen in la.aff) entsprechend geändert.
Ja, in der Spellchecker-Liste der Beugungsendungen (la.aff) stehen auch alle Endungen ohne V, und zwar unter demselben Code wie die mit V. Ich würde auch meinen, dass es am besten ist, wenn ich die Endungen ohne V herausstreiche und dafür mit einem eigenen Code versehen an anderer Stelle eintrage. Diesen Code schreibe ich dann nur bei den Verben dazu, wo ich in der Diogenes-Liste einen Beleg finde. Das kann aber etwas schwierig werden ... Aber Rom wurde ja auch nicht an einem Tag erbaut.
Zitat von linhartZum Weglassen von V in Perfektformen:
Ja, in der Spellchecker-Liste der Beugungsendungen (la.aff) stehen auch alle Endungen ohne V, und zwar unter demselben Code wie die mit V. Ich würde auch meinen, dass es am besten ist, wenn ich die Endungen ohne V herausstreiche und dafür mit einem eigenen Code versehen an anderer Stelle eintrage. Diesen Code schreibe ich dann nur bei den Verben dazu, wo ich in der Diogenes-Liste einen Beleg finde. Das kann aber etwas schwierig werden ... Aber Rom wurde ja auch nicht an einem Tag erbaut.
Ich verstehe. Die Spellchecker-Liste ist da IMHO etwas voreilig und ungenau. Das sieht mir ganz nach maschineller Erzeugung von Beugungsformen aus. So kann man das nicht machen, dass man grundsätzlich bei sämtlichen Perfektformen das V weglässt und alle diese V-losen Formen pauschal in die Liste einfügt.
Deine Idee, wie du in diesem Fall vorgehen möchtest, um die richtigen (belegten) Formen zu behalten und die falschen (nicht belegten) zu eliminieren, ist sehr gut. Mach mal! ;-)
Ganz toll wäre es, wenn wir durch den Vergleich unserer Listen auf irgendeine Weise alle Gräzismen erfassen und in eine gesonderte Dic-Kategorie verfrachten könnten. Bei bisherigen Testspielen auf Latein hat es mich tatsächlich schon gestört, wie viele griechische Wörter der Computer legt. Da kann kein durchschnittlicher klassischer Lateiner mithalten. Ein Spiel auf Latein sollte meiner Meinung nach doch ein Spiel auf Latein bleiben und nicht in ein in lateinische Buchstaben transliteriertes altgriechisches Spiel ausarten.
Ob dieser Wunsch umzusetzen ist, ist natürlich eine andere Frage.
Sind die aus Fremdsprachen, insbesondere aus dem Griechischen entlehnten Wörter in den Spellchecker-Listen und/oder in den Diogenes-Listen und/oder in der LISTALL-Liste von Whitaker eigentlich auf irgendeine Weise kenntlich gemacht, so wie dies etwa im L&S der Fall ist?
Leider nein. Nicht einmal im heruntergeladenen L&S-Programm sind die Griechisch-Markierungen sichtbar. Ich sehe daher vorläufig keine Möglichkeit zur automatisierten Einrichtung einer entsprechenden Kategorie.
Das habe ich schon befürchtet. Ich verstehe nicht, warum man im L&S-Programm nicht die Kreuze zur Kennzeichnung der Gräzismen aus der Druckversion des L&S übernommen hat. Immer ist irgendwo ein Haken an der Sache. Mir hätte es an sich gut gefallen, eine Kategorie für die Gräzismen/Fremdwörter einzurichten. Aber wenn wir keine Markierungen haben, ist das ein Unding. Schade!
Die Files latin-lemmata und latin-analysis enthalten im Wesentlichen die Informationen, die das Word Study Tool verwendet (mit allen Fehlern und Ungereimtheiten), jedoch nicht den Text der Worterklärungen von L&S.
Für mich sind diese Files trotzdem sehr nützlich. Z.B. gehe ich jetzt bei den vierbuchstabigen Wörtern so vor, dass ich zunächst mit den Spellcheckerlisten alle erzeuge und dann nur diejenigen genauer ansehe, die nicht in den Diogenes-Files stehen. Ich gehe also davon aus, dass die Wörter, welche in beiden Listen vorkommen, in Ordnung sind. Das wird natürlich nicht 100%-ig stimmen, aber die Wahrscheinlichkeit dürfte doch recht hoch sein, weil allem Anschein nach die Spellcheckerlisten unabhängig von den Diogenes-Listen erstellt wurden.
(Nach demselben Prinzip bin ich ja auch bei der Verbesserung der deutschen Wortlisten vorgegangen. Da waren es die weitgehend unabhängig voneinander erstellten Listen von Gero und Jörg.)
Zitat von linhart im Beitrag #9 auf Wie wir mit den verschiedenen Listen umgehen... in Antwort auf meine Frage im Beitrag #8 Wie wir mit den verschiedenen Listen umgehen...Leider nein. Nicht einmal im heruntergeladenen L&S-Programm sind die Griechisch-Markierungen sichtbar. Ich sehe daher vorläufig keine Möglichkeit zur automatisierten Einrichtung einer entsprechenden Kategorie.
Du hast in letzter Zeit aber mehrfach erwähnt, dass du Wörter in verschiedene Kategorien verfrachtest. Hast du also angefangen, das manuell zu machen?
Was für Kategorien legst du im latin.dic genau an Machst du es wohl so -->
Kategorie 1 für Hapax legomena (*) Kategorie 2 für aus dem Griechischen entlehnte Wörter (†) Kategorie 3 für aus anderen Sprachen als dem Griechischen entlehnte Wörter (††) Kategorie 4 für in Inschriften oder bei antiken Grammatikern belegte Wörter (‡)
Ich frage nach, weil mich das doch sehr interessiert...
Ich habe die griechischen Wörter in die Kategorie 1 getan, weil das im Vergleich zu den anderen bei weitem die "gewöhnlichsten" Wörter sind. Inbesondere die Hapax legomena und die Wörter aus den Inschriften und von den Grammatikern sind häufig äußerst ungewöhnlich und/oder problematisch . Das ist zumindest der Eindruck, den ich bis jetzt gewonnen habe.
Ich habe bereits alle Wörter bis zu vier Buchstaben dementsprechend klassifiziert und nun begonnen, das ganze Wörterbuch diesbezüglich durchzugehen. Da bin ich aber erst auf Seite 20 (von ca. 2000). Das wird also noch dauern ...
Wenn du eine andere Numerierung der Kategorien haben willst, kann ich das natürlich leicht machen. Ich würde dir aber vorher empfehlen, die Wörter der verschiedenen Kategorien bei den vierbuchstabigen Wörtern anzusehen.
Entschuldige bitte, Linhart, dass ich das vermasselt habe...
Ich bin auch generell so im Verzug mit allem - vor allem was das Durchsehen der Listen mit den 3- und 4-buchstabigen Wörter und das Anschreiben von Clint Hagen betrifft...
Bussinchen-Adminchen: Ich glaube, ich lege für die Frage der Kategorien im latin.dic am besten einen separaten Thread an, wohin ich dann die entsprechenden Beiträge verschiebe.