Sie sind vermutlich noch nicht im Forum angemeldet - Klicken Sie hier um sich kostenlos anzumelden Impressum 
Sie können sich hier anmelden
Dieses Thema hat 15 Antworten
und wurde 3.191 mal aufgerufen
 De verbis in indicem latin.dic referendis
Seiten 1 | 2
Bussinchen Offline




Beiträge: 90

06.06.2011 16:10
latin.dic Zitat · Antworten


I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble

Bussinchen Offline




Beiträge: 90

06.06.2011 16:44
#2 RE: latin.dic Zitat · Antworten

http://www.sunsite.ubc.ca/LatinDictionar...-dict-full.html

Hier sind knapp 3500 Wörter (nur Lemmata, keine Beugungsformen) mit englischer Übersetzung.
Die txt-Datei ist die (unbereinigte) Kopie der angegebenen Webseite.


I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble

Dateianlage:
www.sunsite.ubc.ca_LatinDictionary_latin-dict-ful_html.txt
Bussinchen Offline




Beiträge: 90

06.06.2011 18:54
#3 RE: latin.dic Zitat · Antworten


I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble

Bussinchen Offline




Beiträge: 90

11.06.2011 17:04
#4 LATIN-ENGLISH DICTIONARY PROGRAM - WORDS (Version 1.97FC) Zitat · Antworten

LATIN-ENGLISH DICTIONARY PROGRAM
WORDS - Version 1.97FC

Download a free Latin-English-Latin dictionary program for your PC or MAC


http://users.erols.com/whitaker/words.htm

______________________________________

LATIN-ENGLISH DICTIONARY WORDLIST (Version 1.97FC)

http://users.erols.com/whitaker/dictpage.htm

______________________________________

WORDS Version 1.97FC
LATIN-ENGLISH DICTIONARY PROGRAM


The documentation is included with download and is also directly accessible as WORDSDOC.HTM on this site:

http://users.erols.com/whitaker/wordsdoc.htm

______________________________________

Sources:

see
http://users.erols.com/whitaker/wordsdoc.htm#Codes in Inflection Line
http://users.erols.com/whitaker/wordsdoc.htm#SOURCE

[...] all classical entries have been verified with the Oxford Latin Dictionary (OLD)
Lewis and Short (S) is next in authority [...]
Souter and Latham are poorly represented
Stelten (Ecc) is more fully represented [...]. [...] it is a complete dictionary, with [...] a number of entries specifically or solely applicable to the Christian Church

______________________________________

In response to several requests, a simple ASCII text list has been created of the two million primary words that the WORDS program and dictionary can form by adding inflections to stems. This list has been reduced to half by eliminating duplicates. The downloadable ZIP of this file is over 2 MB.

http://users.erols.com/whitaker/wordsdoc.htm#Latin Spellchecking - Text Processor List - LISTALL.ZIP

Bussinchens Kommentar:
Leider wird die Webseite http://www/erols/com/whitaker/listall.zip, wo man die besagte Zip-Datei downloaden kann, nicht angezeigt. Möglicherweise wird es darauf hinauslaufen, dass wir William Whitaker per E-mail [url=mailto:whitaker@erols.com">whitaker@erols.com kontaktieren müssen, um an diese lateinische Wörterliste heranzukommen. Ich aber rechne mir aber relativ gute Chancen aus, dass wir die Liste von ihm bekommen können, wenn er wirklich auf unsere E-Mail reagiert (--> siehe ganz unten in diesem Posting unter Lizenz).


Zitat

Currently there are some ommissions.

1) Latin has a widely used enclitic, -que, also -ne and -ve. In principle these could be tacked on to almost any word. If the spell checking system had the capability of recognizing them, that would be the most convenient way of handling this problem. Otherwise, completeness would require their addition to every word, quadrupling the size of the list.

2) Many Latin verb forms are subject to syncope, contracting the form for pronounciation. In WORDS this is handled by a process. For the list another method must be used and the contracted words generated by modifing both stem and ending.

3) There are some common combined words in Latin in which the first part of the word is declined, followed by a fixed form. Unlike the enclitic situation, these forms are limited and should be generated seperately (quidam). Other qu- pronouns are handled seperately in WORDS and need special processing here also.

4) Uniques have not yet been added. This is a trivial matter.

5) There is the problem of prefixes and suffixes. WORDS provides for hundreds of these. It would be impractical to multiply the list by mechanically including all such possibilities. Fortunately, this may not be a significant problem. The philosophy for the dictionary has been to include all words, even those which could be easily generated by a base and fixes, as they occur or are found in sources. This means that the most common compound words are in the system, but that coverage is mostly concentrates on classical Latin.

6) In later times especially, there came some more or less common spelling variations. These are handled in WORDS by TRICKS. They can be relatively expensive, but are only applied to words which otherwise have failed, are these are becoming rarer. This process, if generally applied, would not only expand the list enormously, the added words would not advance the goal of spell checking. They are, in some sense, misspelled words. For a reader, it can be useful to have a guess at the word. He can examine the form and context and judge whether it makes sense. It is not a process to be applied mechanically.

7) There is a divergence in the way editors treat the non-Latin characters J and V. These are the consonant forms of I and U. They are explicit in English, so for convenience, familiarity, and pronounciation general practice in the past has been to use them. More recently, some academic purists have rejected this and eliminated J and V altogether. (Note that the same purists use lower case letters, in spite of the fact that the Romans had only the upper case.) WORDS keeps the variant characters in the dictionary and maps them to a single character in processing. A list could include both expressions, and it would only add a few percent in size. However, that would allow inconsistent spelling choices in a text. This seems to be contrary to the goals of a spell checker. It is probably better eventually to offer two seperate lists so that the user may select the option appropriate for his work.

All the above factors are applied by processes in the WORDS program. Running WORDS looking for UNKNOWNS will give a superior spell check, but the list can be useful in conjunction with common editors. Experience will determine its effectiveness.


______________________________________

Licence:

http://users.erols.com/whitaker/wordsdoc.htm#DEVELOPERS AND REHOSTING

All parts of the WORDS system, source code and data files, are made freely available to anyone who wishes to use them, for whatever purpose.

______________________________________

Feedback:

Feedback is invited. If there is a problem in installing or operating, in the results or their display, or if your favorite word is omitted from the dictionary, please let me know.
All comments are appreciated. Check back for new version releases at

http://www.erols.com/whitaker/words.htm

Contact e-mail

Bussinchen Offline




Beiträge: 90

11.06.2011 18:30
#5 RE: LATIN-ENGLISH DICTIONARY PROGRAM - WORDS (Version 1.97FC) Zitat · Antworten

Bei Juppiter, der Download der Zip-Datei listall funktioniert, wenn man von dieser Seite hier ausgeht:
http://users.erols.com/whitaker/wordsoth.htm
und auf den Link LISTALL klickt!!!


Zitat
LISTALL is a simple zipped listing of all Latin words that can be generated with the dictionary and inflections. It is alphabetical, one copy of each unique form. This file was produced following several requests by people who wanted this to use in conventional spellcheckers.

Bussinchen Offline




Beiträge: 90

11.06.2011 18:50
#6 RE: LATIN-ENGLISH DICTIONARY PROGRAM - WORDS (Version 1.97FC) Zitat · Antworten

Mithilfe der Datei DICTPAGE.RAW, die komprimiert als dictpage.zip auf
http://users.erols.com/whitaker/dictpage.htm
heruntergeladen werden kann, müsste es doch möglich sein, die Wortbedeutungen in die Liste LISTALL einzufügen.

Bei Juppiter, bei Teutates und bei all den anderen eminenten Gottheiten, dann hätten wir ja ganz tolle Tooltips für die gelegten lateinischen Wörter und die Bedeutungen in der Anzeige in der Wortsuche!!!

O Linharte veneratissime, quid dicis?!


I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble

Bussinchen Offline




Beiträge: 90

12.06.2011 00:09
#7 De regulis ludi Scrabularum Zitat · Antworten

Zitat von http://latinscrabble.larkvi.com/regulae.php
Latin Scrabble follows all the same rules as regular (English) Scrabble (no proper nouns, &c.), except as modified by the following rules.

1. Any Latin word may be used in any legitimate morphological form. The fact that a morphological form is not specifically attested does not disqualify it from being used, so long as it is correct and the word is not explicitly defective. The passive voice used for an intransitive verb in the third person singular is grammatically correct, but in no way opens up the use of the passive voice for otherwise normal intransitive verbs. A Latin grammar (e.g. Kennedy) should be used to judge any special forms and to judge the correctness of any form that is in doubt.

2. Lewis and Short's dictionary is the official arbiter of whether a word is acceptable, with two caveats:
◦ All forms of leo, lere are inadmissable. This is an incorrect etymology found in Priscan, not an actual word.
◦ 'Omega' will be admitted, as it is used prominently in the Vulgate, and it is confusing that 'alpha' is acceptable and 'omega' isn't. No other greek letters are allowed, though 'mu' is also a Latin exclamatory, 'beta, ae' is a beet, etc.

3. Medievalisms ((-e for -ae/-oe, h appearance/dissapearance, c for t, etc.) are not allowed, and Classical spelling should be used, except for cases where said medievalism is recognized as a lexeme in Lewis and Short's dictionary.

4. 'i' and 'j' are used interchangeably, as are 'u' and 'v.' In play, there is absolutely no distinction between these letters.

5. No enclitics (-ne, -ve, -que). Words that terminate in -que may be used if they have a separate meaning attested in Lewis and Short for the form terminating -que. Thus, 'quandocumque' is acceptable, whereas 'agricolaeque' is not.

6. Blank tiles may be used for any missing Latin letter, not just those supplied in the tilesets; accordingly, words that employ k, y, or z may be played.


I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble

Bussinchen Offline




Beiträge: 90

12.06.2011 00:12
#8 RE: De regulis ludi Scrabularum Zitat · Antworten

Zitat von http://latinscrabble.larkvi.com/regulae.php
1. Any Latin word may be used in any legitimate morphological form. The fact that a morphological form is not specifically attested does not disqualify it from being used, so long as it is correct and the word is not explicitly defective. The passive voice used for an intransitive verb in the third person singular is grammatically correct, but in no way opens up the use of the passive voice for otherwise normal intransitive verbs. A Latin grammar (e.g. Kennedy) should be used to judge any special forms and to judge the correctness of any form that is in doubt.


Und schon geht's los mit den Problemen:

In der LISTALL-Liste von William Whitaker, die ich Linhart geschickt habe und die eigentlich als Ausgangspunkt für unser zukünftiges latin.dic dienen könnte, stehen - wie ich eben bei einer Stichprobe gesehen habe - z.B. bei dem intransitiven Verb dormire jedoch alle Passivformen, siehe Anhang. Diese Formen würden dann theoretisch bedeuten: ich werde geschlafen, du würdest geschlafen werden, ihr wart geschlafen worden, usw. (Vergleiche im Deutschen die Unzulässigkeit von Formen wie geschlafener, geschlafenen, geschlafenem usw.)

Laut dem lateinischen Scrabble Word Checker sind diese Formen aber teils zulässig, teils nicht, zum Beispiel:

dormimur - wir werden geschlafen
dormiar - ich möge geschlafen werden
dormibimini - ihr werdet geschlafen werden (übrigens handelt es sich hier um eine falsche Futurumbildung mit -bi-, die jedoch in William Whitakers Liste steht)
dormiebaris - du wurdest geschlafen
dormiuntor - sie sollen geschlafen werden
dormiundus - "ein zu geschlafen werdender" / einer, der geschlafen werden muss (Gerundiv, wobei das Gerundiv immer passivischen Sinn hat)

... und lauter solcher Stuss! Was soll ich dazu sagen?! - Bei Juppiter, diese Liste wurde wohl maschinell erstellt, ohne dass einer je hinterfragt hat, was solche Formen in Wirklichkeit bedeuten!!!


Auch hier http://www.sprachenstudio.net/l/latein/ werden die Passivformen des intransitiven Verbs dormire angegeben!


I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble

linhart Offline




Beiträge: 2.493

27.06.2011 09:44
#9 Spell-Checking "Latin Dictionary for Thunderbird" Zitat · Antworten

Ich habe jetzt das folgende Spell-Checking Wörterbuch etwas genauer angesehen:
"Latin Dictionary for Thunderbird"
http://wiki.services.openoffice.org/wiki...28x-register.29

Man kann damit relativ leicht eine Wortliste mit sämtlichen Beugungsformen erzeugen. Diese Liste enthält ca. 1,5 Millionen Wörter und sieht auf den ersten Blick recht gut aus. Die Analyse der zweibuchstabigen Wörter zeigte allerdings einige Merkwürdigkeiten.
Z.B. sind folgende Wörter enthalten:

EC: lt. PONS (http://de.pons.eu/latein-deutsch/?gclid=...CFZYS3wodGBCVLw) ein proklitisches Demonstrativpartikel, d.h. eine Vorsilbe, aber kein eigenständiges Wort,
IA: wird von II hergeleitet (als Formen von ii erhält man ia, iis, io, iorum, ium),
LE: wird von LEO hergeleitet (LEO ist einerseits als Substantiv und anderseits als Verb (!!!) eingetragen.)

Wenn sich herausstellt, dass das tatsächlich ungültige Wörter sind, ist diese Quelle in meinen Augen unbrauchbar.

Bussinchen Offline




Beiträge: 90

27.06.2011 12:49
#10 Spell-Checking "Latin Dictionary for Thunderbird" Zitat · Antworten

Zitat von linhart

EC: lt. PONS (http://de.pons.eu/latein-deutsch/?gclid=...CFZYS3wodGBCVLw) ein proklitisches Demonstrativpartikel, d.h. eine Vorsilbe, aber kein eigenständiges Wort,
IA: wird von II hergeleitet (als Formen von ii erhält man ia, iis, io, iorum, ium),
LE: wird von LEO hergeleitet (LEO ist einerseits als Substantiv und anderseits als Verb (!!!) eingetragen.)

Wenn sich herausstellt, dass das tatsächlich ungültige Wörter sind, ist diese Quelle in meinen Augen unbrauchbar.



zu EC: Stimmt. Ist eine Variante von E, EX, kommt aber ausschließlich bei Komposita als Vorsilbe vor (steht ebenfalls so in Langenscheidts Handwörterbuch Lateinisch-Deutsch), niemals eigenständig, darf in der Wörterliste also nicht als Lemma auftreten.

zu IA: Sämtliche Formen, die du nennst, (außer iis = Dat./Abl.PLur. des Demonstrativpronomens is, ea, id) sind mir auf Anhieb unbekannt. Wenn man wenigstens einen Kontext hätte... Mal schauen, ob ich mithilfe von Perseus etwas herausfinden kann, ob es sich möglicherweise um irgendwelche seltene Nebenformen handelt...

zu LE: Als Verb?! Hierzu schreibt http://latinscrabble.larkvi.com/regulae.php
Lewis and Short's dictionary is the official arbiter of whether a word is acceptable, with two caveats:
• All forms of leo, lere are inadmissable. This is an incorrect etymology found in Priscan, not an actual word.

---------------

Glaubst du, dass sich solche Fehler wie die genannten, durch das gesamte WB hindurchziehen und es dadurch unbrauchbar machen?
Maile mir doch bitte mal die Liste. Ich würde gern Stichproben machen.


I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble

Bussinchen Offline




Beiträge: 90

21.07.2011 20:28
#11 Dic-Kategorien einrichten Zitat · Antworten

Zitat von linhart
Hier taucht also zum ersten Mal die Frage auf, ob wir auch spät- oder neulateinische Wörter aufnehmen sollen. Ich tendiere zu einem Ja. D.h. ich wäre dafür, alle Wörter, die im großen Langenscheidt-Schulwörterbuch stehen, ebenso wie die aus L/S aufzunehmen.



Wir müssen jetzt offenbar anfangen, Grundsatzentscheidungen zu fällen.
Ich werde dafür einen gesonderten Thread einrichten.

Vorab aber schon mal meine Meinung zu dieser Frage:

Spät- und neulateinische Wörter würde ich in unser latin.dic aufnehmen, aber in eine eigene Kategorie verfrachten. Lieber Linhart, wäre der damit verbundene Aufwand für dich vertretbar?

Am besten würde es mir gefallen, wenn in der Standardkategorie nur klassischer Wortschatz wäre: Standard = Klassisches Latein.
Ich glaube, das käme auch unseren zukünftigen Usern entgegen, denn ich kann mir durchaus vorstellen, dass man Scrabble3D auch im Lateinunterricht einsetzen könnte, und an den Schulen wird nun mal vorrangig klassisches Latein gelehrt. 3D-Scrabblen auf Latein wäre Formenlehre und Vokabellernen in einem, aber eben mal auf eine ganz andere, spielerische Art...

Auch mittellateinische Wörter (Mittellatein ist das Latein des Mittelalters) könnten wir aufnehmen, aber auch die würde ich dann in eine gesonderte Kategorie packen. Entsprechend würde ich mit dem Humanistenlatein der Frühen Neuzeit verfahren.


I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble

linhart Offline




Beiträge: 2.493

21.07.2011 22:18
#12 RE: Dic-Kategorien einrichten Zitat · Antworten

Das mit der eigenen Kategorie ist grundsätzlich eine gute Idee, aber schwer zu realisieren. Ich kann ja nicht alle Wörter der Liste einzeln durchgehen. Das mache ich nur bei den 2- und 3-buchstabigen, und da zeigt sich eben, dass die Wordchecker-Listen anscheinend auch spät- und neulateinische Wörter enthalten, und das ist der Hauptgrund, warum ich sie drinnen lassen will. Sie sind aber in der Liste nicht markiert, sodass ein Aussortieren ein nicht vertretbarer Aufwand wäre.

Bussinchen Offline




Beiträge: 90

22.07.2011 01:36
#13 Spät- oder neulateinische Wörter Zitat · Antworten

Zitat von linhart
Hier taucht also zum ersten Mal die Frage auf, ob wir auch spät- oder neulateinische Wörter aufnehmen sollen. Ich tendiere zu einem Ja. D.h. ich wäre dafür, alle Wörter, die im großen Langenscheidt-Schulwörterbuch stehen, ebenso wie die aus L/S aufzunehmen.



Wir müssen eine klare Linie verfolgen. Sollen wir plötzlich auch den Langenscheidt als Referenzwerk benutzen? Davon war doch bisher nie die Rede, sondern nur davon, dass der L&S das offizelle Referenzwerk ist.

Da der L&S 2019 Seiten umfasst, gehe ich allerdings davon aus, dass alles, was im Langenscheidt steht, sowieso auch im L&S steht, aber nicht umgekehrt, d.h. dass der Langenscheidt (im Großen und Ganzen) eine Teilmenge von L&S ist. Mein Langenscheidts Handwörterbuch umfasst nämlich nur 1266 Seiten.


I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble

Bussinchen Offline




Beiträge: 90

22.07.2011 14:42
#14 RE: Dic-Kategorien einrichten für spät- und neulateinische Wörter Zitat · Antworten

Zitat von linhart
Das mit der eigenen Kategorie ist grundsätzlich eine gute Idee, aber schwer zu realisieren. Ich kann ja nicht alle Wörter der Liste einzeln durchgehen. Das mache ich nur bei den 2- und 3-buchstabigen, und da zeigt sich eben, dass die Wordchecker-Listen anscheinend auch spät- und neulateinische Wörter enthalten, und das ist der Hauptgrund, warum ich sie drinnen lassen will. Sie sind aber in der Liste nicht markiert, sodass ein Aussortieren ein nicht vertretbarer Aufwand wäre.


Seufz. Ich verstehe. Immer wieder tun sich solche Hürden auf, die wir nicht überwinden können, es sei denn in jahrzehntelanger, und von daher unzumutbarer Kleinarbeit...

Die weitere Diskussion, die über das Thema der in diesem Thread behandelten zweibuchstabigen Wörter hinausgeht, wird ab jetzt im Nachbarthread Wie wir mit den verschiedenen Listen umgehen... weitergeführt.

Separate Kategorien nur für ein paar 2- bis 3-buchstabige Wörter anzulegen, ist natürlich Nonsens. Ich hatte geglaubt, solche spät- und neulateinischen Wörter ließen sich mithilfe eines Vergleichs der WORDS-Liste LISTALL von Whitaker (inkl. Funktion des perioden-Taggings, siehe unten in Uvius' Mail) und der Diogenes-Listen latin-lemmata.txt bzw. latin-analysis.txt ausfindig machen. Ich erinnere daran, was Uvius mir in einer seiner Mails geschrieben hatte:

Zitat von Uvius in einer seiner Mails an Bussinchen
Die in Diogenes enhaltenen, letztlich auf das Programm Morpheus aus dem
Perseus-Umfeld zurückgehenden belegten Wortformen sind

1. unvollständig (z.B. fehlt laudabamini und viele andere Formen, weil
es im Korpus einfach nicht vorkommt),

2. aus verschiedensten Epochen und Stilen zusammengemischt (nur die 100
Jahre um Augustus entsprechen in etwa unserer normativen Schulgrammatik),

3. teilweise fehlerhaft.

Ich würde Ihnen daher als pragmatischen Ansatz empfehlen, eine
Untermenge des Lexikons zu verwenden. Verschiedene Wege kommen mir in
den Sinn:

- Einschränken auf klassische Lemmata, beispielsweise durch Vergleich
mit anderen Wortlisten. Wenn Sie von Whitaker ausgehen, könnten Sie ja
das Perioden-Tagging dazu nutzen.

- Verzicht auf belegte (damit ja auch teilweise problematische)
Wortformen und Erstellung einer eigenen Wortformenliste. Das ist
machbar, der Morpheus-Code beispielsweise ist frei über Perseus
verfügbar und bei einiger Einarbeitung auch nutzbar, wie mir die Arbeit
eines Kollegen gezeigt hat. Ich selbst bin in dieser Materie noch nicht
so weit vorgedrungen, weil mir momentan die Zeit dazu fehlt, tatsächlich
bin ich selbst aber aus anderen Gründen (Textkorrektur) an einer solchen
Vollformenliste sehr interessiert.


Siehst du da keine Möglichkeit, das irgendwie umzusetzen, Linhart?

Ich dränge dich nicht, ich verlange nichts, ich frage nur mal an, weil ich nicht weiß, was du zu bewerkstelligen imstande bist und was nicht...
Es ist ja auch alles so wahnsinnig aufwendig...!


I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble

linhart Offline




Beiträge: 2.493

22.07.2011 15:59
#15 RE: ANA (anare) --> Vergleich der Spellchecker-Liste mit der Whitaker-Liste und/oder den Diogenes-Listen Zitat · Antworten

/kopiert nach Wie wir mit den verschiedenen Listen umgehen..., wo diese Diskussion, die die Arbeit mit den verschiedenen Listen betrifft, weitergeführt wird

Danke für deine ausführliche Stellungnahme! Ich habe auch schon daran gedacht, die Spellchecker-Liste mit der Whitaker-Liste und/oder den Diogenes-Listen zu vergleichen. Es gibt da aber gewisse Hürden. Um das zu verstehen, muss man zunächst einmal wissen, wie die Spellchecker-Liste aufgebaut ist: Sie besteht aus zwei Teilen. Der erste Teil (la.dic) ist eine Liste der "Grundwörter", wo bei jedem Wort ein oder mehrere Codebuchstaben stehen, die die Beugung angeben. Der zweite Teil (la.aff) enthält dann für jeden Beugungscode die entsprechenden Endungen. Leider sind die "Grundwörter" aber nicht einfach die Lemmata. Es gibt viele Wörter, die nicht ganz regelmäßige Formen haben, und da sind diese Formen alle oder teilweise auch als Grundwörter angeführt. Bei vielen Verben ist z.B. die 1. Person Sing. des Perfekts als Grundwort eingetragen. Es gibt auch viele Substantive, wo der Genitiv als Grundwort aufscheint.

Am ehesten kann ich mir vorstellen, dass ich feststelle, welche Wörter aus la.dic nicht in den Diogenes-Listen stehen. Das sind dann "Grundwörter", die (mit relativ hoher Wahrscheinlichkeit) nicht (in dieser Form) in der Literatur aufscheinen. Wenn das nicht allzu viele sind, kann man sie vielleicht einzeln durchgehen. Die meisten wird man dann streichen können.

Zunächst möchte ich aber die dreibuchstabigen Wort für Wort anschauen.

Ich habe übrigens auch schon bei ca. 650 Verben, wo das Passiv nicht sinnvoll ist, den Code (und die Eintragungen in la.aff) entsprechend geändert.

Seiten 1 | 2
 Sprung  
Xobor Forum Software von Xobor.de
Einfach ein Forum erstellen
Datenschutz