Gestern habe ich im Internet eine Konkurrenzseite zum Hungarian National Corpus gefunden, das "Hungarian Webcorpus": http://mokk.bme.hu/resources/webcorpus/
Dieses Corpus beruht auf einer Datenbank von insgesamt ca. 1,5 Milliarden Wörtern und enthält ca. 13 Millionen verschiedene Wörter, nach Häufigkeit geordnet (d.h. mehr als der National Corpus!). Es hat vor allem den Vorteil, dass man die gesamte Wortliste herunterladen kann. Das habe ich getan, und sie dann mit meiner Liste der bis zu 8-buchstabigen Wörter verglichen, und zwar zunächst einmal ohne Prä- und Suffixe. Dabei hat sich herausgestellt, dass ca. 2/3 der Wörter meiner Liste nicht unter der ersten Million der Wörter aus dem Corpus aufscheinen, und viele sogar überhaupt nicht. Eine zufällige Stichprobe von zehn solchen Wörtern hat folgendes ergeben:
Nicht unter der ersten Million (nicht einmal unter den ersten drei Millionen): nyakkötél, őskiadás, skófium, sörbuli
Überhaupt nicht im Corpus: chitzi, hóáradat, lufimell, nyugatima, télhavi, véragyak
Ich überlege daher, die Wörter aus meiner Liste zu streichen, die nicht unter der ersten Million vorkommen, oder eventuell den ersten drei Millionen. (Die Wörter, welche nicht unter der ersten Million vorkommen, haben eine Häufigkeit von 41 oder weniger, d.h. unter den 1,5 Milliarden Wörtern kommen sie höchstens 41-mal vor. Bei den ersten drei Millionen Wörtern ist 41 durch 8 zu ersetzen.)
Was meint ihr dazu? Insbesondere würde mich interessieren, welche der oben angeführten Wörter ihr als gültig ansehen würdet.
Wow! Was für eine Arbeit, Linhart! Grandios! Also, die 10 Beispiele kannst Du vergessen. Sie sind zwar vorstellbar, aber nur als mehr oder weniger dichterische Zusammensetzungen anzusehen. Bierparty, Schneestrom, Halsseil, wintermonatlich etc... Ich glaube, es wäre ein weiser Entschluss, unter der ersten Million zu bleiben!
Ich hab überhaupt keine Ahnung von der ungarischen Sprache. Angesichts der von euch geschilderten Problematik erscheint aber auch mir als Laie der statistische Weg bezüglich der Frequenz als die einzig gangbare Möglichkeit, den ausufernden Komposita Paroli zu bieten.
Download: Geros Superdic, was sonst! | Discussion: Forum | News: Twitter | ... und im übrigen bin ich der Meinung, dass Wordfinder beim online-Spiel pfui sind!
...nur ein paar einfache Punkte eines Scrabblers mit schwachem Verstand:
1) ich entnehme euren Diskussionen, dass es kein offizielles ungarisches Grundlexikon a la Duden gibt 2) es existiert in Ungarn auch keine Vorschrift, was beim Scrabbeln erlaubt ist
3) wie könnt ihr euch dann anmaßen, den Ungarn vorzuschreiben, wie sie scrabblen dürfen?
IMHO: Ohne Einbeziehung ungarischer Scrabble Vereine (falls es die überhaupt gibt) macht dieses gigantische Unterfangen für mich überhaupt keinen Sinn.
Zitat von grangrau3) wie könnt ihr euch dann anmaßen, den Ungarn vorzuschreiben, wie sie scrabblen dürfen?
IMHO: Ohne Einbeziehung ungarischer Scrabble Vereine (falls es die überhaupt gibt) macht dieses gigantische Unterfangen für mich überhaupt keinen Sinn.
zu Punkt 3:
Es geht doch nicht darum, den Ungarn irgendwelche Vorschriften zu machen, sondern darum, den Umfang des Zehnmillionendics auf ein erträgliches Maß zu reduzieren, sodass Scottys Programm damit umgehen kann.
Damit umgehen können bedeutet im Klartext: • bei Spielstart das magyar.dic innerhalb einer vertretbaren Wartezeit laden, • beim Bestätigen des Zuges durch Klick auf den Zwei-Männchen-Button innerhalb einer erträglichen Zeitspanne erfahren, ob der Computer das Wort akzeptiert oder nicht, • eine Spielanalyse durchführen können, ohne dass der Computer eine ganze Woche oder sonst wie lang herumrechnet - Gleiches gilt für den Rollstuhlbutton, • ein in zeitlicher Hinsicht einigermaßen akzeptables Lokalspiel gegen den Computer machen können...
Es geht uns also um nichts anderes als Scrabble3D auf Ungarisch spielbar zu machen, sonst nichts. Und da müssen eben gewisse Beschlüsse gefasst werden, die den Umfang des magyar.dic reduzieren, da ein Zehnmillionendic oder gar ein Dreizehnmilliardendic für unsere arme Scrabble3D.Echse unverdaulich ist... Wie soll die Arme solche gigantischen Happen schlucken...
zu Punkt IMHO:
Es scheint in Ungarn eben noch gar kein organisiertes Scrabblen zu geben. Oder was weißt du dazu, Marilu? Wir haben nichts über die Existenz eines nationalen ungarischen Scrabble-Verbands gefunden, auch nichts über Scrabble-Vereine in irgendwelchen Städten. Ich erinnere bloß daran, dass die italienische FIGS auch erst seit nunmehr vielleicht 4 Jahren existiert, und es war Diego de Landro alias diodeldragone, der die Initiative ergriffen hatte, diesen nationalen italienischen Scrabble-Verband zu gründen. Vielleicht ergibt sich durch unsere Arbeit hier am magyar.dic für Scrabble3D ja etwas, was dazu führt, dass in Ungarn der Stein ins Rollen kommt... Ich sage ja, wir leisten hier offenbar Pionierarbeit, und insofern macht dieses ganze Unterfangen IMHO sogar sehr großen Sinn!
1) Es gibt ein ungarisches "Grundlexikon", wie du es nennst. Es wurde schon öfter genannt: Magyar Értelmezö Kéziszótár. Es könnte aber sein, dass es keine elektronische Version davon gibt, zumindest keine darauf basierende elektronische Wortliste.
[EDIT]Bussinchen: Doch, es gibt sie, siehe den nachträglich von mir eingefügten Link und mein Posting #4 Magyar Értelmezö Késziszótár im von mir neu angelegten Nachbarthread.
2) In den ungarischen Scrabble-Regeln wird auf dieses Wörterbuch Bezug genommen.
3) Wir wollen überhaupt niemandem vorschreiben, was er scrabblen darf. Es geht nur darum, eine für das Spiel mit Scrabble3D brauchbare Wortliste zu erstellen, die einigermaßen dem entspricht, was sich die ungarischen Scrabbler wünschen. Man kann bei Scrabble3D natürlich auch andere Worte legen, nur wird man dann zuerst vom Computer gefragt, ob man das wirklich will. Wenn man gegen den Computer spielt, dann verwendet er natürlich nur Worte aus der Wortliste.
Pardon, jetzt hat sich mein Beitrag mit dem von Bussinchen überkreuzt!
Ich habe jetzt einmal stichprobenartig eine Reihe von Wörtern aus meinem Langenscheidt Sprachführer bezüglich ihrer Stellung in meiner Liste und in dem Webcorpus untersucht. Da der Sprachführer größtenteils allgemein gebräuchliche Wörter enthält, stehen die meisten natürlich sowohl in meiner Liste als auch in der ersten Million des Webcorpus. Aber ein Wort habe ich doch gefunden, das erst in der zweiten Million vorkommt: hátirat = Indossament (vielleicht weiß Gero, was das ist). Ich denke, das ist ein ganz typisches Beispiel. Das Wort ist zwar sehr speziell und eher fachsprachlich, sollte aber doch legbar sein. Ich habe daher vor, die Grenze bei 3 Millionen zu ziehen.
Zum Webcorpus muss ich noch etwas sagen: Dieser enthält natürlich viele Eigennamen (d.h. mit großem Anfangsbuchstaben) und Wörter mit Sonderzeichen, Ziffern und dergleichen. Wenn man diese eliminiert, bleiben von den 3 Millionen nur mehr 1,7 Millionen übrig.
Ich werde also versuchen, auf dieser Basis eine Liste bis zu 10 Buchstaben zu erstellen. Die Liste wird voraussichtlich trotzdem etwa drei Millionen Wörter enthalten, aber vielleicht ist das doch schon tragbar.
Das ist kein gigantisches Unterfangen, aber ich brauche wahrscheinlich doch ein, zwei Tage dazu.
Gero hat Schulden. 1.000.- € bei Linhart. Gero gibt Linhart einen Wechsel, zahlbar in 90 Tagen gegen Vorlage und gibt den Wechsel dem Linhart.
Linhart nimmt den Wechsel und stellt daheim beim Blick in den Briefkasten fest, dass er seinerseits bei Scotty mit 1.000.- in der Kreide steht. Der hat ihn nämlich angemahnt. Ui!
Linhart gibt dem Scotty den Gero-Wechsel und unterschreibt ihn auf der Rückseite eigenhändig. Diese Unterschrift nennt man ein Indossament, zu deutsch Übertragungsvermerk. Ob der Scotty den Wechsel nun annimmt bzw. mit dem Wechsel glücklich wird, ist eine andere Frage. Annehmen wird er ihn wohl doch, weil er durch die Annahme bei Linhart Regress nehmen kann, wenn der Gero am Fälligkeitstag nicht zahlen kann. Jeder, der auf einem Wechsel unterschreibt, haftet. Nennt sich Wechselstrenge.
Download: Geros Superdic, was sonst! | Discussion: Forum | News: Twitter | ... und im übrigen bin ich der Meinung, dass Wordfinder beim online-Spiel pfui sind!
Danke Gero für diese brillante Erklärung! Da sieht man, wie einfach die ungarische Sprache ist! Hát= Rücken, Rückseite und irat= Schrift, Unterschrift, hátirat= Indossament. Was Scrabble-Vereine anbelangt: ich kenne auch keinen, habe nie von einem gehört und auch bei google.hu nichts dergleichen gefunden. Wir leisten tatsächlich Pionierarbeit!
in deinem Beitrag #1 sprachst du von 13 Millionen Lemmata, und nun sprichst du in deinem Beitrag #8 davon, dass von 3 Millionen nur 1,7 Millionen übrig bleiben, wenn du die Eigennamen und sonstigen von Vornherein nicht Scrabble-fähigen Wörter herauslöschst. Wie viele Lemmata sind es denn nun? 3 oder 13 Millionen?
Zitat von linhartIch werde also versuchen, auf dieser Basis eine Liste bis zu 10 Buchstaben zu erstellen. Die Liste wird voraussichtlich trotzdem etwa drei Millionen Wörter enthalten, aber vielleicht ist das doch schon tragbar. Das ist kein gigantisches Unterfangen, aber ich brauche wahrscheinlich doch ein, zwei Tage dazu.
Möchtest du nicht lieber warten, bis du die CD-ROM des Magyar Értelmezö Kéziszótár hast?
Im Folgenden sind alle Zahlenangaben grob gerundet:
Der Webkorpus enthält insgesamt 13 Millionen verschiedene Wörter (inklusive Beugungsformen). Wenn man die weglässt, die höchstens 8-mal vorkommen, bleiben 3 Millionen übrig. Wenn ich von denen alle weglasse, die Großbuchstaben, Ziffern, Bindestriche oder andere Sonderzeichen enthalten, bleiben nur mehr 1,7 Millionen.
Auf der anderen Seite habe ich die hungspell-Liste. Diese enthält 155.000 Wörter mit bis zu 10 Buchstaben (ohne Beugungsformen). Wenn ich davon nur diejenigen nehme, die unter den ersten 3 Millionen des Webkorpus vorkommen, bleiben nur 63.000. Das passt ziemlich gut zu den 75.000 Stichwörtern des Magyar értelmező kéziszótár. Wenn es gelingt, diese Stichwörter aus der CD zu extrahieren, dann ersetze ich einfach meine 63.000 Wörter durch die bis zu 10-buchstabigen Wörter des kéziszótár und lasse mein Programm nochmals laufen.
Ich habe jedenfalls gestern abend mein Programm schon laufen lassen und es hat eine relativ schöne Wortliste produziert. Das Dumme daran ist bloß, dass diese Wortliste über 7 Millionen Wörter enthält (mit bis zu 10 Buchstaben), und nicht nur 3 Millionen, wie ich geschätzt habe. Da sind sicher auch unrichtige oder sehr ungebräuchliche Wort-Affix-Kombinationen dabei, aber ich weiß momentan nicht, wie ich die herausfinden soll. Das ist jetzt die große Herausforderung.