Ich werde mich mit baba über diesen Passus unterhalten und mal schauen, was sie dazu meint. Sie hat heute Nachmittag leider keine Möglichkeit, etwas zu posten, obwohl wir schon ein bisschen damit angefangen hatten. Habt also bitte noch etwas Geduld.
Ich erlaube mir, schon mal ganz kurz zu referieren, was sie zu mir eben auf Skype gesagt hat:
Manche der von Linhart generierten ház-Formen sind offenbar Formen, die zwar theoretisch denkbar sind, die in der Praxis jedoch nicht (oder kaum) vorkommen. Baba gibt aber zu bedenken, dass sie auch nur ihre subjektiven Eindrücke schildern kann, denn sie weiß ja nicht, welche Formen nicht vielleicht doch vorkommen können, auch wenn sie selbst sie nie gebrauchen würde (veraltete, poetische, literarische, ...) - ich erinnere hier nur an die deutsche Form BÜKEST statt "du würdest backen". Subjektives, intuitives Eliminieren von gewissen Endungen sollte ihrer Meinung nach jedoch nicht Grundlage unserer ungarischen Wörterliste sein. Sie sagt auch, dass es durchaus möglich sein kann, dass Endungen, die bei dem Wort ház in ihren Ohren unmöglich klingen, bei anderen Sübstantiven vielleicht gar nicht mehr so unmöglich klingen.
Baba ist selbst völlig überrumpelt von der unglaublichen Anzahl Wortformen, die es theoretisch geben kann. Sie sagt, dass sie diese Dinge bisher überhaupt noch nie in dieser Art reflektiert hatte. Ja, so ist es in der Tat, nur ein Lexikologe/Sprachwissenschaftler oder ein echter Scrabble-Phantast ist sich solcher Dinge überhaupt bewusst! Ihr gehen regelrecht die Augen über, wenn sie die von Linhart generierte ház-Liste anguckt, und fühlt sich damit überfordert, zu sämtlichen der über 700 agglutinierten Wortformen von ház Kommentare abzugeben, weil man schon nach dem Durchlesen einer relativ geringen Anzahl von agglutinierten Wortformen gar nicht mehr weiß, wo einem der Kopf steht... (Und das gilt sogar für ungarische Köpfe, wer hätte das gedacht! )
Ich habe baba gebeten, wenigstens mal zu einigen der Wortformen der linhartschen ház-Liste stichprobenartige Kommentare abzugeben, auch wenn diese subjektiv sein mögen. Es wäre schon schön, wenn wir wenigstens mal ein paar Anhaltspunkte hätten, welche Formen für sie geläufig und wichtig sind und welche nicht.
Die Ursache für die Explosion an Wortformen bei den Nomen liegt eindeutig an den Possessivsuffixen. Bei den Verben sieht es weitaus besser aus. Da muss man mit ungefähr 80 Verbformen pro Verb rechnen.
Ich frage mich, wie man das Problem beim finnischen Wörterbuch gelöst hat. Da müssten ja wohl doch ähnliche Probleme aufgetaucht sein.
Zitat von debrecenIch frage mich, wie man das Problem beim finnischen Wörterbuch gelöst hat. Da müssten ja wohl doch ähnliche Probleme aufgetaucht sein.
Bei unserem finnischen Wörterbuch suomi.dic ist wahrscheinlich gar nichts gelöst, und ich weiß gar nichts über diese Liste von einem gewissen xyz (Autor).
A Magyar`Értelmezö Késziszótárban található bármely szó felhasználható kivevé azokat, melyeknek csak nagybetü alakja használhatos, a röviditéseket, az elötagokat és utótagokat, valamint az aposztrófot vagy kötöjelet tartalmazó szavakat. Azok az idegen szavak, melyek megtalálhatók egy hagymányos szótárban, szintén felhasználhatóak, mivel ezeket már a magyar nyelv részének tekintjük. A játék megkezdése elött a játékosoknak meg kell egyezniük, hogy milyen szótárt használnak.
Die ungarische ' Értelmezö Késziszótárban Kivevé kann in eines der Worte, die einzige Nagybetü Használhatos, Röviditéseket, Elötagokat und Suffixe, sowie die Wörter mit Apostrophe oder Kötöjelet verwendet werden. Die ausländischen Wörter, die in ein Hagymányos Wörterbuch gefunden werden kann, können auch verwendet werden, da dies bereits Teil der ungarischen Sprache ist. Das Spiel beginnt, die Spieler müssen übereinstimmen, was im Wörterbuch verwendet wird.
---------------------------------------
Ziemlich unverständlich, was Bing da übersetzt hat. Immer dasselbe Dilemma mit den maschinellen Übersetzungen! Allerdings scheint es so zu sein, dass die Ungarn vor Spielstart selber festlegen sollen, welche Wortformen gültig sein sollen - oder ist gemeint, welches Wörterbuch als Grundlage für die Zulässigkeit der gelegten Wörter verwendet werden soll? Kann es sein, dass es in dieser Hinsicht fürs ungarische Scrabble noch überhaupt keine eindeutigen Spielregeln gibt?
Zitat von linhartIch habe jetzt die ersten Programmierversuche zur Erstellung des magyar.dic gemacht und muss sagen, dass das Ergebnis für mich ziemlich entmutigend ist. [...] Das passt auch zu einer Bemerkung in meinem Grammatik-Buch, nach der jedes ungarische Nomen mindestens 756 Formen hat. Ich schätze daher, dass auch bei Beschränkung auf 10 Buchstaben die Wortliste über 10 Millionen Wörter enthalten wird.
Lieber Scotty, lieber Linhart, ich habe eine konkrete Frage an euch.
Ihr beiden, was glaubt ihr denn: • Wäre es denkbar, dass unser Programm Scrabble3D, wenn es denn den Quackle-Suchalgorithmus oder zumindest einen quackleartigen Algorithmus verwenden würde, mit einer Liste von 10 Millionen Wörtern umgehen kann, ohne dass es für den User zu unzumutbaren Wartezeiten bei Zug beenden, Rollstuhlbutton, Spielanalyse, Lokalspiel gegen den Computer kommt? Oder wäre das auch dann weiterhin ein Unding?
Ich glaube nicht, dass die Berechnung viel länger dauert. Aber die Datei selbst ist extrem groß, das Einladen dauert unangenehm lange und dann gibt es vielleicht irgendwann Probleme mit dem Arbeitsspeicher. Ich rate von solch umfangreichen Listen ab.
@Scotty: Ach du glaubst also, dass nicht Zug beenden, Rollstuhlbutton, Spielanalyse und Computerspieler das Problem sind, sondern "nur" das Laden des magyar.dic bei Spielbeginn - egal ob mit derzeitigem Scrabble3D-Algorithmus oder mit Quackle-Algorithmus?
Aber würde das im Klartext heißen, dass agglutinierende Sprachen nichts für unsere Echse sind... Soll sie lieber analytische und isolierende Sprachen lernen...?
Aber wie packt denn OpenOffice das Problem an? OpenOffice kann offensichtlich mit der verschlüsselten hunspell-Liste zur Rechtschreibkontrolle umgehen, ohne dass es zu Problemen mit dem Arbeitsspeicher kommt.
Daher stelle ich meine Frage von vorhin noch einmal leicht abgewandelt, jetzt nur an Scotty:
• Wäre es denkbar, dass unser Programm Scrabble3D, wenn es denn das hunspell-Format lesen könnte, mit einer verschlüsselt-komprimierten hunspell-Liste von 10 Millionen Wörtern umgehen kann, ohne dass es für den User zu unzumutbaren Wartezeiten sowohl beim Laden des magyar.dic als auch bei Zug beenden, Rollstuhlbutton, Spielanalyse, Lokalspiel gegen den Computer kommt? Oder wäre das auch dann weiterhin ein Unding?
Was würde denn die Kombination von hunspell-lesen-Können und Quackle-Algorithmus fürs Programm bedeuten? Könnte unsere Echse dann perfekt Ungarisch schnacken, in jeglicher Hinsicht (Dic laden, Wörter suchen usw.)?
Wenn ja, dann sollte Linhart vielleicht besser aufhören, per Spezialprogramm Listen für ein zukünftiges Zehnmillionen-magyar.dic zu generieren, und wir sollten uns auf Scottys Programmierkünste hinsichtlich hunspell und Quackle verlassen - auch wenn das noch dauern wird, bis Scotty diese beiden Features implementieren wird.
Was meinst du dazu, Linhart? Es scheint alles so aussichtslos zu sein, weil die agglutinierten Formen fast unendlich viele sind...
Ich habe nicht alle - etwa 760 - Möglichkeiten analysiert, nur einen kleinen Teil davon. Meine persönliche Meinung:
theoretisch korrekt: házáé (-ba,-ban,-ból,-ért/aber dann nur mit einem "é" geschrieben,-hoz,), trotzdem nie gehört/verwendet (auch im Net-Lexikon nicht gefunden), genauso wie házáéi (-ba,-ban, etc.)
Danke, dass ihr euch so engagiert an dieser Diskussion beteiligt!
Mir persönlich macht es am meisten Sorgen, dass die hunspell-Listen offensichtlich ziemlich fehlerhaft sind. Eleonora hat gemeint, bei der Rechtschreibprüfung sei das nicht so schlimm. Aber für Scrabble kommt es mir schon schlimm vor, wenn ein nicht zu vernachlässigender Prozentsatz der Wortliste aus ungültigen Wörtern besteht.
Es könnte natürlich sein, dass es sich bei den scheinbar fehlerhaften Wörtern nur um sehr ungewöhnliche Wörter handelt. Ich werde daher versuchen, noch Genaueres über die Fehlerhäufigkeit in der hunspell-Liste herauszubekommen. Ich muss auch nochmals überprüfen, ob ich wirklich die neueste Version dieser Listen habe.
Stimmt, Linhart. All diese Fragen sind wichtig und müssten gelöst werden.
Zitat von ScottyLässt sich Deutsch auf die Schnelle analysieren?
Eben nicht. (Dies ist gleichzeitig eine ausdrückliche Würdigung von Geros unermüdlicher Arbeit am deutsch.dic!) Aber wir können leider keinen Magyar-Gero herzaubern. Wer sollte das bewerkstelligen, eine fehlerhafte Liste mit dem "ungarischen Duden" abzugleichen und sämtliche Endungen durchzuchecken? Da bräuchten wir wohl eine/n ungarische/n Muttersprachler/in.
Aber diese Ambition haben wir im Moment ja gar nicht. Es geht uns darum, Scrabble3D überhaupt erst mal auf Ungarisch spielbar zu machen, wenigstens, dass es so (oder ein bisschen besser) klappt wie im Moment für baba, die zurzeit mit dem Magyartestdic ungarische Testspiele durchführt. Prinzipiell funktioniert das ja heute schon. Aber einen einigermaßen ordentlichen Grundstock fürs Dic brauchen wir schon, denn wenn allzu viele Fehler im magyar.dic drin sind, dann werden die Ungarn nicht begeistert sein und möglicherweise auch das ganze Programm verreißen. Ich erinnere daran, was ich vor langer Zeit einmal auf spanischen Seiten ergoogelt hatte, zu einem Zeitpunkt, als das espanol.dic noch sehr mager war. Da verrissen die Spanier das ganze Programm Scrabble3D, weil sie sich der gesamten Dic-Problematik gar nicht bewusst waren. Und das kann man ihnen noch nicht einmal ankreiden. Woher sollten sie die notwendigen Detailkenntnisse haben...
Und: Ich weiß mir nach wie vor keinen Rat, wie wir mal diese Abermillionen von agglutinierten Formen in den Griff kriegen sollen. Mein Vorschlag wäre, mit baba die Endungen durchzugehen, die die geläufigsten sind, und Linhart zu bitten, wenigstens diese einzupflegen. Aber ich weiß nicht, ob baba da mitzieht. Sie meinte nämlich gestern auf Skype, dass man nicht willkürlich einige seltenere Formen, die grammatisch völlig korrekt sind, einfach weglassen kann. Ich verstehe genau, was sie meint. Das wäre so, wie wenn wir im Deutschen Formen wie den Dativ Singular mit E oder veraltende Konjunktivformen wie "büke" oder "sönnet" einfach weglassen würden. Aber die sind ja gerade das Salz in der Scrabble-Suppe, und gerade an solchen Formen erkennt man doch den routinierten Scrabbler!
Aber ein Zehnmillionendic scheint ein Unding zu sein, solange wir nicht wissen, ob Scrabble3D eines Tages so wie OpenOffice mit derartigen Maxilisten umgehen kann.
Linhärtchen, mach erst mal getrost weiter mit dem, was du vorhattest. Bleibe in Kontakt mit Eleonora, dem Computerfachmann NN und Marie-Luce. Wir werden schon irgendeine Lösung finden. Du wirst schon irgendeine Lösung finden.
Wir dürfen uns nicht entmutigen lassen. Du darfst dich nicht entmutigen lassen.
Wenn wir nur wüssten, was Scotty prinzipiell zu den möglichen Auswirkungen des Hunspell- und Quackle-Modus sagt. Ein Quackle-Modus würde wohl, so wie ich es verstanden habe, die gesamte Computersuche beschleunigen - oder habe ich da etwas falsch verstanden? Es geht ja hier nicht um Taktik, aber wenn der Quackle-Modus schnell arbeitet, obwohl vorausschauend und in taktischer Hinsicht mehrere denkbare zukünftige Züge gleich mit abgecheckt werden, dann dürfte das auch eine generelle Beschleunigung der einfachen Wortsuche bedeuten und für ein ungarisches Zehnmillionendic relevant sein.
Und wie gesagt, wenn OpenOffice die verschlüsselt-komprimierte ungarische Hunspell-Liste lesen kann, warum sollte unser Scrabble3D das dann nicht auch eines Tages können? OpenOffice kann ja offenbar mit der "hunspellmäßig getarnten" Zehnmillionenliste umgehen!
Es ist halt alles noch Zukunftsmusik! Aber ich sage euch: Alles ist machbar! Daher: Kopf hoch und weitermachen! Ich erinnere an unser wunderschönes (spanisches) Digraphenmärchen. Da hieß es anfangs auch, das geht nicht, das sei unmöglich, das sei nicht machbar, das sei ein Unding. Und was haben wir heute?! - Na also!!!
Zur Begriffsklärung: Das, was du "Quackle-Modus" nennst, enthält zwei ganz verschiedene Dinge:
1. Quackle verwendet für die Wortliste eine bestimmte Datenstruktur (GADDAG oder DAWG), die es erlaubt, wesentlich schneller alle möglichen Züge zu einer gegebenen Spielstellung zu ermitteln.
2. Quackle "denkt" zur Berechnung des optimalen Zuges ein paar Züge voraus.
Beide Dinge würden für Scrabble3D sicher einen nennenswerten Programmieraufwand bedeuten, sind aber grundsätzlich unabhängig voneinander. Das "Vorausdenken" würde aber ohne GADDAG wahrscheinlich unerträglich lange dauern.
Zu Eleonora: Ich habe heute früh festgestellt, dass meine Version des hunspell-Dics nicht mit ihrer übereinstimmt. Sie hat mir daraufhin den genauen Link mitgeteilt, wo ich die neueste Version herunterladen konnte. Diese ist etwas kürzer, scheint aber für "ház" dieselben problematischen Wörter zu liefern.
Zur Anzahl der Wortformen: Damit ich nicht immer nur Schätzungen von mir gebe, lasse ich jetzt einmal mein (vorläufiges) Wortformen-Erzeugungsprogramm laufen, um alle Wortformen mit bis zu 8 Buchstaben zu erzeugen. Das wird ca. 2 Stunden dauern, und ich melde mich dann wieder.