Berichterstattung über die laufende Arbeit am zukünftigen magyar.dic

Sie können sich hier anmelden

Dieses Thema hat 39 Antworten
und wurde 1.888 mal aufgerufen

Hungarian

Seiten 1 | 2 | 3

#1 RE: Die ungarischen Buchstaben mit Akzent

Zitat · Antworten

Gestern habe ich im Internet eine Konkurrenzseite zum Hungarian National Corpus gefunden, das "Hungarian Webcorpus":
http://mokk.bme.hu/resources/webcorpus/

Dieses Corpus beruht auf einer Datenbank von insgesamt ca. 1,5 Milliarden Wörtern und enthält ca. 13 Millionen verschiedene Wörter, nach Häufigkeit geordnet (d.h. mehr als der National Corpus!). Es hat vor allem den Vorteil, dass man die gesamte Wortliste herunterladen kann. Das habe ich getan, und sie dann mit meiner Liste der bis zu 8-buchstabigen Wörter verglichen, und zwar zunächst einmal ohne Prä- und Suffixe. Dabei hat sich herausgestellt, dass ca. 2/3 der Wörter meiner Liste nicht unter der ersten Million der Wörter aus dem Corpus aufscheinen, und viele sogar überhaupt nicht. Eine zufällige Stichprobe von zehn solchen Wörtern hat folgendes ergeben:

Nicht unter der ersten Million (nicht einmal unter den ersten drei Millionen):
nyakkötél, őskiadás, skófium, sörbuli

Überhaupt nicht im Corpus:
chitzi, hóáradat, lufimell, nyugatima, télhavi, véragyak

Ich überlege daher, die Wörter aus meiner Liste zu streichen, die nicht unter der ersten Million vorkommen, oder eventuell den ersten drei Millionen.
(Die Wörter, welche nicht unter der ersten Million vorkommen, haben eine Häufigkeit von 41 oder weniger, d.h. unter den 1,5 Milliarden Wörtern kommen sie höchstens 41-mal vor. Bei den ersten drei Millionen Wörtern ist 41 durch 8 zu ersetzen.)

Was meint ihr dazu?
Insbesondere würde mich interessieren, welche der oben angeführten Wörter ihr als gültig ansehen würdet.

Marilu ( Gast )

Beiträge:

19.05.2011 09:06

#2 RE: Die ungarischen Buchstaben mit Akzent

Zitat · Antworten

Wow! Was für eine Arbeit, Linhart! Grandios!
Also, die 10 Beispiele kannst Du vergessen. Sie sind zwar vorstellbar, aber nur als mehr oder weniger dichterische Zusammensetzungen anzusehen. Bierparty, Schneestrom, Halsseil, wintermonatlich etc... Ich glaube, es wäre ein weiser Entschluss, unter der ersten Million zu bleiben!

#3 RE: Die ungarischen Buchstaben mit Akzent

Zitat · Antworten

Ich hab überhaupt keine Ahnung von der ungarischen Sprache. Angesichts der von euch geschilderten Problematik erscheint aber auch mir als Laie der statistische Weg bezüglich der Frequenz als die einzig gangbare Möglichkeit, den ausufernden Komposita Paroli zu bieten.

Download: Geros Superdic, was sonst! | Discussion: Forum | News: Twitter | ... und im übrigen bin ich der Meinung, dass Wordfinder beim online-Spiel pfui sind!

#4 RE: Die ungarischen Buchstaben mit Akzent

Zitat · Antworten

...nur ein paar einfache Punkte eines Scrabblers mit schwachem Verstand:

1) ich entnehme euren Diskussionen, dass es kein offizielles ungarisches Grundlexikon a la Duden gibt
2) es existiert in Ungarn auch keine Vorschrift, was beim Scrabbeln erlaubt ist

3) wie könnt ihr euch dann anmaßen, den Ungarn vorzuschreiben, wie sie scrabblen dürfen?

IMHO: Ohne Einbeziehung ungarischer Scrabble Vereine (falls es die überhaupt gibt) macht dieses gigantische Unterfangen für mich überhaupt keinen Sinn.

Bussinchen

Offline

Beiträge:

19.05.2011 10:31

#5 RE: Die ungarischen Buchstaben mit Akzent

Zitat · Antworten

Zitat von grangrau
3) wie könnt ihr euch dann anmaßen, den Ungarn vorzuschreiben, wie sie scrabblen dürfen?

IMHO: Ohne Einbeziehung ungarischer Scrabble Vereine (falls es die überhaupt gibt) macht dieses gigantische Unterfangen für mich überhaupt keinen Sinn.

zu Punkt 3:

Es geht doch nicht darum, den Ungarn irgendwelche Vorschriften zu machen, sondern darum, den Umfang des Zehnmillionendics auf ein erträgliches Maß zu reduzieren, sodass Scottys Programm damit umgehen kann.

Damit umgehen können bedeutet im Klartext:
• bei Spielstart das magyar.dic innerhalb einer vertretbaren Wartezeit laden,
• beim Bestätigen des Zuges durch Klick auf den Zwei-Männchen-Button innerhalb einer erträglichen Zeitspanne erfahren, ob der Computer das Wort akzeptiert oder nicht,
• eine Spielanalyse durchführen können, ohne dass der Computer eine ganze Woche oder sonst wie lang herumrechnet - Gleiches gilt für den Rollstuhlbutton,
• ein in zeitlicher Hinsicht einigermaßen akzeptables Lokalspiel gegen den Computer machen können...

Es geht uns also um nichts anderes als Scrabble3D auf Ungarisch spielbar zu machen, sonst nichts. Und da müssen eben gewisse Beschlüsse gefasst werden, die den Umfang des magyar.dic reduzieren, da ein Zehnmillionendic oder gar ein Dreizehnmilliardendic für unsere arme Scrabble3D.Echse unverdaulich ist... Wie soll die Arme solche gigantischen Happen schlucken...

zu Punkt IMHO:

Es scheint in Ungarn eben noch gar kein organisiertes Scrabblen zu geben. Oder was weißt du dazu, Marilu? Wir haben nichts über die Existenz eines nationalen ungarischen Scrabble-Verbands gefunden, auch nichts über Scrabble-Vereine in irgendwelchen Städten. Ich erinnere bloß daran, dass die italienische FIGS auch erst seit nunmehr vielleicht 4 Jahren existiert, und es war Diego de Landro alias diodeldragone, der die Initiative ergriffen hatte, diesen nationalen italienischen Scrabble-Verband zu gründen. Vielleicht ergibt sich durch unsere Arbeit hier am magyar.dic für Scrabble3D ja etwas, was dazu führt, dass in Ungarn der Stein ins Rollen kommt... Ich sage ja, wir leisten hier offenbar Pionierarbeit, und insofern macht dieses ganze Unterfangen IMHO sogar sehr großen Sinn!

Vielleicht kann ja Marilu etwas dazu sagen!

[EDIT] Bussinchen: Bitte die Diskussion im von mir neu angelegten Nachbarthread Scrabble-Vereine / Scrabble-Verband in Ungarn weiterführen!

• I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble

#6 RE: Die ungarischen Buchstaben mit Akzent

Zitat · Antworten

Zu deinen Punkten, grangrau:

1) Es gibt ein ungarisches "Grundlexikon", wie du es nennst. Es wurde schon öfter genannt: Magyar Értelmezö Kéziszótár.
Es könnte aber sein, dass es keine elektronische Version davon gibt, zumindest keine darauf basierende elektronische Wortliste.

[EDIT]Bussinchen: Doch, es gibt sie, siehe den nachträglich von mir eingefügten Link und mein Posting #4 Magyar Értelmezö Késziszótár im von mir neu angelegten Nachbarthread.

2) In den ungarischen Scrabble-Regeln wird auf dieses Wörterbuch Bezug genommen.

3) Wir wollen überhaupt niemandem vorschreiben, was er scrabblen darf. Es geht nur darum, eine für das Spiel mit Scrabble3D brauchbare Wortliste zu erstellen, die einigermaßen dem entspricht, was sich die ungarischen Scrabbler wünschen. Man kann bei Scrabble3D natürlich auch andere Worte legen, nur wird man dann zuerst vom Computer gefragt, ob man das wirklich will.
Wenn man gegen den Computer spielt, dann verwendet er natürlich nur Worte aus der Wortliste.

Pardon, jetzt hat sich mein Beitrag mit dem von Bussinchen überkreuzt!

Bussinchen

Offline

Beiträge:

19.05.2011 10:37

#7 Linharts Arbeit

Zitat · Antworten

Linhärtchen, du leistest Phantastisches!

#8 RE: Linharts Arbeit

Zitat · Antworten

Ich habe jetzt einmal stichprobenartig eine Reihe von Wörtern aus meinem Langenscheidt Sprachführer bezüglich ihrer Stellung in meiner Liste und in dem Webcorpus untersucht. Da der Sprachführer größtenteils allgemein gebräuchliche Wörter enthält, stehen die meisten natürlich sowohl in meiner Liste als auch in der ersten Million des Webcorpus. Aber ein Wort habe ich doch gefunden, das erst in der zweiten Million vorkommt: hátirat = Indossament (vielleicht weiß Gero, was das ist). Ich denke, das ist ein ganz typisches Beispiel. Das Wort ist zwar sehr speziell und eher fachsprachlich, sollte aber doch legbar sein. Ich habe daher vor, die Grenze bei 3 Millionen zu ziehen.

Zum Webcorpus muss ich noch etwas sagen: Dieser enthält natürlich viele Eigennamen (d.h. mit großem Anfangsbuchstaben) und Wörter mit Sonderzeichen, Ziffern und dergleichen. Wenn man diese eliminiert, bleiben von den 3 Millionen nur mehr 1,7 Millionen übrig.

Ich werde also versuchen, auf dieser Basis eine Liste bis zu 10 Buchstaben zu erstellen. Die Liste wird voraussichtlich trotzdem etwa drei Millionen Wörter enthalten, aber vielleicht ist das doch schon tragbar.

Das ist kein gigantisches Unterfangen, aber ich brauche wahrscheinlich doch ein, zwei Tage dazu.

Bussinchen

Offline

Beiträge:

19.05.2011 11:09

#9 RE: Linharts Arbeit

Zitat · Antworten

Zitat von linhart
Das ist kein gigantisches Unterfangen, aber ich brauche wahrscheinlich doch ein, zwei Tage dazu.

hihihi
ein, zwei Tage, wenn's weiter nix is...

Scotty

Offline

Administrator

Beiträge:

3.791

19.05.2011 12:32

#10 Indossament

Zitat · Antworten

Zitat von linhart
...hátirat = Indossament (vielleicht weiß Gero, was das ist).

Im Stil einer bekannten Reklame: "Frag nach bei Google, Wikipedia, Duden - oder bei Gero". In diesem Fall langt schon Wikipedia: Indossament.

Download: Sourceforge.net | Help: Scrabble3D Wiki | Discussion: Forum | News: Twitter

#11 RE: Indossament

Zitat · Antworten

Gero hat Schulden. 1.000.- € bei Linhart. Gero gibt Linhart einen Wechsel, zahlbar in 90 Tagen gegen Vorlage und gibt den Wechsel dem Linhart.

Linhart nimmt den Wechsel und stellt daheim beim Blick in den Briefkasten fest, dass er seinerseits bei Scotty mit 1.000.- in der Kreide steht. Der hat ihn nämlich angemahnt. Ui!

Linhart gibt dem Scotty den Gero-Wechsel und unterschreibt ihn auf der Rückseite eigenhändig. Diese Unterschrift nennt man ein Indossament, zu deutsch Übertragungsvermerk. Ob der Scotty den Wechsel nun annimmt bzw. mit dem Wechsel glücklich wird, ist eine andere Frage. Annehmen wird er ihn wohl doch, weil er durch die Annahme bei Linhart Regress nehmen kann, wenn der Gero am Fälligkeitstag nicht zahlen kann. Jeder, der auf einem Wechsel unterschreibt, haftet. Nennt sich Wechselstrenge.

Download: Geros Superdic, was sonst! | Discussion: Forum | News: Twitter | ... und im übrigen bin ich der Meinung, dass Wordfinder beim online-Spiel pfui sind!

Bussinchen

Offline

Beiträge:

19.05.2011 13:22

#12 RE: Indossament

Zitat · Antworten

Danke, Gero! Prima erklärt! 1000mal besser als bei Wikipedia, wo ich nur Bahnhof verstanden habe...

Marilu ( Gast )

Beiträge:

19.05.2011 14:32

#13 RE: Indossament und ungarische Scrabble-Vereine

Zitat · Antworten

Danke Gero für diese brillante Erklärung! Da sieht man, wie einfach die ungarische Sprache ist! Hát= Rücken, Rückseite und irat= Schrift, Unterschrift, hátirat= Indossament.
Was Scrabble-Vereine anbelangt: ich kenne auch keinen, habe nie von einem gehört und auch bei google.hu nichts dergleichen gefunden. Wir leisten tatsächlich Pionierarbeit!

Bussinchen

Offline

Beiträge:

20.05.2011 01:36

#14 RE: Linharts Arbeit

Zitat · Antworten

Lieber Linhart,

in deinem Beitrag #1 sprachst du von 13 Millionen Lemmata, und nun sprichst du in deinem Beitrag #8 davon, dass von 3 Millionen nur 1,7 Millionen übrig bleiben, wenn du die Eigennamen und sonstigen von Vornherein nicht Scrabble-fähigen Wörter herauslöschst. Wie viele Lemmata sind es denn nun? 3 oder 13 Millionen?

Zitat von linhart
Ich werde also versuchen, auf dieser Basis eine Liste bis zu 10 Buchstaben zu erstellen. Die Liste wird voraussichtlich trotzdem etwa drei Millionen Wörter enthalten, aber vielleicht ist das doch schon tragbar.
Das ist kein gigantisches Unterfangen, aber ich brauche wahrscheinlich doch ein, zwei Tage dazu.

Möchtest du nicht lieber warten, bis du die CD-ROM des Magyar Értelmezö Kéziszótár hast?

Puszi vom Puszinchen

#15 RE: Linharts Arbeit

Zitat · Antworten

Im Folgenden sind alle Zahlenangaben grob gerundet:

Der Webkorpus enthält insgesamt 13 Millionen verschiedene Wörter (inklusive Beugungsformen). Wenn man die weglässt, die höchstens 8-mal vorkommen, bleiben 3 Millionen übrig. Wenn ich von denen alle weglasse, die Großbuchstaben, Ziffern, Bindestriche oder andere Sonderzeichen enthalten, bleiben nur mehr 1,7 Millionen.

Auf der anderen Seite habe ich die hungspell-Liste. Diese enthält 155.000 Wörter mit bis zu 10 Buchstaben (ohne Beugungsformen). Wenn ich davon nur diejenigen nehme, die unter den ersten 3 Millionen des Webkorpus vorkommen, bleiben nur 63.000. Das passt ziemlich gut zu den 75.000 Stichwörtern des Magyar értelmező kéziszótár. Wenn es gelingt, diese Stichwörter aus der CD zu extrahieren, dann ersetze ich einfach meine 63.000 Wörter durch die bis zu 10-buchstabigen Wörter des kéziszótár und lasse mein Programm nochmals laufen.

Ich habe jedenfalls gestern abend mein Programm schon laufen lassen und es hat eine relativ schöne Wortliste produziert. Das Dumme daran ist bloß, dass diese Wortliste über 7 Millionen Wörter enthält (mit bis zu 10 Buchstaben), und nicht nur 3 Millionen, wie ich geschätzt habe. Da sind sicher auch unrichtige oder sehr ungebräuchliche Wort-Affix-Kombinationen dabei, aber ich weiß momentan nicht, wie ich die herausfinden soll. Das ist jetzt die große Herausforderung.

Seiten 1 | 2 | 3

nächste Seite »

«« Jelenléti iv

Menüsprache auf Ungarisch: hungarian.lang »»

Sprung