Zitat von BussinchenAuch die Wortsuche funktioniert auf Farsi mit dem farsi.dic!!! Cooooooool!!!
Doch nicht so ganz, und ich weiß nicht, warum.
Aus gegebenem Anlass habe ich in der Wortsuche (Variation) ديوان (DIWAN) eingegeben. Ergebnis siehe Screenshot: Gibt man das Wort links ein, dann wird das Wort als im persian.dic vorhanden erkannt (nicht rot unterlegt). Gibt man das Wort jedoch rechts ein und sucht im Modus "Variation", dann wird das Wort nicht gefunden und es gibt Probleme mit dem Buchstabenset. Woran liegt das? Ist da vielleicht der mysteriöse ZWNJ mit im Spiel, Linhart? Aber enthält das Wort ديوان überhaupt einen ZWNJ? Andererseits sind in der aktuell auf SF.net angebotenen Version 2 des persian.dic ja gar keine ZWNJ-Wörter mehr drin...
Bin ein bisschen ratlos...
(Ich hatte das persian.dic Version 1.0.2 und das persische Buchstabenset geladen sowie die Linksläufigkeit aktiviert.)
Dieses Problem tritt bei mir nicht auf, aber ich glaube, ich weiß woran es liegt. Es gibt nämlich zwei verschiedene Buchstaben "i". Das "arabische" i hat Character-Code 1610 (Hex 64A), und das "persische" 1740 (Hex 6CC). Die beiden unterscheiden sich nur dann, wenn sie als Großbuchstaben geschrieben werden, d.h. am Ende eines Wortes. Da hat das arabische i zwei Punkte darunter, das persische aber gar keine Punkte.
Ich kann mit meinem Mathematica feststellen, dass du in deinem Beitrag ديوان mit dem arabischen i geschrieben hast. Im persian.dic steht es aber mit persischem i drinnen. Wenn du mit der Farsi-Tastatur-Belegung schreibst, erhältst du automatisch das persische i, und zwar mit der Taste "D" (ohne Umschalttaste). Wenn du aber ein Wort von irgendwoher kopierst, kann es sein, dass du ein arabisches i erwischt. Das müsstest du dann händisch ausbessern.
Hier ist tatsächlich beidemale das arabische I verwendet worden, aber das sieht man den Buchstaben nicht an. Das kann man nur mit einem entsprechenden Programm feststellen (oder indem du es in der Scrabble3D-Wortsuche eingibst).
Der Unterschied zwischen Arabisch und Persisch besteht in dem von dir kopierten Satz nur in der Transkription bzw. Aussprache des W bzw. V. Die Araber sprechen es wie ein englisches W aus, die Perser wie ein englisches V.
Zitat von linhartHier ist tatsächlich beidemale das arabische I verwendet worden, aber das sieht man den Buchstaben nicht an. Das kann man nur mit einem entsprechenden Programm feststellen (oder indem du es in der Scrabble3D-Wortsuche eingibst).
Das ist aber komisch. Wie kann ein Buchstabe unterschiedlich sein, wenn er doch gleich aussieht... Worin besteht dann der Unterschied? Ich sehe keinen... Wie kann das Programm dann einen Unterschied sehen... Das hat wohl was mit Unicode zu tun...
Zur Erklärung: Im "Hirn" des Computers gibt es ja nur Bits. Jedes Bit entspricht entweder der Zahl 0 oder 1. Wenn man 16 Bits zusammenfasst, dann entspricht das einer Zahl von 0 bis 2^16-1 = 65535 (bzw. hexadezimal von 0000 bis FFFF). Wenn der Computer so einen 16-Bit-Block auf den Bildschirm schreiben soll, dann schaut er (bildlich gesprochen) normalerweise in der Unicode-Tabelle nach, wie das entsprechende Zeichen aussieht und stellt es auf dem Bildschirm dar. Bei arabischen und persischen Buchstaben achtet er außerdem darauf, welches Zeichen vorher und nachher kommt.
Mit Hilfe von Word kannst du die Unicode-Nummern der Buchstaben eines persischen Wortes auch selbst herausfinden. Kopiere das Wort auf eine leere Word-Seite, markiere den fraglichen Buchstaben und gehe dann auf Einfügen/Symbol/Weitere Symbole. In dem sich öffnenden Fenster siehst du dann unter anderem den hexadezimalen Unicode des Zeichens. Du kannst es dann auch durch irgendein anderes Zeichen ersetzen.
Du siehts dabei auch immer den vollen Namen des Buchstabens. Das arabische i heißt dort ARABIC LETTER YEH, und das persische i ARABIC LETTER FARSI YEH. Du wirst auch sehen, dass es allerhand gleich aussehende Buchstaben gibt, die der Computer aber doch intern unterscheidet. Z.B. sieht der Buchstabe mit Hex-Code 0649 auch wie ein persisches i aus, heißt aber ARABIC LETTER ALEF MAKSURA.
OK, Linhart, das klingt jetzt sogar für mich plausibel. Danke für deine Geduld, mir das alles so schön zu erklären!
Trotzdem ist mir nach wie vor nicht klar, wieso das Wort ديوان (DIWAN) in der "kopierten Schreibweise" dann über den linken Teil der Wortsuche von Scrabble3D im persian.dic gefunden wird, im rechten Teil hingegen nicht. Wenn ich das "falsche", arabische i statt des persischen genommen habe, dann dürfte die Wortsuche das Wort nach meiner Logik links auch nicht finden und dementsprechend rot unterlegen.
Ich hatte jedenfalls nur die eine Variante des Wortes, die auf der Wikipedia-Seite unter Persisch angegeben ist, kopiert und auch nur diese links und rechts in die Wortsuche eingegeben.
Bei mir ist es auch so: Wenn ich ديوان mit arabischem i eingebe, dann erkennt er es bei der Wortsuche weder links noch rechts. Mit dem persischen i, also دیوان, erkennt er es auf beiden Seiten. (Man muss aber aufpassen, dass man nicht versehentlich ein Leerzeichen mitkopiert.) Warum es bei Bussinchen links gegangen ist und rechts nicht, kann ich nicht erklären.
Ich teste das heute Abend noch einmal gezielt mit manueller Eingabe der einzelnen persischen Buchstaben (nach Umstellung der Tastaturbelegung auf Persisch), und mit Kopieren & Einfügen des gesamten Wortes in persischer und arabischer Schreibung. Mal sehen, was dabei rauskommt! ;-)
Ich habe von dieser Seite hier das Wort DIWAN دیوان kopiert und links und rechts in die Wortsuche eingegeben, und siehe da: Es klappt alles, das Wort wird links und rechts gefunden. Es hat die Nummer 83005 im persian.dic 1.0.2.
Wenn ich an meinem Schul-PC das persische Wort DIWAN mit den falschen arabischen Buchstaben jedoch von der Webseite http://en.wikipedia.org/wiki/Diwan_(poetry) kopiere, wird das Wort korrekterweise weder links noch rechts in der Wortsuche gefunden.
(Am Schul-PC habe ich leider keine Admin-Rechte, um die Tastaturbelegungen für linksläufige Schriften zu aktivieren (Checkbox ausgegraut), weshalb ich nicht selbst auf Persisch schreiben konnte, sondern wieder von einer Webseite kopieren musste.)
Ich habe auch die Kontrolle gemacht, die Linhart vorgeschlagen hat (mit Word, Buchstaben markieren, Symbole einfügen, usw.) und sehe jetzt auch die unterschiedlichen Zeichencodes für den/die arabischen bzw. persischen Buchstaben.
Ich werde zu Hause noch einmal kontrollieren, ob ich nicht vielleicht doch etwas falsch gemacht oder übersehen hatte.
Für mich ist nun die wichtigste Erkenntnis aus dieser Diskussion: • Arabische arabische Buchstaben sind nicht gleich persische arabische Buchstaben und man muss höllisch aufpassen!
Nun meine Frage an Linhart: Gibt es außer dem arabisch-persischen i (yeh) noch andere Buchstaben, die aufgrund von (vermeintlich) gleichem Aussehen, aber unterschiedlichem Hexadezimalcode solch eine Falle darstellen, wenn man nicht Obacht gibt?
Fazit: Ich freue mich jedenfalls, dass die Wortsuche doch klappt. Scottys Programm ist halt doch zuverlässig! Alles ist in Butter!
Der einzige mir bekannte Buchstabe mit einem analogen Problem ist das schon erwähnte ALEF MAKSURA oder besser Alif maqsura (siehe http://de.wikipedia.org/wiki/Alif_maqsura). Das sieht wie ein I am Ende eines Wortes aus, wird aber A ausgesprochen. Es wird im Persischen ebenfalls durch ein persisches I ersetzt (eventuell auch durch ein Alef, das weiß ich nicht so genau). Es kommt aber im Persischen ziemlich selten vor.
Abgesehen davon muss man beim Kopieren von Wörtern nur auf Sonderzeichen wie Hamze und Tašdīd achten, da ich alle diese Zeichen bei der Erstellung der Wortliste herausgelöscht habe. Sie werden heutzutage im Persischen immer weniger verwendet. Einzige Ausnahme ist das Alef mit Madda آ , das im Persischen als eigener Buchstabe angesehen wird. Er kommt im Alphabet ganz am Anfang, vor dem Alef.
1.Hamza = Hamze ist ein Häkchen, das entweder über einem Buchstaben oder am Wortende stehen kann: رأس [ra's] Haupt سؤال [so'āl] Frage بئر [be'r] Brunnen خانۀ [xāneye] Haus (mit Ezāfe, das ist eine Endung, die eine Verbindung mit dem folgenden Wort anzeigt) اداء [adā'] Zahlung
2. Tashdid sieht wie ein kleines w aus und bedeutet über einem Buchstaben dessen Verdoppelung: ذرّه [zarreh] Teilchen
3. Tāʾ marbūṭa ist ein H mit zwei Punkten darüber. Es wird [at] ausgesprochen und daher heute im Persischen meistens durch ein T wiedergegeben: حمیة [hamiyat] Eifer
4. Vokalzeichen: a (Fathe): هَم [ham] auch e (Kasre): هِمت [hemmat] Ehrgeiz o (Zamme): هُما [homā] Phönix kein Vokal (Sokun): عمْر [omr] Leben
Wenn du die Beispielworte genau ansehen willst, kannst du sie in einen Word-File kopieren und dort die Schriftart größer stellen. (Hier geht das anscheinend nicht.)