Jak kvantifikovat a porovnat tři různé metody transliterace a delimitace textu?

Dejme tomu, že máme jazyk J psaný slabičným písmem o N symbolech.
Existují tři hypotézy o způsobu čtení textů jazyka J:

A. Počet sylabogramů S = N-1, přičemž zbývající symbol je oddělovač slov O. Příklad:

NA-MA-HA | NE-NI | VE-LI-KA → „Námaha není veliká.“

B. Parametry tytéž jako u A, ale každý sylabogram lze podezřívat z toho, že ve skutečnosti nereprezentuje jen prostou otevřenou slabiku (např. PA), ale slabiku uzavřenou jedním z K konzonantů (pokud by K = 5, pak sylabogram <PA> může být nejen PA, ale i např. PAb, PAc, PAd, PAf a PAg). Zároveň je však dáno, že případy, kdy <PA> není jen prosté PA mají výrazně nižší četnost o hodnotě F. Příklad:

NA-MA-HA | NE-NI | VE-LI-KA → např. „Namáháš nesníš veslíčka.“ nebo třeba „Namáha nezní veliká.“ atd.

C. Třetí hypotéza se liší v tom, že S = N, takže není žádný oddělovač slov. Ale symbol, který u předchozích dvou metod fungoval jako delimitáro zde funguje jako wildcard, tedy zástupný symbol reprezentující vždy jeden z W konzonantů (něco jako ? v regulárních výrazech). Může se ocitnout uprostřed slova nebo na jeho konci (možná i na začátku, ale trochu to zjednodušme). Příklad:

NA-MA-HA | NE-NI | VE-LI-KA → „Náma has! Ne! Níž, velí Ká!“ nebo třeba „Na, má háv, né, nic, veliká.“ nebo i „Na, má hačne, nit veliká.“

Lze nějak tyto hypotézy srovnat a určit, ve které je větší míra inherentní nejistoty? Tedy, která vede k většímu počtu možných řešení a je tudíž méně restriktivní a méně spolehlivá co do jednoznačnosti čtení? S velkou míry jistoty lze říct, že nejjednoznačnější bude metoda A. Ale jak kvantifikovat rozdíly mezi B a C?

Budu vděčný za postupy a/nebo vzorce, nebo alespoň radu. Jakési pokusy jsem učinil, ale potřebuji nezávislé oko. 😉

Předem moc díky!

Odpovědět

Zajímavá 2 před 2117 dny

Sledovat Nahlásit

Diskuze: 9 příspěvků, nejnovější před 2115 dny

Nejlepší odpověď

annas

Neuvedl jste, zda jde o oblast fonologie, morfologie, či třeba fonotaktiku. Dá se totiž chápat různě.
https://www.czechency.org/slovnik/FONOTAKTIKA

Vycházím z toho, že čeština používá hláskové písmo, které vychází z latinky. Jinak slabičné písmo odpovídá slabice – např. tzv. sylabogramy se používaly v klínovém písmu.

Proto záleží nejen na jakosti jednotlivých hlásek, nýbrž také na jejich počtu, na jejich výskytu, frekvenci.
Nejdůležitější pro zvukovou stránku jazyka je poměr počtu jeho samohlásek a souhlásek. Čím větší je procento samohlásek, tím lepší je zvuková kvalita jazyka.
Na zvukovou stránku jazyka má také vliv vytvoření slabik, jejich řadění, zda jde o slabiky otevřené či zavřené , na jejich četnosti.

Inherentní kvalita komunikace spočívá v tom, jak ovlivňuje význam sdělení, jak je posunuje dopředu., často na obsahové kvalifikaci.

Protože otevřených slabík je zpravidla víc než zavřených, metoda A je nejpřesnější.

Jinak se domnívám, že záleží na hláskovém systému daného jazyka. Také záleží na tom, zda jde o popis běžný, nebo vědecký. Na přízvuku, který bývá kolísový, délce – mají rozlišovací funkci.

Někde jsem četla, že při postupu fonetickém vzniká víc rozdílů. . Proto bývají texty transliterovány různě, tudíž existuje několik možných řešení, záleží na pohledu autora.

Metoda B je jednoznačnější, nepřipouští tolik možností, takže by mohla být přesnější., víc sepřibližuje metodě A.
Metoda C uvádí vice možnosti, je volnější, připouští vice výkladů.

Jenže co je pro využití důležitější, si netroufám říct.

Upravil/a: annas

3 před 2116 dny

0 Nominace Nahlásit

Otázka nemá žádné další odpovědi.

Diskuze k otázce

Pěťušek

Promiňte, ale jak Vás napadlo, že nerozumím pojmům, které mi tu vysvětlujete, když sám operuji s pojmy sylabogram a konzonant? To, zda jde o fonologie, morfologii či jinou jazykovou rovinu je tu jednak poněkud irelevantní, jednak zcela jasné. Máme určitou sadu proměnných, slabičné písmo s 3 různými sadami parametrů.

Ad 1: Sice nevím, proč by mělo záležet na „jakosti“ hlásek, ať už tím myslíte cokoliv (témbr u samohlásek?), ale co se týče počtu hlásek, řekněme že fonémický inventář je ve všech třech případech stejný. Frekvence hlásek není relevantní, protože je produktem rozdílného čtení v oněch 3 verzích.

Ad 3: Proč mluvíte o „zvukové kvalitě jazyka“? Co to je a jak je to relevantní?

Ad 4: To, jestli jsou zavřené, nebo otevřené, přece jasně zmiňuji…?

Jak je poslední věta Vaší odpovědi relevantní k čemukoliv, co jsem napsal???

před 2116 dny Odpovědět Nahlásit

annas

Nepůíši, že nerozumíte pojmům, ale dá se chápat z různách pohledů.

Ale zajímá mě, o který jde pohled. Já vyšla z fonologie.

před 2116 dny Odpovědět Nahlásit

annas

Inherentní komunikace x inherentní nejistota.

před 2116 dny Odpovědět Nahlásit

Pěťušek

Ha, napadlo mě ještě lepší a konkrétnější srovnání:

1. Mainstreamové čtení:

Řekněme, že hypotéza 2 je zjednodušená verze tohoto:
https://en.wikipedia.org/wiki/Linear_B#Spelling_and_pronunciation

2. Pseudolingvistické čtení:

A hypotéza 3 je vlastně přesně toto:
http://www.veneti.info/multilingua/cesky/120-mykensti-mluvili-a-psali-take-praslovansky

Pomůže?

před 2116 dny Odpovědět Nahlásit

Pěťušek

Dobrá, zkusím to lépe vysvětlit. Představte si, že máme text v nějakém slabičném písmu. Známe počet sylabogramů (N). Máme ale tři badatele, kteří se neshodnou na tom, o jaký jazyk jde, a tak má každý z nich svou hypotézu, jak text dělit na slova, a tudíž i v jakém jazyce takto „identifikovaná“ slova pro komparativní či referenční účely hledat (bez ohledu na syntax). Zajímavé je, že všichni tři badatelé se shodnou přinejmenším na tom, že sylabogramy reprezentují minimálně slabiky typu CV, dokonce se shodnou i na tom, který sylabogram má které C a které V. Na čem se ale neshodnou, je způsob dělení do slov, takže zatímco první a druhý badatel oba využívají znak, který považují za dělítko mezi slovy jako indikátor slovních hranic, třetí badatel ho považuje za zástupný symbol pro kterýkoliv C ve fonologickém inventáři, takže hranice slov mohou být kdekoliv. Rozdíl mezi prvním a druhým badatelem je v tom, že první prostě vše transliteruje jako CVCVCV…, druhý občas uprostřed či na konci slova doplní podle domnělého kontextu (usuzovaného ze sémantických vodítek i morfosyntaxe) jeden z řekněme třeba 5 konzonantů, takže CVCVCV je možno číst třeba CVCCVCV podle potřeby. Vzhledem k tomu, že druhý badatel srovnává s jazykem J2, jehož parametry zná, musí odpovídat frekvence slabiky s kodou v daném textu více méně frekvenci běžné pro srovnaný jazyk, to je jasné.
Samozřejmě i badatel první zná jazyk, s nímž text porovnává. A konečně i třetí badatel zná jazyk J3, s nímž text porovnává a na jehož základě text interpretuje. Čili také se snaží, aby jednotlivá slova, na která text rozdělí, dávala spolu jakýs takýs smysl.
No, a mě zajímá, zda se z určených parametrů dá nějak určit, který systém vede k menší spolehlivosti interpretace. První je evidentně velmi spolehlivý, ale co s druhým a třetím, jak ty se mezi sebou liší? Snad jsem to teď popsal srozumitelněji. 🙂

před 2116 dny Odpovědět Nahlásit

annas

Děkuji za upřesnění. Já jsem celkem otázku pochopila, i když mě zajímala „disciplína“ češtiny nebo název práce atd.

Přiznávám, že jste nikdy takovýto rozbor nedělala, zajímalo mě to, ale na podrobné studium nemám čas.

Takže jsem něco napsala, ale je to jen můj pohled, nezkoumala jsem všechny dostupné informace

Brala jsem transliteraci do češtiny. .

před 2115 dny Odpovědět Nahlásit

Pěťušek

Díky za trpělivost. Jen abych to dovysvětlil…

Není to pro žádnou konkrétní studii nebo práci, není to ani pro češtinu, spíše obecnou lingvistiku nebo matematickou lingvistiku.

Jde mi o obecný matematický aparát, do něhož bych, abych tak řekl, „nasypal“ vstupní hodnoty proměnných odvozených ze způsobu čtení, a on by nějakým způsobem „vysypal“ kvantifikaci rozdílu (třeba že v A je řádově více možností než v B).

U metody B je předpoklad, že jde o starou řečtinu, u metody C řekněme něco jako staroslověnštinu. Čili badatel B se domnívá, že má před sebou starořecký text, kdežto badatel C, který má před sebou týž text, si myslí, že má před sebou staroslověnštinu.

Aby badatel B dokázal, že má pravdu, stačí mu text rozdělit podle znaků, o nichž je přesvědčen, že oddělují slova, do jednotlivých slov, zkontroloval starořecký slovník a gramatiku (morfologii a syntax), ovšem s tím, že některé starořecké souhláskové shluky písmo nezachytí zcela přesně.

Aby badatel C „dokázal“, že jde o staroslověnštinu, může text dělit tolika způsoby, jak se mu zamane, dokud mu to nebude dávat jakýs takýs smysl.

před 2115 dny Odpovědět Nahlásit

Pěťušek

…a samozřejmě taky za doplněnou odpověď! 🙂

před 2115 dny Odpovědět Nahlásit

annas

Děkuji, dověděla jsem se víc, i když nějak jsem tušila, že jde o něco jiného, než to, čím jsem se zabývala. Proto jsem se víc ptala.

Právě kvůli různým postupům jsou některé výrazy z bible různě interpretované.

před 2115 dny Odpovědět Nahlásit

Nový příspěvek

Zajímavé otázky v kategorii Věda