Dyskusja Wikiźródeł:Uwspółcześnianie pisowni

Stara pisownia

Najnowszy komentarz: 7 lat temu8 komentarzy3 osoby skomentowały

W kilku tekstach znalazłem przypisy, które mówią tylko "Stara pisownia". Nie jest dla mnie jasne dlaczego w ramach jednego tekstu dla jednych dziwnych pisowni taki przypis jest, a dla innych nie. Ale skoro już jest, to czy było rozważane zastosowanie do tego celu mechanizmu podobnego do szablonu {{Korekta}}? 生きる (dyskusja) 11:29, 26 lis 2016 (CET)Odpowiedz

cóż, proofreadujemy state teksty, to i pisownia w nich jest "stara". Nie widzę potrzeby ich specjalnego oznaczania — w wielu przypadkach tekst wyglądałby jak ser szwajcarski i wg mnie rozpraszające przy czytaniu. Przywołane przypisy uważam za całkowicie zbędne. Bardziej byłbym za stworzeniem mechanizmu gazdżetowego (o którym już dyskutowaliśmy nieraz), który na podstawie słownika (stare->nowe), generowałby na życzenie tekst z uwspółcześnioną pisownią. Mechanizm jest możliwy do wykonania (tego mógłbym się podjąć), co zresztą częściowo realizowane jest na innych ws (np. fr); problemem jedynie są wolne moce i chęci Skryb w pomocy we wcześniejszym utworzeniu takowego słownika, oczywiście o ile to możliwe, dla poszczególnych przypadków opartego na regexp-ie (np. /([Tt]ł)ó(mac)/ -> $1u$2). Zdzislaw (dyskusja) 13:00, 26 lis 2016 (CET)Odpowiedz

@Zdzislaw: to jeśli mogę coś zaproponować, to być może warto by było, żeby taki mechanizm po załadowaniu strony sprawdził (jeszcze bez wyświetlenia) czy po "uwspółcześnieniu" tekst byłby zmieniony, i jeśli byłby, to w infoboksie tekstu, obok roku wydania, mógłby się automatycznie pojawiać dopisek "Tekst źródłowy przedstawia ortografię z epoki i nie odpowiada współczesnym standardom języka polskiego" lub coś w podobie. 生きる (dyskusja) 19:11, 26 lis 2016 (CET)Odpowiedz

@Zdzislaw: Zacząłem dodawać pozycje, które widzę do słownika Wikiźródła:Uwspółcześnianie pisowni. Mam wątpliwość co zrobić z formami "dla tego", które są niejednoznaczne. Być może "dlatego", a być może "dla tego". Czy wtedy wewnątrz tekstu na stronie stosować jakiś szablon, który ułatwi mechanizmowi podmianę? Moja wiedza o RE jest fragmentaryczna więc proszę o wyrozumiałość jeśli będę robić błędy w słowniku uwspółcześniania. Będę obserwować nanoszone poprawki. Zastanawiam się też, czy przed uwspółcześnieniem, nie powinny być też na tekst naniesione poprawki wprowadzane przez szablony korekty. Skoro tekst już nie byłby oryginalny to i korektę można nanieść z automatu. 生きる (dyskusja) 06:05, 27 lis 2016 (CET)Odpowiedz

@生きる: cieszę się, że jesteś chętny przygotować bazę pod pierwsze testy omawianego rozwiązania. Jako, iż zadanie to będzie w wielu względach pionierskie, wymaga ostrożnych przygotowań od strony planowania aplikacji - może nawet w prototypie nie będzie mi tak zależeć nad jakością kodu, co przemyślanego wyboru zasobów (scribunto..., js...). W kontekście dostępnych zasobów czasowych i zarządzania ryzykiem, zadanie musi zostać podzielone na etapy, na tyle niewielkie, aby po przedstawieniu możliwości i funkcji prototypu społeczności, bez żalu można się cofnąć o kilka kroków. W pierwszym etapie chciałbym wykonać "lekki" mechanizm podmiany bazujący na razie na tworzonym przez Ciebie słowniku, (kolejne funkcje, Korekta... w kolejnych krokach) i przedstawić do dyskusji. W związku z tym proponuje w tym etapie ograniczyć się do przypadków oczywistych, nie budzących wątpliwości co do sposobu zamiany - na przypadki dyskusyjne, często pracochłonne z punktu widzenia kodu, będzie czas w przyszłości. W tym celu dobrze by było pracować na jednym tekście, w którym znalazły by się wszystkie "przypadki" ze słownika. Proponuje zatem abyś do słownika dodawał "przypadki" w ogólności pojawiające się w tekście Praktyczna Kucharka/całość. Co do jakości regexpa - nie martw się tworzonym przez Ciebie pseudoregexpem (jego składnia i tak zależy od silnika który go będzie wykorzystywał), ważne że w tabelce na razie widać o jaką podmianę chodzi. Ja, w miarę gdy będzie kod gadżetu powstawał (a to chwilę potrwać musi), będę edytował wypisane przez Ciebie przypadki, zarówno pod kątem składni reg-a jak i samego pliku, będziesz na tej podstawie widział jak należy wprowadzać późniejsze. Myślę, że do pierwszego etapu wystarczy liczba "przypadków" z zakresu 20-50. Bardzo się cieszę, że ten projekt zaczyna żyć! Pozdrawiam, Zdzislaw (dyskusja) 13:12, 27 lis 2016 (CET)Odpowiedz

@Zdzislaw: Po przerobieniu pierwszej książki wypracowałem taką formę. Czy tak może być? Czy będzie przeszkadzało, jeśli w miarę przerabiania kolejnej książki będę dodawać pozycje do następnej sekcji, czy też docelowo ma być to wszystko w jednej wspólnej liście a tylko na potrzeby wstępnej deweloperki miałem dawać przykłady z jednej książki? Jeśli dalsze grzebanie w tej liście będzie przeszkadzać, mogę dodawać pozycje do jakiegoś swojego brudnopisu, ale szkoda mi czasu na przechodzenie drugi raz przez te same książki, wolę notować pozycje na bieżąco. 生きる (dyskusja) 04:24, 29 lis 2016 (CET)Odpowiedz

@生きる: Na razie taka forma jest ok, i tak trzeba będzie ją dostosować do jakiegoś docelowego standardu regexp (tak jak pisałem, na tę chwilę nie jestem w stanie określić którą). To musi trochę potrwać, kod tworzę w wolnych chwilach (a te dzielę pomiędzy milsze zajęcia, np. proofread :) ). Śmiało dodawaj kolejne do tej samej listy, niech się zapełnia... Zdzislaw (dyskusja) 20:08, 29 lis 2016 (CET)Odpowiedz

To stary szablon. Są Wikiskrybowie, którzy uważali, iż będzie dobrze go wykorzystać, inni uważają, że to jest ogólna specyfika niemal wszystkich wikiźródłowych tekstów i uznają go za zbędny. Strony te zostały utworzone przez wielu Wikiskrybów -- i niektórzy z nich mogą sobie nie życzyć zmian. Takie życzenie naturalnie nie ma mocy wiążącej, bo w ramach licencji CC-3.0 na której Wikiskrybowie udostępniają swoją pracę, wszystko może być zmienione, ale jednak często jest to grzecznościowo uwzględniane.

Rozważaliśmy szablon taki, jak korekta, ale porzuciliśmy rozmowy z wielu powodów: 1) w niektórych tekstach oszablonowane musiałoby być każde słowo 2) strona z podkreślonym każdym lub co drugim słowem stawałaby się nieczytelna 3) szablony typu korekta są dość obciążające: każdy z nich pobiera jakąś część pamięci przy ładowaniu się strony. Swego czasu musieliśmy przeprowadzić specjalną akcję "odchudzania" szablonów, bo strony przestały się wyświetlać. Mamy ograniczenie narzucone przez WMF do 2 MB na stronę => w przypadku stron całości to często za mało... Więcej szczegółów może podać Ci Zdzislaw lub Ankry.

Rozważaliśmy dodatek z uwagą o ortografii jako część automatyczną szablonu DT, ale jakoś nikomu się tego nie chciało doprowadzić do realizacji i głosowania...

Co do propozycji Zdzislawa jestem jak najbardziej za i myślę, że jak będzie mechanizm, to znajdą się również chętni do wprowadzania oboczności ;-)Wieralee (dyskusja) 13:04, 26 lis 2016 (CET)Odpowiedz

Wikiźródła:Uwspółcześnianie pisowni

Najnowszy komentarz: 7 lat temu4 komentarze3 osoby skomentowały

(Przeniesione ze strony dyskusji użytkownika 生きる)

Mam wątpliwości, czy niektóre z twoich propozycji da się w ogóle zastosować.

torta pasuje np. do retorta (->retortu ?) (pasuje też do słów łacińskicch Infermuit: tum torta levis si lancea Mauri); także tortach, Tortarz
wyjm pasuje np. do wyjmę (-> wyjmiję ?)
tem pasuje do zatem, latem

Proponuję wziąć pod uwagę te przypadki przy tworzeniu reguł. (Inna sprawa, że osobiście mam wątpliwości czy takie (pół)automatyczne uwspółcześnianie jest w ogóle wykonalne, choć kiedyś sam myślałem o jego wdrożeniu.) Ankry (dyskusja) 15:39, 30 lis 2016 (CET)Odpowiedz

@Ankry: Nie wiem jak to będzie działało, ale intuicyjnie spodziewałem się, że te maski będą uwzględniały gwiazdkę jako dowolne znaki, a brak gwiazdki, jako brak innych znaków. W związku z tym pisząc "torta" miałem na myśli tylko i wyłącznie "torta", gdybym chciał przypisać to do retorta, to bym napisał "*torta". Podobna uwaga tyczy się tego, że pisząc "wyjm" mam na myśli "wyjm" a nie "wyjm*", zaś "tem" to "tem" a nie "*tem*". Co do fragmentu łacińskiego to można go ominąć oznaczając język w html w kodzie strony z tekstem łacińskim, a w mechanizm wbudować omijanie gdy język jakiegoś fragmentu w html wskazuje coś innego niż PL. 生きる (dyskusja) 15:51, 30 lis 2016 (CET)Odpowiedz

Kiedy poprawiam OCR, zawsze przyjmuję wyraz wraz z początkową spacją i tym, co na końcu, czyli np. zamieniam:

"_tem_" na "_tém_"

"_tem," na "_tém,"

"_tem." na "_tém."

"_tem!" na "_tém!"

"_tem?" na "_tém?"

"_tem:" na "_tém:"

"_tem;" na "_tém;"

Zmorą jest jedynie to, że czasami w tej samej książce drukarze nagle porzucają to "é" w niektórych wyrazach, dlatego lepiej chyba będzie najpierw zamienić "é" na "e", a potem dopiero wyraz uwspółcześnić, np. po tém => po tem => po tym. Gdy pracowaliśmy nad wyrazami dla poprawy OCR, braliśmy też pod uwagę kolejność zmian — niektóre z nich musiały następować przed, a niektóre po innych. Myślę, że wypisywanie słów z "é" po jednym jest pracochłonne, a te akurat łatwo będzie znaleźć na stronie całości, gdy zajdzie potrzeba. Wyzwaniem jest znalezienie słów bez "é", "á" czy "ſ", których przy przeczesywaniu stron całości nie wyłapie się na pierwszy rzut oka. Wieralee (dyskusja) 21:07, 30 lis 2016 (CET)Odpowiedz

@Wieralee: Nie wnikam w kolejność operacji wykonywanych przez mechanizm, bo go nie realizuję. Jeśli łatwiej będzie najpierw zmienić "é" na "e" to niech się zmienia, o ile będzie to uwzględniało przypadki zapisu w innych językach o jakich wspominał wyżej Ankry odnośnie tekstu łacińskiego. 生きる (dyskusja) 04:18, 1 gru 2016 (CET)Odpowiedz