Biuletyn Informacji Publicznej

WG 2019-4: Różnice pomiędzy wersjami

Wikimedia Polska, polski partner Fundacji Wikimedia.
Przejdź do nawigacji Przejdź do wyszukiwania
Usunięta treść Dodana treść
Comp1089 (dyskusja | edycje)
odpowiedź
komentarz
Linia 24: Linia 24:
** Wydaje mi się, że możemy poczekać kilka dni na informacje. [[Użytkownik:Ankry|Ankry]] ([[Dyskusja użytkownika:Ankry|dyskusja]]) 19:07, 26 sty 2019 (CET)
** Wydaje mi się, że możemy poczekać kilka dni na informacje. [[Użytkownik:Ankry|Ankry]] ([[Dyskusja użytkownika:Ankry|dyskusja]]) 19:07, 26 sty 2019 (CET)
* Poprawię, że nie "z normalnego tekstu na Braille'a", tylko z czarnodruku do postaci, którą można byłoby odczytać, używając czytnika z ekranu. Z [http://www.taniekserowanie.pl/index.php/skanowanie tej strony] wynika, iż skanowanie kosztowałoby 10 gr za stronę, nie znalazłem tam natomiast informacji o dodatkowej cenie za rozpoznawanie (w związku z czym kwota końcowa może się okazać nieco większa, niż 300 zł). Tom I ww. słownika zawiera 702 strony, na każdej ze stron zmieściłoby się od 20 do 40 haseł (zależy to od długości komentarza do każdego hasła). --[[Użytkownik:Comp1089|Comp1089]] ([[Dyskusja użytkownika:Comp1089|dyskusja]]) 18:51, 28 sty 2019 (CET)
* Poprawię, że nie "z normalnego tekstu na Braille'a", tylko z czarnodruku do postaci, którą można byłoby odczytać, używając czytnika z ekranu. Z [http://www.taniekserowanie.pl/index.php/skanowanie tej strony] wynika, iż skanowanie kosztowałoby 10 gr za stronę, nie znalazłem tam natomiast informacji o dodatkowej cenie za rozpoznawanie (w związku z czym kwota końcowa może się okazać nieco większa, niż 300 zł). Tom I ww. słownika zawiera 702 strony, na każdej ze stron zmieściłoby się od 20 do 40 haseł (zależy to od długości komentarza do każdego hasła). --[[Użytkownik:Comp1089|Comp1089]] ([[Dyskusja użytkownika:Comp1089|dyskusja]]) 18:51, 28 sty 2019 (CET)
**Muszę się wtrącić. Stopa błędów w OCR. Prawie 20 lat temu powstała [[Polska Biblioteka Internetowa]], zawierająca i skany, i teksty z OCR. Te ostatnie były często bezużyteczne - po prostu w umowie z wykonawcą nie było słowa o weryfikacji odczytanego tekstu. Co prawda pierwszy program OCR, jaki spotkałem - Recognita - był napisany przez Węgrów i demonstrowany na tekstach w języku tureckim. [[Użytkownik:Litwin Gorliwy|Litwin Gorliwy]] ([[Dyskusja użytkownika:Litwin Gorliwy|dyskusja]]) 22:04, 28 sty 2019 (CET)

Wersja z 23:04, 28 sty 2019


Strona główna Złóż wniosek Najczęstsze pytania Regulamin Wikigrantów Zasady refundacji Aktualne projekty Archiwum
Nazwa użytkownika Comp1089 Status do rozpatrzenia
Uzasadnienie Grant ma być przeznaczony na rozpoznanie programem OCR 1. tomu słownika turecko-tureckiego. Jest to niezbędne, abym mógł korzystać z ww. tekstu, używając programu odczytu ekranu (np. NVDA, z którego na co dzień korzystam). Adaptacja tego słownika ułatwi mi uzupełnienie oraz utworzenie odpowiednich haseł na polskim Wikisłowniku. Obecnie mam ten słownik w postaci drukowanej, dokładna liczba stron w 1. tomie jest do doprecyzowania.
Harmonogram realizacji projektu 01.08.2019
Kosztorys ok. 300 zł, dokładna kwota do doprecyzowania Suma 300 PLN
w tym miejscu Komisja przedstawi swoją decyzję
Sprawozdanie użytkownika WG 2019-4/sprawozdanie Data zakończenia nie podano (prace się nie zakończyły)
Podsumowanie Komisji w tym miejscu Komisja podsumuje wyniki grantu


Dyskusja i uwagi
  • Mam dwa pytania:
  1. Czy mógłbyś z grubsza oszacować jaką liczbę haseł będziesz w stanie uzupełnić / opracować w podanym terminie?
  2. W oparciu o co oszacowałeś koszt skanowania / OCR-u?
Ankry (dyskusja) 18:09, 26 sty 2019 (CET)[odpowiedz]
  • Rozmawiałem z wnioskodawcą (jesteśmy na ZZ). Ma w domu 10 tomów i deklaruje chęć wrzucenia całości do Wikisłownika (z koniecznymi zmianami). Do tego potrzebuje zrobić OCR z "normalnego" tekstu na Braille'a. Poradziłem mu, żeby zaczął pilotażowo od jednego tomu. Liczba haseł zostanie oszacowana, kiedy wnioskodawca wróci do domu (osoba widząca musi spojrzeć ile haseł mieści się na jednej stronie, może na okładce jest to napisane - w internecie opis tego słownika nie jest łatwy do znalezienia). Koszt został oszacowany na podstawie cennika wyspecjalizowanej jednostki UW. Tar Lócesilion (queta) 18:33, 26 sty 2019 (CET)[odpowiedz]
  • Poprawię, że nie "z normalnego tekstu na Braille'a", tylko z czarnodruku do postaci, którą można byłoby odczytać, używając czytnika z ekranu. Z tej strony wynika, iż skanowanie kosztowałoby 10 gr za stronę, nie znalazłem tam natomiast informacji o dodatkowej cenie za rozpoznawanie (w związku z czym kwota końcowa może się okazać nieco większa, niż 300 zł). Tom I ww. słownika zawiera 702 strony, na każdej ze stron zmieściłoby się od 20 do 40 haseł (zależy to od długości komentarza do każdego hasła). --Comp1089 (dyskusja) 18:51, 28 sty 2019 (CET)[odpowiedz]
    • Muszę się wtrącić. Stopa błędów w OCR. Prawie 20 lat temu powstała Polska Biblioteka Internetowa, zawierająca i skany, i teksty z OCR. Te ostatnie były często bezużyteczne - po prostu w umowie z wykonawcą nie było słowa o weryfikacji odczytanego tekstu. Co prawda pierwszy program OCR, jaki spotkałem - Recognita - był napisany przez Węgrów i demonstrowany na tekstach w języku tureckim. Litwin Gorliwy (dyskusja) 22:04, 28 sty 2019 (CET)[odpowiedz]