Child pages
  • Jak przygotować skany w programie Scan Tailor?
Skip to end of metadata
Go to start of metadata

Przed użyciem skanu konkretnego dokumentu w Wirtualnym Laboratorium Transkrypcji, należy się upewnić, że obraz został on doprowadzony do postaci zoptymalizowanej pod kątem programów do optycznego rozpoznawania znaków (OCR). Celem OCR jest zamiana skanu, który przez wyszukiwarki traktowany jest wyłącznie jak obraz, na dokument, w którym można wyszukiwać konkretne frazy. W związku z tym warto jak najbardziej ułatwić odczytywanie znaków poprzez usunięcie z obrazu wszelkich zanieczyszczeń, elementów, które mogą zostać uznane przez program za tekst a w rzeczywistości nim nie są. Do wspomnianej obróbki służy program Scan Tailor.

Etapy obróbki za pomocą Scan Tailor:

  1. Po wczytaniu wykonanego skanu do programu pierwszym krokiem jest (widoczne w lewym górnym rogu) „Fix Orientation” czyli możliwość obrotu skanu w razie, gdyby wczytany był obrócony nieprawidłowo. Nie zawsze jest to konieczne. Aby wykonać przekształcenia należy kliknąć przycisk , który znajduje się w tej samej linii co nazwa kroku ”Fix Orientation” (por.Rysunek 1).
    Rysunek 1. Możliwość obrotu obrazu.

  2. Kolejnym krokiem jest „Split Pages”, w którym program automatycznie sugeruje podział skanu na strony, co oczywiście można zmieniać wedle własnego uznania za pomocą ikonek po lewej stronie i podziałki na obrazie. Operacja ta ma dwa tryby działania:
    a. automatyczny – program sam stara się dobrać granicę podziału, a użytkownik może ją ręcznie dostosować dla konkretnych skanów;
    b. ręczny – użytkownik sam wybiera gdzie przebiega granica podziału, może również określić z góry, że skany zawierają wizerunek tylko jednej strony (menu „Page Layout”) i podział jest niepotrzebny.

    Rysunek 2. Podział skanu na strony.

  3. Następnym krokiem jest „Deskew” czyli dopasowanie tekstu na obrazie do siatki, tak aby niezależnie od krzywizny zeskanowanego papieru, tekst był ułożony prosto w stosunku do ekranu komputera. Jest to dopasowane przez program automatycznie, istnieje oczywiście możliwość ręcznej modyfikacji. 

    Rysunek 3. Dopasowanie tekstu na obrazie do siatki.

  4. Select Content” polega na zaznaczeniu pola tekstu, który powinien zostać poddany OCR tak, aby jak najmniej pozostałej części skanu znalazło się w tym polu. Zaznaczony tekst sugerowany jest automatycznie, można jednak zmieniać jego obszar manualnie. 

    Rysunek 4. Zaznaczanie pola tekstu na obrazie.

  5. Kolejnym krokiem jest zaznaczenie marginesów („Margins”). W wyniku przekształceń takich jak dzielenie stron, zmiana orientacji linii tekstu czy wreszcie wybór treści, zmieniany jest rozmiar skanów, aby ujednolicić rozmiar dodawane są marginesy. Obszar marginesów po obróbce zostanie wypełniony kolorem białym. 

    Rysunek 5. Zaznaczanie marginesów.

  6. Output” to krok ostatni w którym możemy określić szczegóły związane z rozdzielczością wynikowych plików („Output Resolution”), stosowaną w ich przypadku głębią kolorów (domyślnie tworzone są obrazy czarno-białe, menu „Mode”). Pozostałe dwie opcje zostały opisane poniżej. 
     Rysunek 6. Określanie szczegółów związanych z wynikami wcześniejszej obróbki.


    Dewarping” pozwala na wyprostowaniu zakrzywienia linii tekstu wynikających z faktu iż skanowanie książki odbywało się na skanerze płaskim. 

    Rysunek 7. Prostowanie zakrzywień linii tekstu.


    Despeckling” to stopień usuwania zanieczyszczeń i szmerów z obrazu (im większy pędzel na ikonce tym większe jest intensywność z jaką algorytm czyszczący szuka zanieczyszczeń). Istnieje oczywiście możliwość wyczyszczenia docelowego tekstu a nie tylko szmerów, w zakładce po prawej widoczne są (zaznaczone czerwonymi kropkami) miejsca, które zostały oznaczone jako zanieczyszczenia.

    Rysunek 8. Usuwanie zanieczyszczeń i szmerów z obrazu

    Powstały w powyższym procesie obraz zapisywany jest w folderze „out” tworzonym automatycznie przez Scan Tailor w miejscu na dysku, z którego wczytujemy skan. Tak przygotowany wynik obróbki skanu można poddać optycznemu rozpoznawaniu znaków (OCR). 

  • No labels