Masowa digitalizacja i OCR – Prezentacja wyników projektu IMPACT

Środa, 12 października 2011 r.

Miejsce spotkania: Biblioteka Kórnicka PAN, Oddział w Poznaniu. Pałac Działyńskich, Stary Rynek 78, 61-001 Poznań (Sala Czerwona, 1 piętro)

W ramach Strategii i2010, a w szczególności inicjatywy dotyczącej bibliotek cyfrowych, Unia Europejska nakreśliła wielowymiarowy plan szeroko zakrojonej digitalizacji tekstowych dokumentów dziedzictwa kulturowego Europy. Aby współczesne technologie ICT mogły w pełni wykorzystać wartość intelektualną, jaką niosą ze sobą tego rodzaju materiały, konieczna jest pełnotekstowa forma digitalizacji: konwersja zeskanowanych stron dokumentów historycznych do postaci cyfrowego tekstu. Obecnie materiały historyczne w postaci cyfrowej udostępniane są zbyt wolno, w zbyt małych ilościach, ze zbyt małej liczby źródeł. Poprawę tej sytuacji można uzyskać poprzez pokonanie kilku głównych barier, m.in. brak wiedzy z zakresu masowej digitalizacji, wysoki koszt przygotowania pełnotekstowej cyfrowej formy zeskanowanych dokumentów, niesatysfakcjonujące rezultaty automatycznego rozpoznawania tekstu (OCR) dla dokumentów historycznych dziedzictwa kulturowego.

IMPACTProjekt IMPACT, widziany jako sieć centrów kompetencji zrzeszająca biblioteki, instytucje badawcze i firmy komercyjne, ma na celu poprawę przedstawionej wyżej sytuacji. Podstawowym celem utylitarnym projektu jest znaczne zwiększenie dostępności cyfrowych dokumentów historycznych znajdujących się w Internecie, tak aby w idealnej sytuacji były dostępne w takim samym stopniu, jak dokumenty utworzone w formie cyfrowej (tzw. born-digital).

Wystąpienia poświęcone będą działaniom, jakie podjęte zostały przez dwóch polskich partnerów projektu IMPACT: Katedrę Lingwistyki Formalnej Uniwersytetu Warszawskiego oraz Poznańskie Centrum Superkomputerowo-Sieciowe.

14:30 – 15:30: Zwiększanie dostępności cyfrowych dokumentów historycznych w Internecie (Tomasz Parkoła – PCSS)

  • Omówione zostaną podstawowe założenia projektu IMPACT oraz role polskich partnerów w projekcie. Przedstawione zostaną działania PCSS, a w szczególności działania mające na celu przygotowanie pełnotekstowych wersji cyfrowych polskich dokumentów historycznych dziedzictwa kulturowego oraz ich znaczenie dla naukowców humanistów oraz osób zaangażowanych w budowanie bibliotek cyfrowych.

15:30 – 16:15: Polskie zasoby językowe w projekcie IMPACT (Janusz S. Bień, Monika Kresa, Krzysztof Szafran – Katedra Lingistyki Formalnej Uniwersytetu Warszawskiego)

  • Przedstawiona zostanie selekcja dostępnych zasobów na potrzeby projektu IMPACT i ich wykorzystanie, zostaną również omówione nowe zasoby stworzone w ramach projektu. Szczególna uwaga zostanie poświęcona internetowemu Słownikowi języka polskiego XVII i pierwszej połowy XVIII wieku (http://sxvii.pl/).

Przerwa kawowa 16:15 – 16:45

16:45 – 17:45: Opracowane narzędzia i wyniki prac projektu IMPACT (Tomasz Parkoła – PCSS)

  • Przedstawione zostaną najważniejsze narzędzia opracowane w ramach projektu IMPACT, które wspomagają digitalizację i OCR dokumentów historycznych. Omówione zostaną najważniejsze wyniki prac w kontekście polskich dokumentów historycznych.

 

Podstawowe informacje

RSS

Przeszukaj polskie biblioteki cyfrowe