Wspierajmy lokalne repozytoria

Na blogu Komisji Europejskiej komisarz Neelie Kroes ogłosiła poparcie dla stworzenia jednej, zestandaryzowanej licencji dla otwartych danych w Europie oraz wyraziła potrzebę zbudowania jednego „paneuropejskiego“ repozytorium danych. O ile cieszy mnie fakt, że komisarz wyraża takie opinie, to jednak budzą one we mnie pewne obawy. Ciężko wypowiedzieć mi się na temat jednej licencji, bo jestem jedynie jej potencjalnym użytkownikiem i nie angażuję się bezpośrednio w tworzenie prawa. Inaczej jest jednak w przypadku repozytorium danych – współtworzę technologie otwartości w Polsce i ta część posta na blogu Kroes zmartwiła mnie bardzo.
Pomysł stworzenia jednego, paneuropejskiego repozytorium danych od razu wywołuje w moich myślach wizję, w której ogłasza się przetarg na projekt architektoniczny budynku serwerowni, następnie ogłasza kilka przetargów na realizację technologiczną i merytoryczną projektu, zatrudnia kilkadziesiąt osób utrzymujących infrastrukturę itd., by ostatecznie wznieść gmach Archiwum. To wizja budowania centralnej biblioteki, która w jednym miejscu zbierze całą wiedzę, produkowaną przez wydawnictwa z najdalszych zakątków kontynentu, która otworzy program kwerend i stypendiów oraz zmagać się będzie ze stworzeniem ujednoliconego systemu katalogowania zbiorów. Problem jest tylko taki, że tempo rozwoju internetu, a wraz z nim społeczeństwa informacyjnego, nie daje – w mojej opinii – szans takiemu myśleniu.
Są dwa poziomy, na których warto spojrzeć na ten problem – społeczny i technologiczny. W pierwszym wypadku mam poczucie, że żyjemy w czasach, w których zróżnicowanie społeczności lokalnych jest czymś oczywistym. Inne potrzeby mają Ślązacy na Opolszczyźnie, inne Kaszubi na Pomorzu. Inne mają mieszkańcy Walii, inne Transylwanii. Paneuropejskie centrum danych naraża nas na próbę „wyrównania“ tych różnic. I można by powiedzieć, że w wypadku samego korzystania z danych publicznych nie ma aż tak wielkich różnic (choć i to byłoby odważną tezą), ale mówiąc o publikowaniu danych te różnice są ogromne. Każda społeczność ma swoje powody publikowania danych, każdorazowi odbiorcy różnić się będą poziomem umiejętności, dostępności internetu, urządzeń mobilnych i konkretnych potrzeb społeczności oraz ram prawnych w jakich funkcjonują (nie wszystkie dane poddadzą się prostemu uogólnionemu licencjonowaniu). Skończy się na tym, że lokalni działacze publikować będą dane dwukrotnie – raz na własnych platformach stworzonych dla potrzeb własnej społeczności oraz drugi raz w paneuropejskim archiwum. W praktyce zaś publikować będą jedynie u siebie, bo i tak będą musieli budować portale, na których dane te wykorzystają. Rozwój technologii pozwala w dzisiejszych czasach na bardzo szybkie i bardzo tanie tworzenie tzw. aplikacji webowych, więc dylemat, czy tylko portal wykorzystujący dane, czy jednak portal wraz z przestrzenią publikacji, jest zupełnie nieaktualny.
Na poziomie technologicznym zaś budowanie wielkich archiwów narażone jest na te same problemy, na które narażone były wielkie systemy biblioteczne – zanim zostały wdrożone, były już przestarzałe. Jak łatwo się domyśleć, realizacja takiego projektu to przynajmniej dwa, trzy lata. Wydaje się niewiele, jak na skalę przedsięwzięcia. Dwa lub trzy lata w internecie to jednak nie to samo, co dwa lub trzy lata na budowie. Największe portale społecznościowe w ciągu pierwszych dwóch, trzech lat swojej działalności zdobywały miliony użytkowników, zmieniając kształt internetu w coś, co od pewnego momentu nazywamy Web 2.0. Były systemy informatyczne, których pomysły zrodziły się przed tą zmianą, a wdrożone zostały już po niej. Problemem było to, że po drodze zmienił się odbiorca, sposób funkcjonowania internetu w życiu prywatnym i zawodowym oraz technologie służące do budowania narzędzi Web 2.0. Wydaje mi się, że w tym sensie tworzenie małych narzędzi ma dziś większe szanse powodzenia, bo ich cykl produkcyjny to kilka miesięcy, a koszta często niezauważalne. Jeśli sprawdzą się w swoim zadaniu, będzie można rozwijać je dalej.
Wydaje mi się, że komisarz zrobiłaby lepiej, popierając budowę dużej liczby małych, lokalnych repozytoriów danych dbając jedynie o ich przejrzystą dokumentację (w tym dokumentację prawną) oraz interoperacyjność i otwartość, by ograniczać koszta produkcji i zapewnić możliwość tworzenia nowych na podstawie wielu rozproszonych rozwiązań. Z perspektywy programisty nie jest dla mnie problemem, że narzędzia, które tworzę pobierają dane jednocześnie z czterech różnych portali. Problemem jest to, że dane zamknięte są w jednym portalu, który nie udostępnia ich na zewnątrz w postaci publicznego API. Nie jest dla mnie problemem, że jakieś ministerstwo publikuje dane w plikach excelowskich (choć wolałbym oczywiście otwarte formaty), problemem jest to, że ministerstwo chce te dane opublikować dopiero za trzy lata, kiedy zostaną już porządnie zsemantyzowane. Większość ludzi, którzy pracują „na froncie”, najczęściej potrzebuje jedynie podstawowej infrastruktury, by realizować swoje cele – nie jest im potrzebny kolejny centralny, gmach (czy weźmiemy w końcu na serio postulaty budowania platform?).
Wszytko to podsumował kiedyś jeden z moich znajomych mówiąc: „Opublikujcie te dane w dowolnej postaci i dajcie mojej fundacji te pieniądze, które wydacie na zbudowanie sieci semantycznej i systemu do publikacji tych danych. My wiemy, jak działać na rzecz zmiany społecznej i wiemy, do czego i komu te dane są potrzebne. Chodzi o udostępnianie danych po to, żeby ktoś ich używał, a nie budowanie wielkich repozytoriów, z których nikt nie będzie korzystał.”
Krzysztof Trzewiczek
* wyrażone w tekście opinie są prywatnym poglądem autora i nie są oficjalnym stanowiskiem Centrum Cyfrowego Projekt: Polska