Otwarte zasoby kultury a przemysł trenowania sztucznej inteligencji – podsumowanie rozmowy

#Otwarta kultura

Z okazji Dnia Domeny Publicznej porozmawialiśmy z ekspertami i ekspertkami o nowych wyzwaniach i możliwościach Otwartej Kultury, które pojawiły się wraz z rozwojem narzędzi AI – podsumowanie i kluczowe wnioski ze spotkania.

Anna Green-Szałas Specjalistka ds. Otwartej Kultury i komunikacji

Większość z nas korzysta już z narzędzi sztucznej inteligencji, np. pytając chatbota AI o fakty historyczne lub prosząc o wygenerowanie obrazu „w stylu van Gogha”. Modele te czerpią swoją wiedzę między innymi z naszego wspólnego dziedzictwa – cyfrowych kolekcji muzeów, bibliotek, archiwów. Utwory z domeny publicznej są więc cennym zasobem nie tylko dla indywidualnych odbiorców (badaczy, nauczycieli, pasjonatów), ale stanowią też bazę wysokiej jakości danych treningowych, dzięki którym najnowsze technologie mogą się rozwijać.

To oznacza jednak ogromny wzrost eksploatacji, a więc i kosztów ponoszonych przez cyfrowe mediateki kultury i nauki, często finansowanych z publicznych środków. Za cyfrowymi kolekcjami stoi bowiem ogrom infrastruktury: serwerów, ekspertów i ekspertek przeprowadzających procesy digitalizacji, opracowania merytorycznego obiektów, udostępniania i bieżącego utrzymania technicznego. Pojawia się też nowa rola tych zasobów (i ludzi ich tworzących) jako strażników autentyczności i zweryfikowanych treści w internecie zalewanym przez materiały wygenerowane za pomocą AI.

Poniżej przedstawiamy podsumowanie i kluczowe wnioski z rozmowy, którą mieliśmy przyjemność zorganizować z okazji corocznych obchodów Dnia Domeny Publicznej – „Otwarte zasoby kultury a przemysł trenowania sztucznej inteligencji”. Nagranie jest już dostępne na naszym YouTube.

W rozmowie udział wzięli:

dr Zbigniew Okoń – radca prawny, partner kancelarii Lubasz i Wspólnicy,
Marcin Dąbrowski – jeden z liderów projektu Obywatel Bielik AI,
Karolina Tabak – kierowniczka Działu Projektów Cyfrowych w Muzeum Historii Polski, oraz
dr Alek Tarkowski – dyrektor ds. strategii w Fundacji Open Future.
Rozmowę poprowadziła Maria Drabczyk – prezeska Fundacji Centrum Cyfrowe, członkini zarządu Stowarzyszenia COMMUNIA.

Zobacz nagranie z webinaru

Wzrost ruchu, ale jeszcze bez ograniczeń

Karolina Tabak (Muzeum Historii Polski) podzieliła się uderzającymi danymi: prowadzony przez MHP serwis BazHum (Baza Czasopism Humanistycznych) odnotował skok z 500 do ok. 17–18 000 odwiedzin dziennie, generowanych głównie przez boty z USA, Singapuru czy Japonii. Masowo pobierają one pliki PDF z warstwą OCR, stanowiące „świetną pożywkę” dla modeli językowych. Kiedyś misją instytucji kultury była całkowita otwartość – udostępnianie wszystkiego każdemu bez pytań „po co?”. Dziś pojawia się potrzeba monitorowania tego ruchu. Wiele publicznych instytucji (w tym MHP) obecnie go nie blokuje, jednak wiąże się on z kosztami eksploatacyjnymi.

Pojawiają się też nowe wyzwanie – instytucje kultury chcą pozostać wiarygodnym źródłem zweryfikowanej wiedzy. Jednak gdy dane opuszczają serwery i zostają „przemielone” przez modele sztucznej inteligencji i komercyjne algorytmy Big Techów, instytucja traci kontrolę nad zniekształceniem faktów czy historycznych wizerunków. Może to utrudniać realizację publicznej misji muzeów czy archiwów (chociażby poprzez wzrost potrzeby prostowania dezinformacji). Brak kontroli nad danymi jest też wyzwaniem w kontekście zasobów, które zawierają dane wrażliwe czy osobowe – Karolina Tabak podzieliła się tu przykładem ogólnopolskiego repozytorium historii mówionej, które ma powstać w najbliższych latach. Mechanizmy blokowania lub ograniczania dostępu dla botów mogą okazać się tu niezbędne, by chronić prywatność osób dzielących się swoimi wspomnieniami.

Polskie AI potrzebuje polskiego kontekstu

Marcin Dąbrowski (projekt Obywatel Bielik) zauważył, że zagraniczne modele AI są jak obcokrajowcy, którzy może świetnie poznali język polski, ale nie rozumieją naszych kodów kulturowych. (Nie wiedzą na przykład, że „bardziej polską” odpowiedzią na „co słychać” nie jest „wszystko w porządku, dziękuję”, a raczej – „stara bieda”.) To sprawia, że ich odpowiedzi bywają „puste” lub nieadekwatne do naszej rzeczywistości – a więc potencjalnie niewystarczające dla polskich użytkowników i użytkowniczek.

Tu niezwykle cenne właśnie cyfrowe zasoby instytucji kultury i dziedzictwa. Jednocześnie, jak wybrzmiało w czasie naszej rozmowy, organizacje te nie mogą być tylko biernymi „dawcami danych”. Jak wskazał dr Alek Tarkowski (Fundacja Open Future i jeden z założycieli Centrum Cyfrowego), jednym z możliwych rozwiązań jest aktywne włączenie instytucji kultury w tworzenie modeli AI, dzięki czemu będą mogły zarazem stać na straży jakości i kontekstu. Przywołał tu też model Wikipedii – oferowanie technicznych „furtek” (API), które pozwalają kontrolować masowy ruch komercyjny, zachowując jednocześnie pełną otwartość dla użytkowników indywidualnych i nauki.

Tworzenie modeli AI może też angażować szersze społeczeństwo. Opisy danych w ramach projektu Obywatel Bielik tworzone są przez wolontariuszy, a powstałe w wyniku tej pracy repozytorium jest publiczne – mogą z niego korzystać naukowcy, start-upy i instytucje publiczne. Pokazuje to, że współpraca instytucji kultury z twórcami modeli AI może być nie tylko w pełni świadoma i poprzedzona odpowiednimi zapytaniami o zgodę, ale też obopólnie korzystna. Przykładem współpracy, w której „wszyscy wygrywają”, jest przywołana przez Marcina Dąbrowskiego partnerstwo Bielik AI z Narodowym Archiwum Cyfrowym (NAC): dzięki dostępowi do zasobów tworzony przez nich model zyskał cenne informacje o kontekście polskiej kultury i tradycji, a z kolei część przepastnych zasobów NAC mogła zostać uzupełniona o opisy, które wspierają wymaganą ustawowo dostępność cyfrową (np. dla osób niewidomych) oraz wyszukiwanie obiektów. Bielik.AI pełnił tu rolę wspomagającą – wstępnie opisując materiały, co znacznie przyspiesza pracę specjalistów, którzy weryfikują treści przed publikacją. To gwarantuje najwyższą jakość – szczególnie istotną w ww. kontekście instytucji jako „strażników wiarygodności”.

Alek Tarkowski podkreślił też, że nie powinniśmy postrzegać AI jedynie jako zagrożenia czy „złodzieja danych”. Jego zdaniem modele AI stają się nowym sposobem wyrażania i doświadczania naszej kultury – lecz jeśli instytucje dziedzictwa nie włączą się aktywnie w ten proces, to modele będą tworzone przez programistów czy udziałowców, którzy w pogoni za rozwojem i wydajnością mogą przeoczyć lub zignorować istotne kwestie społeczne, etyczne i kulturowe.

Prawo musi wspierać otwartość

Dr Zbigniew Okoń (partner w kancelarii Lubasz i Wspólnicy) zwrócił uwagę na istotny problem: polska implementacja unijnych przepisów o prawie autorskim (dyrektywa DSM) jest w pewnych obszarach bardziej ograniczająca, niż musi być. Dotyczy przede wszystkim sposobu sformułowania wyjątku dotyczącego eksploracji tekstów i danych (TDM) dla celów badawczych, z warunkiem braku jakiejkolwiek korzyści majątkowej. Stawia to polskie podmioty badawcze w trudniejszej sytuacji przy tworzeniu otwartych rozwiązań. Na przykład implementacje z Francji i Niemiec dopuszczają szersze spektrum działań – w tym takie, w których zysk jest reinwestowany lub które odbywają się w ramach partnerstw publiczno-prywatnych (o ile dostęp do treści jest niedyskryminujący).

Jednocześnie zwrócił uwagę, że dyskusja o rekompensatach dla indywidualnych twórców jest trudna – przy miliardach danych jednostkowe wypłaty byłyby groszowe i kosztowniejsze w obsłudze, niż sama ich wartość (choć, jak zauważył tu Alek Tarkowski, wynagrodzenie twórców idące za ugodą z firmą Anthropic – rzędu ok. 3000 USD na osobę – było znaczne).

Wierzymy, że regulacje powinny chronić interes publiczny – ułatwiać wykorzystanie danych w celach naukowych, oraz umożliwiać zachowanie równowagi między przemysłowym użytkiem, a kosztami ponoszonymi przez twórców lub instytucje udostępniające swoją ekspertyzę i infrastrukturę.

Kluczowe wnioski

Kwestia cyfrowej transformacji instytucji kultury nie obejmuje już „tylko” digitalizacji i publikacji opracowanych obiektów w repozytorium, ale przede wszystkim bardzo świadome zarządzanie tym, kto i w jaki sposób z tych danych korzysta.

Narzędzia oparte o sztuczną inteligencję mogą znakomicie poszerzyć dostęp do kultury i dziedzictwa, wzmocnić i poszerzyć pole badań wokół niej, a nawet ukształtować nowe środki wyrazu. Aby jednak zminimalizować ryzyko towarzyszące tej szansie, niezbędna jest inwestycja w kompetencje cyfrowe pracowników tego sektora, szczególnie w zakresie zarządzania ogromnymi zbiorami danych.

Instytucje powinny stać się pełnoprawnymi partnerami dla producentów narzędzi AI (czy innych nowych technologii), a nie tylko zapleczem z „contentową pożywką”. Konieczny jest dialog między światem technologii a instytucjami, aby uniknąć „technokratycznego” podejścia i zadbać o zachowanie polskiego dziedzictwa i kontekstu w cyfrowej przyszłości.

Wszystko to musi być wspierane szerszą edukacją zarówno pracowników sektora kultury i dziedzictwa, jak i szerszego społeczeństwa o tym, jak zachować „bezpieczeństwo i higienę pracy” z narzędziami AI: weryfikować wygenerowane informacje, oceniać wiarygodność źródeł czy zadbać o bezpieczeństwo swoich danych. Otwartość danych w połączeniu z obywatelskim zaangażowaniem to najsilniejsza broń w walce o technologię, która jest inkluzywna i wspierająca społeczeństwo.