Eksploracja tekstu i danych – bariery prawne w Europie i Polsce

Analiza danych towarzyszy ludzkości od setek tysięcy lat. Początkowo dostęp do niewielkich zbiorów informacji (tekstu i danych) dawał możliwość mniej lub bardziej dokładnej interpretacji otaczających nas zjawisk. Rozwój technologii i innowacyjnych rozwiązań spowodował, że codziennie dzięki interakcji milionów osób oraz sprzętów tworzymy i przekazujemy miliony bajtów informacji niemal bez przerwy. Jednocześnie pojawiły się możliwości automatyzacji procesów analizy tekstu i danych – pozyskiwania, wyszukiwania, indeksowania i przetwarzania informacji w formacie cyfrowym na konkretną wiedzę.

Te zautomatyzowane procesy, określane jako eksploracja tekstu i danych (text and data mining – TDM) mają wiele codziennych zastosowań zarówno w biznesie, jak i nauce. Dla przykładu analiza danych z jeden strony umożliwia operatorom telekomunikacyjnym przewidywanie, czy klienci chcą od nich odejść albo czy dopuszczają się nadużyć. Zastosowanie może być też zgoła inne – techniki te są wykorzystywane do przyspieszania diagnostyki chorób i rozprzestrzeniania się wirusów. Opracowany przez Google Flu Trends model rozprzestrzeniania się grypy pozwalał przewidzieć przenoszenie się wirusa nie tylko w poszczególnych stanach, ale także w miastach. W chwili obecnej techniki TDM wykorzystywane są także do prowadzenia badań nad wirusem ZIKA. Jak działa TDM w praktyce można zobaczyć na krótkim filmie ContentMine, które stworzyło otwarte narzędzie pozwalające na przeszukiwanie setek tysięcy dostępnych artykułów naukowych dostarczających informacji na temat tej groźnej choroby.

 

Pomimo, że komputerowa analiza danych sięga swoich początków do lat ‘80, to rozwój technik TDM nastąpił dopiero niedawno. Stało się to możliwe przede wszystkim w związku z poprawą możliwości obliczeniowych sprzętu, niskimi kosztami przechowywania danych i wzrostem  szybkości transmisji danych. W ostatnich latach obserwujemy ciągły wzrost zainteresowania tymi technikami, nie tylko ze względu na obniżenie barier technicznych, ale także ich coraz większy potencjał ekonomiczny i społeczny. Na drodze do czerpania z potencjalnych korzyści jakie niesie TDM istnieje jednak wiele barier nietechnologicznych, takich jak brak pewności prawnej co do legalności poszczególnych etapów analizy tekstu i danych.

Bariery prawne – kontekst europejski

Badając status prawny czynności związanych z eksploracją tekstu i danych pojawiają się problemy na styku różnych gałęzi prawa. Wkraczamy tu zarówno w przepisy dotyczące ochrony prawnoautorskiej, baz danych sui generis, ochrony prywatności czy ponownego wykorzystywania informacji sektora publicznego. Często dodatkowe bariery tworzone są przez samych “właścicieli” danych – ograniczenia w zautomatyzowanej analizie danych narzucane są w umowach z dostawcami czy producentami baz danych lub wprowadzane w drodze regulaminowych zakazów serwisów i stron internetowych.

W rezultacie brak wyraźnego dopuszczenia kwestii eksploracji tekstu i danych w przepisach europejskich prowadzi do powstania dużej niepewności prawnej dotycząca ewentualnych naruszeń. Zakres wyjątków przewidziany w prawie autorskim czy ochronie baz danych nie daje wystarczająco jasnej odpowiedzi na pytanie w jakim zakresie dozwolona jest taka eksploracja i wtórna analiza. Problemy te nie dotyczą tylko gospodarczego (komercyjnego) wykorzystania danych – te same wątpliwości powstają również w odniesieniu do badań naukowych czy działalności edukacyjnej. Dodatkowo, wyjątki dotyczące nauczania i prowadzenia badań naukowych przewidziane w dyrektywach unijnych nie są obowiązkowe, co powoduje, że niektóre kraje europejskie nie wdrożyły ich do prawa krajowego. Dlatego w warunkach jeszcze większego chaosu prawnego poruszają się naukowcy, którzy prowadzą badania w ramach współpracy międzynarodowej.

Prawne wyzwania związane z TDM w Polsce – ochrona prawa autorskiego

W kontekście ochrony prawa autorskiego należy wziąć pod uwagę ochronę na dwóch poziomach – zarówno poszczególnych utworów podlegających ochronie, których treść jest przedmiotem eksploracji, jak i zbiory czy bazy danych, które zwierają takie utwory. Pierwsze pytanie w związku z przepisami prawa autorskiego dotyczy tego, czy eksplorowany materiał będzie podlegał ochronie, czy nie. To determinuje, czy dana aktywność związana z prowadzoną eksploracją lub analizą potencjalnie narusza monopol posiadacza prawa autorskich. Należy przy tym zauważyć, że w kontekście prawa autorskiego eksploracja związana jest przede wszystkim z analizą tekstów. Coraz częściej jednak pojawiają się nowe możliwości eksploracji różnego typu utworów – muzyki, filmów czy grafik.

Rozważając możliwość ingerencji w prawa wyłączne należy zatem wziąć pod uwagę ewentualne naruszania zarówno związane z wyłącznym prawem do korzystania z utworu, jak i tworzenia modyfikacji w zakresie programów komputerowych i baz danych oraz prawa do korzystania z opracowania utworu pierwotnego. Jako, że już samo stworzenie kopii (zwielokrotnienie) może być traktowane jako wkroczenie w monopol twórcy powstaje dużo pytań związanych z procesem eksploracji tekstu i danych, którego niektóre etapy mogą wymagać takich działań. Ze względu na możliwość powstawania trwałych kopii na poszczególnych etapach procesu TDM, trudno tu powoływać się na jedyny obligatoryjny w krajach członkowskich wyjątek dotyczący możliwości tymczasowego zwielokrotnienia, o charakterze przejściowym lub incydentalnym przewidziany w prawie autorskim.

Zakres pozostałych wyjątków prawa autorskiego, pomimo, że zapewniają one dość szerokie możliwości korzystania z utworów bez konieczności uzyskiwania zgody autora, również nie daje jasnej odpowiedzi na pytanie, czy i do jakiego stopnia eksploracja jest legalna. Niektóre z aktywności mogą być jednak dozwolone w związku z takimi przepisami jak dozwolony użytek edukacyjny i naukowy, osobisty czy prawo cytatu.

Ochrona baz danych sui generis

Jeszcze więcej wątpliwości pojawia się na gruncie przepisów o ochronie baz danych , które chronią zbiory niezależnych danych lub jakichkolwiek innych materiałów i elementów zgromadzonych według określonej systematyki i metody, indywidualnie dostępnych w jakikolwiek sposób, w tym środkami elektronicznym i wymagające istotnego, co do jakości lub ilości, nakładu inwestycyjnego w celu sporządzenia, weryfikacji lub prezentacji jego zawartości. Wciąż pozostaje niejasne, czy w konkretnej sytuacji wymagania te są spełnione. Wiele zbiorów danych na których dokonuje się eksploracji może pozostać poza zakresem ochrony np. ze względu na brak istotnego nakładu inwestycyjnego.

Producentowi bazy danych przysługuje wyłączne prawo pobierania danych i wtórnego ich wykorzystania w całości lub w istotnej części, co do jakości lub ilości i może zakazać podejmowania takich czynności innym osobom, chyba że uzyskają one od niego zgodę (licencję). Istnieją jednak w tym aspekcie dwa wyjątki mogące mieć wpływ na eksplorację tekstu i danych. W ramach tzw. dozwolonego użytku producent nie może zabronić użytkownikowi korzystającemu zgodnie z prawem z takiej bazy danych pobierania lub wtórnego wykorzystania w jakimkolwiek celu nieistotnej, co do jakości lub ilości, części jej zawartości. Drugim ważnym wyjątkiem jest możliwość korzystania z istotnej, co do jakości lub ilości, części takiej bazy, z zastrzeżeniem jednak, że taka baza będzie wykorzystana w charakterze ilustracji, w celach dydaktycznych lub badawczych, jeśli takie wykorzystanie jest uzasadnione niekomercyjnym celem. Żaden z nich nie daje jednak całkowitej pewności w odniesieniu do legalności wszystkich aspektów automatycznej analizy danych.

Ochrona danych osobowych i re-use informacji sektora publicznego

Nie bez znaczenia dla możliwości eksploracji tekstu i danych pozostają także przepisy o ochronie danych osobowych. Polska ustawa o ochronie danych osobowych zapewnia wysoki poziom ochrony prywatności i nakładaja duże ograniczenia dotyczące zbierania i wykorzystywania danych osobowych. Natomiast wyjątki dotyczące możliwości przetwarzania danych w celach naukowych ograniczane są prawie polskim do konieczności spełnienia łącznie kilku warunków takich jak na przykład uzyskanie zgody osoby, której dane dotyczą lub poinformowanie jej o celu zbierania danych.

Natomiast potencjalnym sprzymierzeńcem w zakresie eksploracji tekstu i danych mogłyby być przepisy dotyczące ponownego wykorzystywania informacji sektora publicznego (re-use), obecnie nowelizowane w prawie polskim. Klasyfikacja, grupowanie czy ustalanie wzajemnych zależności między informacjami tworzone przez podmioty publiczne mogą stanowić ogromne źródło wiedzy dla naukowców. Niestety praktyka stosowania prawa wskazuje na liczne trudności z jakimi muszą zmierzyć się podmioty chcące uzyskać dostęp i możliwość ponownego wykorzystywania informacji sektora publicznego. Nie zanosi się na także na to, że nowa ustawa zmieni coś w tym zakresie.

Projekt FutureTDM – w poszukiwaniu najlepszych rozwiązań dla przyszłości TDM

Bez wątpienia ograniczenia możliwości eksploracji tekstu i danych, szczególnie przez naukowców znacznie spowolniłoby rozwój nauki. Na chwilę obecną narzędzia pozwalające na automatyczną analizę danych są niezastąpione w wydobywaniu wiedzy ze zbiorów danych w różnorodnej formie (tekstów, liczb, obrazów czy plików audio), których rozmiar i złożoność wciąż rośnie. W ramach projektu FutureTDM wraz z partnerami z kilku krajów europejskich staramy się zidentyfikować przeszkody, które stoją na drodze dla pełnego wykorzystania potencjału jaki daje TDM. Efektem naszych prac będą rekomendacje na poziomie europejskim. Jako Centrum Cyfrowe wspieramy ekspertów z The Institute for Information Law (IViR) w prowadzeniu analizy prawnej barier dla wykorzystania eksploracji tekstu i danych w krajach europejskich. Wkrótce na blogu będziemy informować o wynikach analizy i wypracowanych w tym zakresie rekomendacjach.

flag_yellow_low
 This project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant greement No 665940.
  • Piotr Arak

    TDM to nie jest super technika. Przetwarzając śmieci ma się tylko szum, a nie wyniki warte interpretacji. Google Flu Trends okazały się słabe in the long run: https://hbr.org/2014/03/google-flu-trends-failure-shows-good-data-big-data/

    • Katarzyna Strycharz

      Dzięki za komentarz. Nadal myślę jednak, że TDM jako narzędzie analizowania dużych zbiorów danych daje spory potencjał do rozwoju tak nauki, jak i gospodarki. Zostało to już całkiem dobrze opisane w raportach mówiących o Open Data, czy o wartości Informacji Sektora Publicznego. Poza tym nie widzę zbytnio innego rozwiązania dla analizy tak dużych, wciąż rosnących i nieuporządkowanych zbiorów danych. Choć oczywiście racja – jak się robi to źle, to wyniki są złe. Sęk w tym żeby robić to dobrze – a że jesteśmy na początku drogi, to pewnie błędy będą widoczne (dzięki za link do artykułu HBR).

      I oczywiście masz rację mówiąc, że warunkiem robienia tego dobrze jest dostępność danych. Zgadzam się też, że dane statystyczne powinny być dostępne, ale tu właśnie wchodzimy w temat ponownego wykorzystywania informacji sektora publicznego i już nawet nie samych przepisów. W wielu przypadkach to kwestia tego, że podmioty publiczne zwyczajnie nie chcą się dzielić informacjami do ponownego wykorzystywania.

      • Piotr Arak

        Nie no TDM ma potencjał i jest w ogóle świetny – ale do predykcji na tej podstawie daleka droga. To co jest trudne jednak to rozróżnienie w polskim prawodawstwie informacji statystycznej i publicznej. Baza zanonimizowanych danych GUS np. Badania Aktywności Ekonomicznej Ludności nie jest informacją publiczną i nie podlega też udostępnianiu przez GUS. Kończy się to tym, że np. Departament Polityki Rynku Pracy w Ministerstwie Rodziny, Pracy i Polityki Społecznej nie ma do niej dostępu.

  • Klaudia Nowak

    Dziękuję za merytoryczny wpis:) Ciekawym zagadnieniem jest ochrona znaków towarowych, ściśle związana z prawem autorskim, ale wiadomo, że najpełniejsza ochrona znaku towarowego jest wtedy, gdy zastrzeże się go w odpowiednim urzędzie http://jakzastrzecnazwefirmy.pl/jak-zabezpieczyc-nazwe-firmy/
    Pozdrawiam:)

O ile nie jest to stwierdzone inaczej, wszystkie materiały na stronie są dostępne na licencji Creative Commons Uznanie Autorstwa 4.0. Pewne prawa zastrzeżone na rzecz Centrum Cyfrowego.
Creative Commons License

Centrum Cyfrowe Projekt:Polska, ul. Andersa 29, 00-159 Warszawa, kontakt@centrumcyfrowe.pl

Centrum Cyfrowe jest częścią Fundacji Projekt: Polska.

Projekt Polska

Nasi partnerzy

 

Należymy do:
logo koalicji otwartej edukacji  Member of The Internet Defense League
logo koalicji Copyright For Creativity       logo koalicji stowarzyszenia communiaofop_logo