Skala i sposoby wykorzystania licencji Creative Commons w Polsce. Analiza wykorzystania licencji na stronach WWW.

W 2013 roku przeprowadziliśmy eksperymentalne indeksowanie zasobów polskiego internetu. Naszym podstawowym celem było zmierzenie skali wykorzystania licencji Creative Commons. Liczba treści na licencjach CC jest podstawową miarą rozwoju ruchu wolnej kultury. W rezultacie uzyskaliśmy też bogatą próbę stron udostępnianych na licencji CC bądź zawierających treści na tej licencji. Pozwoliła ona na analizę sposobów i poprawności informacji prawnoautorskich dotyczących licencji CC.

Mimo upływu czasu od chwili realizacji badania jesteśmy przekonani, że dane badawcze dostarczają przydatnej wiedzy na temat stosowania licencji CC w Polsce. Jego podstawową zaletą jest oparcie się na empirycznej analizie wykorzystania licencji CC, przeprowadzonej na dużej próbie stron WWW.

Analiza została przeprowadzona w oparciu o listę stron WWW zawierających frazę “Creative Commons”, zindeksowanych przez robota internetowego (web crawler) w październiku-listopadzie 2013 roku. Zindeksowane zostało 19,6 milionów stron WWW (pojedynczych dokumentów HTML), w ramach 735 tysięcy domen internetowych, które zostały zidentyfikowane jako polskojęzyczne.

Skala wykorzystania licencji CC w polskim internecie

Podstawowym wynikiem naszego badania były dane o skali wykorzystania licencji CC w polskim internecie. Ograniczeniem były trudności ze zdefiniowaniem pełnego zbioru polskich stron WWW – co uniemożliwia podanie faktycznej liczby polskich stron (lub ogólniej treści) na licencji CC. Operując jednak bardzo dużą próbą 19,6 milionów stron możemy z dużym prawdopodobieństwem oszacować procentowy udział takich stron. 1,25% stron zawiera frazę “Creative Commons”, a odnośnik do stron z pełną treścią jednej z licencji CC zawiera 0,68% stron. Analogicznie frazę zawiera 0,48% domen, a odnośnik do licencji 0,22% domen. (Różnica w wynikach wiąże się z tym, że czasem jedna domena zawiera więcej niż jedną stronę na licencji CC). Przyjmujemy umownie, zaokrąglając wyniki, że na licencjach CC jest udostępnianych około 1% wszystkich treści online.

 

Strony internetowe udostępnione na jednej z licencji Creative Commons

Podstawowym wymogiem przy licencjonowaniu treści na licencji CC jest umieszczenie informacji licencyjnej. Sprawdziliśmy więc sposób prezentowania tych informacji na stronie. 70% domen stosujących licencje CC umieszcza informacje o wybranej licencji Creative Commons w stopce strony.

60% domen oznacza treści licencją poprzez podanie nazwy lub symbolu konkretnej licencji oraz odnośnika do strony z pełną treścią licencji. To dobry wynik, sugerujący wysoką skalę zrozumienia sposobu licencjonowania CC w tej grupie. Jednak aż 20% stron popełnia podstawowy błąd, jakim jest nie wskazanie konkretnej licencji, która została wykorzystana.

Najczęściej wykorzystywaną licencją Creative Commons, w prawie 1/4 przypadków, była BY-SA (uznanie autorstwa – na tych samych warunkach) wykorzystywana również przez Wikipedię. Niewiele rzadziej wybierano najbardziej restrykcyjne licencje BY-NC-SA (uznanie autorstwa – wykorzystanie niekomercyjne – na tych samych warunkach) i BY-NC-SA (uznanie autorstwa – wykorzystanie niekomercyjne – bez utworów zależnych) oraz równocześnie podstawową, najbardziej liberalną, jedynie z warunkiem uznania autorstwa (BY). Ciekawe, że cztery najpopularniejsze w polskim internecie licencje Creative Commons są najmniej i najbardziej restrykcyjne. Warto też odnotować, że prawie 50% stron jest dostępnych na jednej z dwóch wolnych licencji (CC BY lub CC BY-SA).

 

Strony internetowe z treściami udostępnianymi na licencjach Creative Commons

Przeważającą część treści udostępnianych na licencjach CC stanowią zdjęcia (49%). Kolejne kategorie są udostępniane dużo rzadziej. 12% to Ebooki i pliki tekstowe (zazwyczaj w formacie PDF), a 11% to teksty publikowane bezpośrednio na stronie, np. posty na blogu.

Jednym z powodów takiej sytuacji jest rola największych platform, które udostępniają zdjęcia na licencjach CC, które są potem wykorzystywane na innych stronach. Flickr czy Wikimedia Commons dają możliwość lub wymuszają udostępnienie na wybranej (Flickr) lub konkretnej (Wikimedia Commons) licencji CC. ⅔ analizowanych treści nie zostało wytworzone przez autorów poszczególnych stron internetowych, a pobrane z innych źródeł. Najczęstszym źródłem był właśnie Flickr. Nawet, gdy pod zdjęciem brakowało informacji o licencji Creative Commons, znajdowała się ona w metadanych zdjęcia i właśnie w ten sposób została zindeksowana przez internetowego robota.

1/3 treści na licencjach Creative Commons została wytworzona przez autorów analizowanych stron WWW.

Podobnie jak przy okazji całych stron internetowych udostępnionych na CC, rozpowszechniane treści posiadają najczęściej zarówno informację o warunkach licencji oraz odnośnik do strony z pełną treścią licencji. Skala jest jednak mniejsza – w przypadku stron internetowych to ponad 60%, a w przypadku treści tylko nieco ponad 40%.

 

Systematyczne czy incydentalne wykorzystywanie licencji Creative Commons

243 544 strony dostępne na licencji CC bądź zawierające treści na tej licencji są nierównomiernie rozłożone pomiędzy domenami. 916 domen posiadało tylko jeden odnośnik związany z Creative Commons, 825 domen posiadało od 2 do 49 linków na stronie. To jeden z ważniejszych wniosków niniejszego badania. Korzystanie z licencji Creative Commons okazuje się być w połowie przypadków zachowaniem incydentalnym albo nawet jednorazowym. Należy przy tym wziąć pod uwagę, że licencjonowane treści to bardzo często zdjęcia i grafiki, te zaś są w przeważającej mierze pobierane z największych serwisów ze zdjęciami i grafikami (takich jak Flickr oraz Wikimedia Commons). Treści ze wspomnianych portali posiadają informacje o CC w metadanych, a przy kopiowaniu na własną stronę internetową automatycznie zostaje pobrany podpis oraz odnośnik do strony Creative Commons. Mogą być zindeksowane przez roboty internetowe, ale użytkownicy mogą nawet nie wiedzieć, że korzystają z utwory na licencji CC.

 

Wnioski  i rekomendacje

Nasze badanie potwierdziło empirycznie przyjmowaną powszechnie skalę dostępności treści na licencjach Creative Commons – około 1% wszystkich treści. Ten relatywnie mały poziom oznacza ogromną ilość treści dostępnych na wolnych licencjach. Jest również wynikiem, co istotne, świadomej decyzji osób, które decydują się udostępniać treści inaczej niż na działającej automatycznie regule „pełne prawa zastrzeżone”. Istotnym wnioskiem jest również to, że połowa treści jest dostępna na jednej z dwóch wolnych licencji: CC Uznanie autorstwa albo CC Uznanie autorstwa – Na tych samych warunkach.

Kluczowe wnioski z analizy dotyczą sposobów udostępniania treści. 60% wszystkich treści jest prawidłowo oznaczonych – zawierają pełną nazwę licencji wraz ze wskazanymi warunkami oraz odnośnik do strony z tekstem licencji. To pozytywny wynik, świadczący o tym, że osoby decydujące się na udostępnianie treści na licencjach CC mają relatywnie wysoki poziom wiedzy prawnoautorskiej. Równocześnie, pozostałe przypadki obejmują jednak sytuacje, w których treści są – na różne sposoby – niepoprawnie oznaczane. Znaczącą rolę może więc odegrać dalsza edukacja i podnoszenie świadomości poprawnego wykorzystywania licencji CC.

W przypadku wykorzystywania cudzych treści, dostępnych na licencjach CC, poziom poprawnych oznaczeń spada do 40%. To istotny wynik, wskazujący, że osoby, które same nie udostępniają treści dużo słabiej rozumieją zasady stosowania tego rodzaju licencji. Wiąże się to z faktem, że wykorzystywanie treści na licencjach CC jest często zachowaniem jednorazowym i incydentalnym.

Ważnym wynikiem są też dane o dominującej roli zdjęć jako treści udostępnianych i wykorzystywanych na licencjach CC. Istotną rolę w przypadku zdjęć odgrywają duże platformy internetowe, takie jak Wikimedia Commons i Flickr. Ich wyraźny wpływ na wykorzystywanie zdjęć na licencjach CC przez internautów wskazuje na dużą rolę, jaką może odgrywać wprowadzanie licencjonowania CC jako funkcjonalności kluczowych serwisów internetowych.

Dalsze badania powinny wyjść poza ilościową analizę stosowania licencji CC, by móc odpowiedzieć na pytania dotyczące motywacji osób udostępniających i wykorzystujących treści, także odnośnie wybieranej licencji.

 

Pełna wersja raportu z badań (PDF)

Komunikat z badań w wersji angielskiej (PDF)