Eksploracja tekstu i danych – piguÅ‚ka wiedzy #3

Prezentujemy kolejnÄ… publikacjÄ™ z serii „piguÅ‚ka wiedzy”, tym razem o eksploracji tekstów i danych (TDM). TDM jest szczególnie przydatny w badaniach naukowych i biznesie, ale nie tylko – jest pomocny wszÄ™dzie tam, gdzie praca polega na analizie wielkich zbiorów tekstów i danych. Dlatego też postulujemy,  że konieczne jest uregulowanie kwestii prawnych, promowanie publikowania danych w otwartych formatach i podniesienie Å›wiadomoÅ›ci spoÅ‚ecznej nt. korzyÅ›ci, jakie niesie TDM. 

nowoczesna_gospodarka_kolo

Pobierz piguÅ‚kÄ™ wiedzy w formacie PDF.

Eksploracja tekstu i danych

 

Text and data mining (TDM) to metoda komputerowej analizy tekstu i danych, odgrywajÄ…ca coraz wiÄ™ksze znaczenie w sferze badaÅ„ i rozwoju. Tylko z pomocÄ… takich metod możemy w peÅ‚ni korzystać z ogromnych zasobów danych i tekstu, generowanych i dostÄ™pnych w cyfrowym Å›wiecie.

DziÄ™ki TDM  możemy tworzyć nowe leki, dokonywać odkryć naukowych czy tworzyć produkty lepiej dopasowane do indywidualnych potrzeb klientów. TDM to szansa na jeszcze lepsze wykorzystanie potencjaÅ‚u nowych technologii dla rozwoju gospodarczego. Jednak, aby w peÅ‚ni wykorzystać potencjaÅ‚ jaki drzemie w TDM, należy:

  • uregulować kwestie prawne, tak aby zagwarantować szeroki zakres dopuszczalnych metod oraz wyeliminować wÄ…tpliwoÅ›ci co do dopuszczalnych dziaÅ‚aÅ„;
  • promować publikowanie danych i treÅ›ci w otwartych formatach, umożliwiajÄ…cych automatyczny odczyt i analizÄ™;
  • podnieść Å›wiadomość spoÅ‚ecznÄ… o korzyÅ›ciach, jakie przynosi TDM, otwieranie i dzielenie siÄ™ danymi oraz o sposobach w jakim można to robić.

1.   Dlaczego to zagadnienie jest ważne?

Dane rozumiane sÄ… dziÅ› nie tylko jako liczby w tabelach czy suche fakty, ale też filmy, muzyka lub np. obrazy. Z kolei teksty to różnego rodzaju publikacje naukowe, ekspertyzy, opracowania czy artykuÅ‚y. Tak dane, jak i teksty sÄ… dziÅ› gromadzone przez instytucje publiczne, firmy, organizacje, ale też przez zwykÅ‚ych ludzie pasjonujÄ…cy siÄ™ danym tematem. CzÄ™sto ze wzglÄ™du na ilość lub zÅ‚ożoność zawartych w nich informacji, nie jesteÅ›my w stanie sami ich zanalizować. Dlatego analiza wykonywana jest automatycznie – z wykorzystaniem komputerów i specjalnie do tego stworzonych algorytmów. TDM jest dziÅ› wykorzystywany w instytutach badawczych, na uniwersytetach, w przedsiÄ™biorstwach i instytucjach publicznych –  idea jest jednak taka, aby każdy badacz mógÅ‚ bez obaw analizować nie tylko swoje dane, ale przede wszystkim (i o to chodzi w TDM) dane dostÄ™pne z różnych zewnÄ™trznych źródeÅ‚, w tym te publikowane w internecie.

2. Co to jest TDM?

TDM jest szczególnie przydatny w badaniach naukowych i biznesie, ale nie tylko – jest pomocny wszÄ™dzie tam, gdzie praca polega na analizie wielkich zbiorów tekstów i danych:

  • TDM to postÄ™p w nauce. PrzykÅ‚adowo, w medycynie komputerowa analiza danych pomaga w leczeniu raka – m.in. poprzez obniżenie kosztów i upowszechnienie przeprowadzania peÅ‚nej analizy ludzkiego genomu. To szansa dla chorych na Parkinsona, bo dziÅ›, dziÄ™ki specjalnym urzÄ…dzeniom, można monitorować  parametry fizjologiczne pacjentów i od razu je analizować, tak aby wykryć symptomy i dostosować leczenie. TDM byÅ‚ też wykorzystywany przez naukowców w badaniach nad rozprzestrzenianiem siÄ™ groźnych wirusów: eboli, dengi i ostatnio wirusa ZIKA.  Z kolei Global Forest Watch analizuje dane tworzÄ…c interaktywne mapy celu monitorowania m.in. zmian klimatu wskutek deforestacji czy wpÅ‚ywu pożarów lasów na stan powietrza.
  • TDM to szansa dla przedsiÄ™biorców.  TDM jest coraz częściej stosowany przez sektor technologiczny. DziÄ™ki analizie danych o klientach –  która nawet najlepszemu analitykowi zabraÅ‚aby mnóstwo czasu i energii, a algorytmowi kilka chwil – firmy mogÄ… lepiej dopasowywać oferty i ograniczać koszty. KiedyÅ› stworzenie odpowiednich algorytmów, które analizowaÅ‚yby dla nas dane byÅ‚o bardzo drogie, a ich wykorzystanie wymagaÅ‚o zaawansowanego i bardzo kosztownego sprzÄ™tu. DziÅ› proste programy do analizy danych, modelowania i optymalizacji sÄ… dostÄ™pne za darmo i nie wymagajÄ… superkomputerów, dlatego stać na nie niemal wszystkich. PrzykÅ‚adowo, miasta mogÄ… na podstawie danych o pasażerach usprawniać lokalnÄ… komunikacjÄ™, a dziÄ™ki danym o trasach przejazdu i iloÅ›ci wypożyczeÅ„, planować rozmieszczenie kolejnych stacji roweru miejskiego. Coraz częściej łączy siÄ™ dane z bardzo różnych źródeÅ‚, publicznych i prywatnych, takich jak np. The Weather Company. To najwiÄ™ksze na Å›wiecie prywatne przedsiÄ™biorstwo zajmujÄ…ce siÄ™ zagadnieniami zwiÄ…zanymi z pogodÄ…. Dziennie przygotowuje nawet 26 miliardów (!) spersonalizowanych prognoz, które trafiajÄ… do indywidualnych konsumentów i firm, w tym np. linii lotniczych, gdzie informacje pogodowe sÄ… kluczowe dla bezpieczeÅ„stwa pasażerów i efektywnoÅ›ci biznesu.
  • TDM stymuluje innowacje. Testowanie wytrzymaÅ‚oÅ›ci nowych materiałów czy zaawansowane prognozowanie pogody – to wszystko jest możliwe wÅ‚aÅ›nie dziÄ™ki masowej analizie danych. W czerwcu 2016 roku na Uniwersytecie Warszawskim ruszyÅ‚ jeden z najnowoczeÅ›niejszych oÅ›rodków analizy danych. Zainstalowane tam superkomputery  analizujÄ… duże zasoby danych   w czasie rzeczywistym m.in. na potrzeby sektora energetycznego. Prowadzone tam projekty na styku biznesu i technologii dotyczÄ… m.in. projektowania ksztaÅ‚tu Å›migieÅ‚ turbin wiatrowych.
  • Z TDM stykamy siÄ™ wszyscy, choć nie zdajemy sobie z sprawy, jak bardzo uÅ‚atwia nam codzienne życie. KorzystajÄ…c z wyszukiwarek w cyfrowych archiwach (komercyjnych, ale też niekomercyjnych jak np. POLONA lub NINateka) mamy do czynienia z niczym innym jak eksploracjÄ… tekstu. Nawet kiedy wpisujemy zapytanie w wyszukiwarkÄ™ internetowÄ… to przecież specjalny algorytm analizuje za nas zasoby sieci i na tej podstawie prezentuje wyniki.
domena publiczna, https://commons.wikimedia.org/wiki/File:Coal-creek-mine-tn2.jpg

domena publiczna, https://commons.wikimedia.org/wiki/File:Coal-creek-mine-tn2.jpg

3. Diagnoza – wyzwania zwiÄ…zane z TDM

Aby wykorzystać potencjaÅ‚, jaki drzemie w TDM, trzeba zniwelować bariery, które utrudniajÄ… analizÄ™ danych i tekstu, dostÄ™pnych poprzez internet. Zmiany sÄ… potrzebne w nastÄ™pujÄ…cych obszarach:

  • kwestie prawno-autorskie, dotyczÄ…ce zasad korzystania z tekstu i danych – zwÅ‚aszcza jeÅ›li chodzi o zasoby dostÄ™pne w internecie.  Brak jasnoÅ›ci co do autorstwa i zasad na jakich te zasoby sÄ… udostÄ™pniane zniechÄ™cajÄ… do ich przetwarzania z obawy przed Å‚amaniem prawa. Dotyczy to nie tylko samych tekstów, ale również filmów, muzyki, grafik czy bazy danych. Niejasne sÄ… tutaj zasady samego korzystania z utworów jak i wprowadzania w nich modyfikacji czy kopiowania (np. Å›ciÄ…gania na dysk) – co ma kluczowe znaczenie, kiedy mowa o TDM. Problem majÄ… np. biblioteki, które nawet jeÅ›li majÄ… licencjÄ™ pozwalajÄ…cÄ… na dostÄ™p do komercyjnie bazy danych, nie mogÄ… na niej wykonywać TDM.
  • ochrona baz danych – prawo dodatkowo chroni uporzÄ…dkowane zbiory danych, na których stworzenie poniesiony zostaÅ‚ istotny nakÅ‚ad inwestycyjny. W praktyce eksplorujÄ…c danÄ… bazÄ™ trudno stwierdzić, czy jest ona objÄ™ta ochronÄ… czy nie. Ponadto twórca bazy danych ma Â wyłączne prawo pobierania danych i ich ponownego wykorzystania i może tego zabronić osobom trzecim. Jednak żaden z tych zapisów nie daje peÅ‚nej jasnoÅ›ci w kontekÅ›cie legalnoÅ›ci TDM.
  • bariery techniczne w dostÄ™pie do danych – obecnie dane sÄ… Â bardzo czÄ™sto publikowane w nieprzeszukiwalnych formatach i o zamkniÄ™tym dostÄ™pie  (np. format PDF dla plików tekstowych i danych liczbowych, skany dokumentów),  udostÄ™pniane sÄ… też bez wczeÅ›niejszego odpowiedniego przygotowania, co negatywnie wpÅ‚ywa na ich jakość (np. brak odpowiedniej struktury pliku, nieczyszczenie danych, brak ich weryfikacji). UdostÄ™pniane zasoby nie majÄ… też odpowiednich opisów, w tym metadanych.  Brakuje Å›wiadomoÅ›ci, że nie wystarczy plik udostÄ™pnić, trzeba to robić też w odpowiedniej formie (otwartej), tak aby można byÅ‚o z niego korzystać.
  • dobre praktyki – brakuje wzorców, przykÅ‚adów udanych przedsiÄ™wzięć, które motywowaÅ‚yby do dzielenia siÄ™ danymi, ich analizowania i pokazywania korzyÅ›ci. DziaÅ‚ajÄ… takie portale jak np. danepubliczne.gov.pl, to jednak w Polsce nadal instytucje tak publiczne, jak i niepubliczne (przedsiÄ™biorstwa) unikajÄ… dzielenia siÄ™ informacjami i danymi. W administracji publicznej wciąż dominuje przekonanie, że nadmierna otwartość nie jest niczym dobrym. PrzedsiÄ™biorstwa z kolei wolÄ… nie opowiadać o tym, z jakich korzystajÄ… danych i jak to robiÄ…, dlatego że obawiajÄ… siÄ™ siÄ™ po pierwsze reakcji klientów, a po drugie utraty przewagi konkurencyjnej. Brakuje również wiedzy na temat tego, jak można wykorzystywać TDM, oraz Å¼e sÄ… do tego odpowiednie narzÄ™dzia, dostÄ™pne za darmo.

4. Rekomendacje

  • UporzÄ…dkowanie kwestii prawno-autorskich, dotyczÄ…cych zasad dostÄ™pu do tekstu i danych
    • Zapewnienie swobody prowadzenia TDM z wykorzystaniem zasobów objÄ™tych prawem autorskim na potrzeby TDM – na przykÅ‚ad w ramach dozwolonego użytku, tak aby TDM mógÅ‚ być wykonywany bez zgody autora, nieodpÅ‚atnie i również do celów komercyjnych.
    • Wolne licencje jako standard w przypadku zamawiania utworów przez instytucje publiczne. Postulujemy, by w przypadku publikowania zasobów publicznych zamówionych u zewnÄ™trznych podmiotów (np. ekspertów spoza administracji)  standardem byÅ‚o wolne licencjonowanie (np. CC-BY bÄ…dź CC-BY-SA). To automatycznie umożliwi TDM danych publicznych i wyznaczy dobry kierunek. Rekomendujemy również okreÅ›lenie standardów zapewniajÄ…cych jasne oznaczanie stanu prawnego zasobów. W przypadku treÅ›ci nieobjÄ™tych prawem autorskim rekomendujemy stosowanie opracowanego przez Creative Commons Oznaczenia Domeny Publicznej.
  • UporzÄ…dkowanie kwestii zwiÄ…zanych z ochronÄ… baz danych
    • potwierdzenie dopuszczalnoÅ›ci metod pozwalajÄ…cych na nieodpÅ‚atne wykorzystanie zasobów objÄ™tych prawem do baz danych na potrzeby TDM – na przykÅ‚ad w ramach dozwolonego użytku (jeÅ›li dane nie stanowiÄ… istotnej części zbioru, ani nie wiąże siÄ™ to z rażącym naruszeniem prywatnoÅ›ci), tak aby TDM mógÅ‚ być wykonywany bez zgody autora, nieodpÅ‚atnie i również dla celów komercyjnych.
  • Likwidacja barier technicznych w dostÄ™pie do danych
    • Jednolite standardy udostÄ™pniania – postulujemy upowszechnianie stosowania jednolitych standardów udostÄ™pniania danych i tekstu (np. Five Stars Open Data) które zawieraÅ‚yby wytyczne dotyczÄ…ce formatów plików. Celem jest, aby dane i teksty byÅ‚y publikowane w otwartych formatach dostÄ™pnych dla wszystkich i umożliwiajÄ…cych maszynowy odczyt.

 

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Komentarz zostanie dodany po zatwierdzeniu przez administratora