Eksploracja tekstu i danych – piguÅ‚ka wiedzy #3
Prezentujemy kolejnÄ… publikacjÄ™ z serii „piguÅ‚ka wiedzy”, tym razem o eksploracji tekstów i danych (TDM). TDM jest szczególnie przydatny w badaniach naukowych i biznesie, ale nie tylko – jest pomocny wszÄ™dzie tam, gdzie praca polega na analizie wielkich zbiorów tekstów i danych. Dlatego też postulujemy,  że konieczne jest uregulowanie kwestii prawnych, promowanie publikowania danych w otwartych formatach i podniesienie Å›wiadomoÅ›ci spoÅ‚ecznej nt. korzyÅ›ci, jakie niesie TDM.Â
Pobierz pigułkę wiedzy w formacie PDF.
Eksploracja tekstu i danych
Text and data mining (TDM) to metoda komputerowej analizy tekstu i danych, odgrywająca coraz większe znaczenie w sferze badań i rozwoju. Tylko z pomocą takich metod możemy w pełni korzystać z ogromnych zasobów danych i tekstu, generowanych i dostępnych w cyfrowym świecie.
Dzięki TDM możemy tworzyć nowe leki, dokonywać odkryć naukowych czy tworzyć produkty lepiej dopasowane do indywidualnych potrzeb klientów. TDM to szansa na jeszcze lepsze wykorzystanie potencjału nowych technologii dla rozwoju gospodarczego. Jednak, aby w pełni wykorzystać potencjał jaki drzemie w TDM, należy:
- uregulować kwestie prawne, tak aby zagwarantować szeroki zakres dopuszczalnych metod oraz wyeliminować wątpliwości co do dopuszczalnych działań;
- promować publikowanie danych i treści w otwartych formatach, umożliwiających automatyczny odczyt i analizę;
- podnieść świadomość społeczną o korzyściach, jakie przynosi TDM, otwieranie i dzielenie się danymi oraz o sposobach w jakim można to robić.
1.  Dlaczego to zagadnienie jest ważne?
Dane rozumiane są dziś nie tylko jako liczby w tabelach czy suche fakty, ale też filmy, muzyka lub np. obrazy. Z kolei teksty to różnego rodzaju publikacje naukowe, ekspertyzy, opracowania czy artykuły. Tak dane, jak i teksty są dziś gromadzone przez instytucje publiczne, firmy, organizacje, ale też przez zwykłych ludzie pasjonujący się danym tematem. Często ze względu na ilość lub złożoność zawartych w nich informacji, nie jesteśmy w stanie sami ich zanalizować. Dlatego analiza wykonywana jest automatycznie – z wykorzystaniem komputerów i specjalnie do tego stworzonych algorytmów. TDM jest dziś wykorzystywany w instytutach badawczych, na uniwersytetach, w przedsiębiorstwach i instytucjach publicznych – idea jest jednak taka, aby każdy badacz mógł bez obaw analizować nie tylko swoje dane, ale przede wszystkim (i o to chodzi w TDM) dane dostępne z różnych zewnętrznych źródeł, w tym te publikowane w internecie.
2. Co to jest TDM?
TDM jest szczególnie przydatny w badaniach naukowych i biznesie, ale nie tylko – jest pomocny wszÄ™dzie tam, gdzie praca polega na analizie wielkich zbiorów tekstów i danych:
- TDM to postÄ™p w nauce. PrzykÅ‚adowo, w medycynie komputerowa analiza danych pomaga w leczeniu raka – m.in. poprzez obniżenie kosztów i upowszechnienie przeprowadzania peÅ‚nej analizy ludzkiego genomu. To szansa dla chorych na Parkinsona, bo dziÅ›, dziÄ™ki specjalnym urzÄ…dzeniom, można monitorować  parametry fizjologiczne pacjentów i od razu je analizować, tak aby wykryć symptomy i dostosować leczenie. TDM byÅ‚ też wykorzystywany przez naukowców w badaniach nad rozprzestrzenianiem siÄ™ groźnych wirusów: eboli, dengi i ostatnio wirusa ZIKA.  Z kolei Global Forest Watch analizuje dane tworzÄ…c interaktywne mapy celu monitorowania m.in. zmian klimatu wskutek deforestacji czy wpÅ‚ywu pożarów lasów na stan powietrza.
- TDM to szansa dla przedsiÄ™biorców.  TDM jest coraz częściej stosowany przez sektor technologiczny. DziÄ™ki analizie danych o klientach –  która nawet najlepszemu analitykowi zabraÅ‚aby mnóstwo czasu i energii, a algorytmowi kilka chwil – firmy mogÄ… lepiej dopasowywać oferty i ograniczać koszty. KiedyÅ› stworzenie odpowiednich algorytmów, które analizowaÅ‚yby dla nas dane byÅ‚o bardzo drogie, a ich wykorzystanie wymagaÅ‚o zaawansowanego i bardzo kosztownego sprzÄ™tu. DziÅ› proste programy do analizy danych, modelowania i optymalizacji sÄ… dostÄ™pne za darmo i nie wymagajÄ… superkomputerów, dlatego stać na nie niemal wszystkich. PrzykÅ‚adowo, miasta mogÄ… na podstawie danych o pasażerach usprawniać lokalnÄ… komunikacjÄ™, a dziÄ™ki danym o trasach przejazdu i iloÅ›ci wypożyczeÅ„, planować rozmieszczenie kolejnych stacji roweru miejskiego. Coraz częściej łączy siÄ™ dane z bardzo różnych źródeÅ‚, publicznych i prywatnych, takich jak np. The Weather Company. To najwiÄ™ksze na Å›wiecie prywatne przedsiÄ™biorstwo zajmujÄ…ce siÄ™ zagadnieniami zwiÄ…zanymi z pogodÄ…. Dziennie przygotowuje nawet 26 miliardów (!) spersonalizowanych prognoz, które trafiajÄ… do indywidualnych konsumentów i firm, w tym np. linii lotniczych, gdzie informacje pogodowe sÄ… kluczowe dla bezpieczeÅ„stwa pasażerów i efektywnoÅ›ci biznesu.
- TDM stymuluje innowacje. Testowanie wytrzymaÅ‚oÅ›ci nowych materiałów czy zaawansowane prognozowanie pogody – to wszystko jest możliwe wÅ‚aÅ›nie dziÄ™ki masowej analizie danych. W czerwcu 2016 roku na Uniwersytecie Warszawskim ruszyÅ‚ jeden z najnowoczeÅ›niejszych oÅ›rodków analizy danych. Zainstalowane tam superkomputery  analizujÄ… duże zasoby danych   w czasie rzeczywistym m.in. na potrzeby sektora energetycznego. Prowadzone tam projekty na styku biznesu i technologii dotyczÄ… m.in. projektowania ksztaÅ‚tu Å›migieÅ‚ turbin wiatrowych.
- Z TDM stykamy się wszyscy, choć nie zdajemy sobie z sprawy, jak bardzo ułatwia nam codzienne życie. Korzystając z wyszukiwarek w cyfrowych archiwach (komercyjnych, ale też niekomercyjnych jak np. POLONA lub NINateka) mamy do czynienia z niczym innym jak eksploracją tekstu. Nawet kiedy wpisujemy zapytanie w wyszukiwarkę internetową to przecież specjalny algorytm analizuje za nas zasoby sieci i na tej podstawie prezentuje wyniki.
3. Diagnoza – wyzwania zwiÄ…zane z TDM
Aby wykorzystać potencjał, jaki drzemie w TDM, trzeba zniwelować bariery, które utrudniają analizę danych i tekstu, dostępnych poprzez internet. Zmiany są potrzebne w następujących obszarach:
- kwestie prawno-autorskie, dotyczÄ…ce zasad korzystania z tekstu i danych – zwÅ‚aszcza jeÅ›li chodzi o zasoby dostÄ™pne w internecie.  Brak jasnoÅ›ci co do autorstwa i zasad na jakich te zasoby sÄ… udostÄ™pniane zniechÄ™cajÄ… do ich przetwarzania z obawy przed Å‚amaniem prawa. Dotyczy to nie tylko samych tekstów, ale również filmów, muzyki, grafik czy bazy danych. Niejasne sÄ… tutaj zasady samego korzystania z utworów jak i wprowadzania w nich modyfikacji czy kopiowania (np. Å›ciÄ…gania na dysk) – co ma kluczowe znaczenie, kiedy mowa o TDM. Problem majÄ… np. biblioteki, które nawet jeÅ›li majÄ… licencjÄ™ pozwalajÄ…cÄ… na dostÄ™p do komercyjnie bazy danych, nie mogÄ… na niej wykonywać TDM.
- ochrona baz danych – prawo dodatkowo chroni uporzÄ…dkowane zbiory danych, na których stworzenie poniesiony zostaÅ‚ istotny nakÅ‚ad inwestycyjny. W praktyce eksplorujÄ…c danÄ… bazÄ™ trudno stwierdzić, czy jest ona objÄ™ta ochronÄ… czy nie. Ponadto twórca bazy danych ma  wyłączne prawo pobierania danych i ich ponownego wykorzystania i może tego zabronić osobom trzecim. Jednak żaden z tych zapisów nie daje peÅ‚nej jasnoÅ›ci w kontekÅ›cie legalnoÅ›ci TDM.
- bariery techniczne w dostÄ™pie do danych – obecnie dane sÄ…  bardzo czÄ™sto publikowane w nieprzeszukiwalnych formatach i o zamkniÄ™tym dostÄ™pie  (np. format PDF dla plików tekstowych i danych liczbowych, skany dokumentów),  udostÄ™pniane sÄ… też bez wczeÅ›niejszego odpowiedniego przygotowania, co negatywnie wpÅ‚ywa na ich jakość (np. brak odpowiedniej struktury pliku, nieczyszczenie danych, brak ich weryfikacji). UdostÄ™pniane zasoby nie majÄ… też odpowiednich opisów, w tym metadanych.  Brakuje Å›wiadomoÅ›ci, że nie wystarczy plik udostÄ™pnić, trzeba to robić też w odpowiedniej formie (otwartej), tak aby można byÅ‚o z niego korzystać.
- dobre praktyki – brakuje wzorców, przykÅ‚adów udanych przedsiÄ™wzięć, które motywowaÅ‚yby do dzielenia siÄ™ danymi, ich analizowania i pokazywania korzyÅ›ci. DziaÅ‚ajÄ… takie portale jak np. danepubliczne.gov.pl, to jednak w Polsce nadal instytucje tak publiczne, jak i niepubliczne (przedsiÄ™biorstwa) unikajÄ… dzielenia siÄ™ informacjami i danymi. W administracji publicznej wciąż dominuje przekonanie, że nadmierna otwartość nie jest niczym dobrym. PrzedsiÄ™biorstwa z kolei wolÄ… nie opowiadać o tym, z jakich korzystajÄ… danych i jak to robiÄ…, dlatego że obawiajÄ… siÄ™ siÄ™ po pierwsze reakcji klientów, a po drugie utraty przewagi konkurencyjnej. Brakuje również wiedzy na temat tego, jak można wykorzystywać TDM, oraz że sÄ… do tego odpowiednie narzÄ™dzia, dostÄ™pne za darmo.
4. Rekomendacje
- Uporządkowanie kwestii prawno-autorskich, dotyczących zasad dostępu do tekstu i danych
- Zapewnienie swobody prowadzenia TDM z wykorzystaniem zasobów objÄ™tych prawem autorskim na potrzeby TDM – na przykÅ‚ad w ramach dozwolonego użytku, tak aby TDM mógÅ‚ być wykonywany bez zgody autora, nieodpÅ‚atnie i również do celów komercyjnych.
- Wolne licencje jako standard w przypadku zamawiania utworów przez instytucje publiczne. Postulujemy, by w przypadku publikowania zasobów publicznych zamówionych u zewnętrznych podmiotów (np. ekspertów spoza administracji)  standardem było wolne licencjonowanie (np. CC-BY bądź CC-BY-SA). To automatycznie umożliwi TDM danych publicznych i wyznaczy dobry kierunek. Rekomendujemy również określenie standardów zapewniających jasne oznaczanie stanu prawnego zasobów. W przypadku treści nieobjętych prawem autorskim rekomendujemy stosowanie opracowanego przez Creative Commons Oznaczenia Domeny Publicznej.
- UporzÄ…dkowanie kwestii zwiÄ…zanych z ochronÄ… baz danych
- potwierdzenie dopuszczalnoÅ›ci metod pozwalajÄ…cych na nieodpÅ‚atne wykorzystanie zasobów objÄ™tych prawem do baz danych na potrzeby TDM – na przykÅ‚ad w ramach dozwolonego użytku (jeÅ›li dane nie stanowiÄ… istotnej części zbioru, ani nie wiąże siÄ™ to z rażącym naruszeniem prywatnoÅ›ci), tak aby TDM mógÅ‚ być wykonywany bez zgody autora, nieodpÅ‚atnie i również dla celów komercyjnych.
- Likwidacja barier technicznych w dostępie do danych
- Jednolite standardy udostÄ™pniania – postulujemy upowszechnianie stosowania jednolitych standardów udostÄ™pniania danych i tekstu (np. Five Stars Open Data) które zawieraÅ‚yby wytyczne dotyczÄ…ce formatów plików. Celem jest, aby dane i teksty byÅ‚y publikowane w otwartych formatach dostÄ™pnych dla wszystkich i umożliwiajÄ…cych maszynowy odczyt.
Dodaj komentarz