Raport: AI mówi po polsku: przegląd rodzimych prac nad modelami językowymi

Przedstawiamy raport „AI mówi po polsku: przegląd rodzimych prac nad modelami językowymi”, którego autorami są Alek Tarkowski (Open Future), Kuba Piwowar (Centrum Cyfrowe) i Michał Owczarek (Uniwersytet SWPS).

Celem raportu jest przedstawienie case study polskiego ekosystemu tworzenia otwartych modeli AI dla języka polskiego. Są to małe modele językowe tworzone jako rozwiązania open source, tworzone w celu wypełnienia luki pozostawionej przez duże modele komercyjne, które nie są dostosowane do języka polskiego i polskiej specyfiki kulturowej. Prace nad tym modelami są przykładem skutecznego tworzenia alternatyw dla dominujących modeli.

Komercyjne modele fundacyjne są trenowane na ogromnych zbiorach danych, przy wykorzystaniu coraz większych mocy obliczeniowych, i w oparciu o wizję ciągłego skalowania technologii. Tworzenie dużych modeli językowych wymaga więc ogromnych nakładów finansowych, na które stać jedynie ogromne firmy, posiadające monopolistyczne pozycje na rynku cyfrowym. 

Mogłoby się więc wydawać, że oparta ekonomia tworzenia AI uniemożliwia powstanie alternatyw – czy to finansowanych ze środków publicznych, czy tworzonych przez mniejszych graczy komercyjnych. Jednak takie alternatywy powstają. Nowy paradygmat tworzenia małych modeli językowych oraz dostępność otwartych modeli podstawowych umożliwia tworzenia kolejnych modeli językowych – w szczególności takich, które adresują luki językowe w rozwoju generatywnego AI.

Niniejszy raport koncentruje się na dwóch kluczowych projektach: budowie korpusu językowego SpeakLeash oraz stworzeniu na jego podstawie modelu Bielik oraz działaniach konsorcjum PLLuM (Polish Large Language Model), którego celem jest stworzenie dużego modelu językowego odpowiadającego specyfice języka polskiego.

Raport oparty jest na rozmowach z twórcami polskich modeli, na podstawie których autorzy prześledzili proces ich powstawania, wyzwania, na które zwracają uwagę oraz wnioski, które udało się wypracować na podstawie dotychczasowych osiągnięć. 

O raporcie

Open Future to europejski think tank skupiający się na nowych podejściach do tworzenia otwartego Internetu, które maksymalizują korzyści społeczne wynikające ze współdzielenia danych, wiedzy i kultury.

Fundacja Centrum Cyfrowe to think-and-do tank dbający o społeczny wymiar technologii. Obszarem zainteresowań Centrum jest cyfrowy wymiar spraw publicznych w Polsce, a konkretniej analizy zmian społecznych, kulturowych i gospodarczych związanych z technologią cyfrową – a co za tym idzie, wspieranie rozwoju wiedzy w tym zakresie.

Autorzy

Alek Tarkowski jest dyrektorem ds. strategii w Open Future. Posiada doktorat z socjologii z Polskiej Akademii Nauk. Od piętnastu lat zajmuje działaniami rzeczniczymi i budowaniem ruchów społecznych na rzecz technologii działających w interesie publicznym. Zajmuje się też badaniami na styku kwestii społecznych, kultury i technologii cyfrowych. Jego obecne zainteresowania obejmują polityki na rzecz publicznego AI i zarządzanie zbiorami danych.

Kuba Piwowar jest socjologiem i kulturoznawcą, doktorem kulturoznawstwa. Jest również starszym stypendystą Humanity in Action, gdzie pracował nad projektem dotyczącym korzystania z danych i aktywizmu danych. Ponadto jest adiunktem w Katedrze Kultury i Mediów Uniwersytetu SWPS w Warszawie. W latach 2008-2024 pracował w Google, początkowo jako analityk, a następnie jako doradca kluczowych partnerów biznesowych.

Michał Owczarek jest doktorantem kulturoznawstwa na Uniwersytecie SWPS, gdzie bada historię mediów w Polsce. Obronił pracę magisterską z socjologii cyfrowej dotyczącą konfliktów między państwami i platformami dotyczących infrastruktury cyfrowej. Interesuje się również studiami miejskimi, w szczególności wpływem technologii cyfrowych na tkankę miejską.

Autorzy raportu dziękują rozmówcom, którzy opowiedzieli o rozwoju polskich LLMów: Pawłowi Cyrcie, Adrianowi Gwoździejowi, Janowi Koconiowi, Sebastianowi Kondrackiemu, Markowi Kozłowskiemu, Jackowi Nagłowskiemu i Maciejowi Piaseckiemu.

 


Raport jest dostępny na licencji Creative Commons Uznanie autorstwa (CC-BY).