W celu świadczenia usług na najwyższym poziomie stosujemy pliki cookies. Korzystanie z naszej witryny oznacza, że będą one zamieszczane w Państwa urządzeniu. W każdym momencie można dokonać zmiany ustawień Państwa przeglądarki. Zobacz politykę cookies.
Powrót

Cześć, jestem PLLuM! Jak powstaje polski ekosystem modeli językowych?

28.02.2025

Polska sztuczna inteligencja nabiera tempa! Model językowy PLLuM to pierwszy rządowy LLM (Large Language Model) zaprojektowany specjalnie z myślą o języku polskim. W tym odcinku Podcastu Cyfrowego rozmawiamy z dr Agnieszką Karlińską z NASK (Naukowo Akademickiej Sieci Komputerowej) o tym, jak powstał ten przełomowy projekt i jakie ma znaczenie dla rozwoju AI w Polsce.

Cześć, jestem PLLuM! Jak powstaje polski ekosystem modeli językowych?

PLLuM – więcej niż jeden model
PLLuM to nie pojedynczy model, lecz cała rodzina modeli o różnych zastosowaniach. Składa się z 18 wersji różniących się liczbą parametrów oraz przeznaczeniem. Modele te można podzielić na:
Bazowe – przechodzą adaptację językową i rozumieją język polski.

Instrukcyjne – trenowane do wykonywania konkretnych zadań na podstawie instrukcji.
Chat – dostosowane do interakcji i rozmów z użytkownikami.
100 miliardów słów – unikalne dane dla PLLuM
Jednym z kluczowych elementów projektu była budowa własnego korpusu treningowego, obejmującego 100 miliardów słów.

Dane te:

  • Zostały zebrane w sposób organiczny – bez generowania syntetycznych treści, co zwiększa ich wartość i wiarygodność.
  • Obejmują różne źródła – od tekstów literackich, przez dokumenty urzędowe, po zasoby instytucji naukowych.
  • Zostały pozyskane zgodnie z prawem i normami etycznymi – współpraca z wydawcami, instytucjami kultury oraz jednostkami publicznymi.

PLLuM w administracji publicznej
W 2025 roku modele PLLuM trafią do wybranych instytucji publicznych, a ich pierwszym wdrożeniem będzie integracja z aplikacją mObywatel. Dzięki temu użytkownicy będą mogli szybciej uzyskiwać odpowiedzi na pytania związane z procedurami urzędowymi.

Jak uniknąć halucynacji?
Jednym z wyzwań przy pracy nad PLLuM było ograniczenie tzw. halucynacji modeli, czyli generowania błędnych informacji. Rozwiązania, które zastosowano:

  • Dostarczanie większej ilości danych – im bogatszy zbiór treningowy, tym większa precyzja modelu.
  • Testy odporności na manipulację – specjalne ataki testowe sprawdzające stabilność modelu.
  • Połączenie z bazami wiedzy (RAG) – w przyszłości modele PLLuM będą mogły korzystać z aktualnych źródeł danych, co pozwoli im unikać dezaktualizacji informacji.

Co dalej? Przyszłość ekosystemu AI w Polsce
Projekt PLLuM to dopiero początek budowy polskiego ekosystemu AI. Kolejne kroki to:

  • Wdrożenia w administracji – testowanie i dostosowywanie modeli do urzędowych zastosowań.
  • Konsorcjum Hive – nowa inicjatywa AI w Polsce, która ma rozwijać PLLuM oraz kolejne modele.
  • Integracja z systemami wyszukiwania – w przyszłości PLLuM będzie mógł korzystać z aktualnych danych internetowych.

Przetestuj modele jezykowe z rodziny PLLuM już teraz - https://pllum.clarin-pl.eu/pllum_8x7b
Więcej wariantów do pobrania - https://huggingface.co/CYFRAGOVPL

Odcinek dostępny tutaj:

Spotify
Apple Podcasts
SoundCloud

Wideo

{"register":{"columns":[]}}