Sztuczna Inteligencja, prawdziwe problemy (02)

ODCINEK 02: Na Zachodzie bez zmian

Na początku lipca, „Financial Times” opisał przypadek Grega Marsona, brytyjskiego aktora dubbingowego z ponad dwudziestoletnim doświadczeniem. Zostało ono ostatnio wzbogacone o konsekwencje wykorzystywania narzędzia SI, bazującego na banku głosów. Aktor zostaje pozbawiony płatnego zlecenia za każdym razem, gdy użytkownik programu wybierze próbkę jego mowy. W dodatku oznacza to, że poniekąd będzie od teraz konkurował z samym sobą o zdobycie nowego klienta. Jakie działania doprowadziły do tego, że Greg, oraz rzesza jego koleżanek i kolegów, zostali zaskoczeni taką formą wykorzystania efektów ich pracy?

Kuzyn Greg z UK

W opisanej sytuacji podkreśla się kluczową sPRAWĘ, która w brytyjskim ekosystemie audiowizualnym pozostaje bez mian: bieżące uprawnienia podmiotów są konsekwencją umów zawartych niekiedy prawie dwadzieścia lat temu. Ja dodałabym kolejną a mianowicie brak w UK przepisów, jasno ustanawiających ochronę wizerunku i głosu jako dóbr osobistych. Podstawą do żądania ochrony, w sumie nie wiadomo w jakich okolicznościach ona w ogóle przysługuje, są kadłubowe konstrukcje. Jakieś tam podstawy powództwa wynikają z prawa precedensowego, ale zakazać działań osobom trzecim w oparciu o przepis, regulujący dokładnie te kwestie, które są kluczowe, się nie da.

Greg Marson zawarł z IBM 18 lat temu umowę, na podstawie której przeniósł, na zawsze i na terytorium całego wszechświata, prawa do nagrania tekstów, wykorzystywanych w nawigacji samochodowej. IBM sprzedał nabyte uprawnienia podmiotowi, oferującemu ReVoicer, reklamowany jako „pierwsza aplikacja SI, umożliwiająca ukazywanie ludzkich emocji”. Użytkownik wpisuje tekst, który ma być odczytany w odpowiednia pole i wybiera próbkę głosu, przypisaną do awatara. Wybierać może spośród około 80 barw głosu, 40 języków oraz kilku stylistyk, takich jak, przykładowo, głos przyjazny, radosny, szepczący, pełen nadziei czy podekscytowany. Te ostatnie z wymienionych raczej nie wskazują na stan Grega, gdy zapoznał się z proponowanym przez producenta wykorzystaniem narzędzia. Może ono służyć m.in. do tworzenia audiobooków, podcastów, nagrań instruktażowych czy kursów online. Raczej trudno było to Gregowi przewidzieć prawie dwadzieścia lat temu i wprowadzić adekwatne rozwiązania w umowie.

Lektor też człowiek…?

Na stronie aplikacji porównano cechy „Traditional Voiceovers”, smutna buźka, i „AI voiceovers with Revoicer”, buźka w stanie serduszkowej ekstazy. Generalnie wygląda to tak, jakby produkt nowej generacji miał po prostu zastąpić stary model.

Wyliczone wady tradycyjnego narzędzia: trzeba zatrudniać twórców, pracujących głosem i innych freelancerów; czas potrzebny na stworzenie nagrania to około tydzień; post-produkcja wymaga umiejętności technicznych (czytaj: trzeba zatrudnić człowieka od montażu); brak możliwości uaktualnienia nagrania, no chyba że dopłaci się lektorowi i montażyście za kolejną sesję.

Zalety proponowanej aplikacji: działa bez konieczności ściągnięcia na dysj (czytaj: nie można wykluczyć, że wpisywane teksty do przekonwertowania na nagranie i gotowe nagrania będą dostępne dla dostarczyciela narzędzia); stworzenie nagrania zajmuje minutę; prosty interface, każdy sobie poradzi z obsługą; bezpłatna, natychmiastowa aktualizacja nagrania.

Podsumowując: wynajmujesz tradycyjnego Grega, on musi jeść, płacić rachunki i robić przerwy na oddech, albo bierzesz Grega cyfrowego, prawdopodobnie o jakimś innym imieniu, który powyższych potrzeb nie ma. Ale czy na pewno zaspokoi Twoje?

Umowy po angielsku

W Wielkiej Brytanii, nabywcy praw do korzystania z nagrań na podstawie dwudziestoletnich i innych leciwych umów, po prostu traktują trenowanie narzędzi AI jako jedno z uprawnień, za które zapłacili. Niektórzy w ogóle nie wnikają, czy im wolno w taki sposób korzystać nagrania, w tym z głosu aktora, bo to co na pewno mogą, to sprzedać prawa komu mają ochotę. Na przykład podmiotowi tworzącemu aplikacje jak ReVoicer.

W przypadku umów zawieranych obecnie, wprowadza się postanowienia dotyczące tzw. syntetyzacji głosu. Nabywcy płacą ryczałtowe wynagrodzenie, twierdząc, że proponują uczciwą stawkę rynkową. Zdaje się jednak, że w tym kontekście „ryczałtowe” i „uczciwa stawka” wzajemnie się wykluczają.

Brytyjskie związki zawodowe postukują zmiany w prawie by po pierwsze, zakazane były kontrakty długoterminowe a po drugie, by wykorzystywanie efektów pracy aktora do trenowania SI lub umożliwiania korzystania z takich narzędzi w inny sposób, było warunkowane jednoznaczną zgodą.

Polskie realia

Oczywiście w Polsce nie ma przepisów, które odnoszą się wprost do opisanych problemów w kontekście SI. Są jednak przynajmniej regulacje dotyczące dóbr osobistych, których wprowadzenie dopiero jest postulowane w UK.

Na razie odnoszę się wyłącznie do narzędzia typu ReVoicer. Ma ono ten zdecydowany plus z perspektywy aktora, że umożliwia rozpoznanie, iż głos konkretnej osoby jest wykorzystywany. To przewaga, której nie posiadają np. twórcy obrazów czy teksów, używanych do treningu SI, gdzie efekt końcowy nie daje szans na ustalenie, jaki był materiał wejściowy.

Akor dysponuje dwiema grupami uprawnień. Są to prawa pokrewne do artystycznego wykonania oraz dobra osobiste, kluczowe znaczenie mają wizerunek i głos. Pierwsze pytanie i wątpliwość, to czy te nagrania, które są wykorzystywane w ramach aplikacji typu ReVoicer w ogóle można zaliczyć do artystycznych wykonań?! Często istotą zadania jest odczytanie zdania wedle jednoznacznych wytycznych albo sama treść przekazu nie umożliwia nadania twórczego charakteru wykonaniu a ta cecha warunkuje ochronę. Wracając do przypadku Grega, nie sądzę, by tekst wgrany do nawigacji samochodowej można było uznać za artystyczne wykonanie.

Nawet jeśli, w innej sytuacji, mielibyśmy do czynienia z artystycznym wykonaniem, to trafiamy na trudny obecnie do rozwiązania problem: czy wykorzystanie dobra niematerialnego w celu rozwijania narzędzia SI stanowi odrębne pole eksploatacji? To samo zagadnienie sprawia, że autorzy scenariuszy czy książek nie występują w Polsce masowo do sądów o odszkodowanie albo z roszczeniem zakazowym, po powzięciu informacji o wykorzystaniu ich utworów w opisywanych okolicznościach. Gdyby rzeczywiście trenowanie i budowanie narzędzi AI wymagało przeniesienia uprawnień na tak nazwanych polach, to wszyscy, którzy nabyli prawa przed rozpowszechnieniem tej technologii, musieliby zwrócić się do autorów o zgodę. Ta udzielona poprzednio, prawdopodobnie w zamian za jakieś wynagrodzenie, nie obejmowała pól nieznanych w momencie zawierania umowy. Moim zdaniem tak właśnie być powinno, ale zdaniem niektórych, nabywca praw porusza się ciągle w obszarze sporządzania kopii cyfrowych. A to zapewne na podstawie kontraktu mu wolno.

Trzeba też zauważyć, że nawet jeśli uzależnić możliwość takiego wykorzystania artystycznych wykonań od świadomej zgody twórcy, to pojawia się zagadnienie kluczowe: wysokość wynagrodzenia. Odgrywa ona rolę nie tylko na etapie uzgodnień umownych, ale także w momencie formułowania ewentualnych roszczeń odszkodowawczych (przy założeniu, że mamy do czynienia z odrębnym polem eksploatacji). Alternatywę do sposobu obliczania odszkodowania na tzw. zasadach ogólnych, który jest bezużyteczny dla większości twórców i artystów, stanowi żądanie dwukrotności stosownego wynagrodzenia, które w chwili jego dochodzenia byłoby należne tytułem udzielenia przez uprawnionego zgody na korzystanie z utworu. Nie wiadomo co to za kwota: nikt jej nie oferuje, twierdząc, ze wolno mu korzystać z dobra niematerialnego w ramach uprzednio nabytych praw w zamian za ryczałtowe wynagrodzenie albo proponuje się kwotę, każącą od razu zakładać, że ta należna na pewno winna być wyższa.

Gdybym miała budować model ochrony w oparciu o obowiązujące przepisy i zwyczaje prawa polskiego, porzuciłabym kwestie związane z artystycznym wykonaniem. Akurat w kontekście działania ReVoicer, wizerunek aktorów, rozumiany jako ich podobizna, ma mniejsze znaczenie. Jest bardzo mało prawdopodobne, by głosy w banku były przyporządkowane do awatara, wyglądającego jak prawdziwy właściciel głosu. Skupmy się zatem na tym ostatnim.

Zgodę na korzystanie z niego, nijako wtórnie, pozyskał nabywca praw do nagrania. Jeśliby jednak stosować w przypadku dobra osobistego, jakim jest głos, te same kryteria, które odnosi się do wizerunku, a tu mamy trochę literatury i orzecznictwa, to można by podnosić:

brak skuteczności zgody na rozpowszechnianie, ze względu na nieznajomość kontekstu;
cofnięcie zgody ze względu na wykorzystanie w kontekście nieakceptowanym przez aktora.

Bez jednoznacznych przepisów, nie da się przewidzieć skuteczności powyższych argumentów na wypadek sporu sądowego. Szanse na powodzenie zakazów dalszego korzystania z głosu wzrastają, jeśli właściciel głosu byłby rozpoznawalny przez osoby trzecie a w dodatku gdyby treści, rzekomo przez niego wypowiadane, godziły w jego godność lub dobre imię. Polski Sąd Najwyższy orzekł w marcu, że „jako dobro osobiste głos podlega samodzielnej ochronie oraz może być poddany ingerencji, która może polegać na różnych działaniach nie poddających się jednak jednolitej kategoryzacji (typowym przykładem ingerencji tego rodzaju w głos jako samodzielne dobro osobiste jest jego przekształcenie za pomocą narzędzi cyfrowych w taki sposób, iż barwa dźwięku pozwala odbiorcy na identyfikację głosu innej osoby, zaś z wykorzystaniem tak utrwalonego dźwięku dochodzi do fałszywego przypisania tej osobie wypowiadania przez nią określonych treści – zjawisko tzw. deep fake).” [Wyrok Sądu Najwyższego z dnia 7 marca 2023 r. II CSKP 659/22, LEX nr 3505679]. UWAWA: z tego orzeczenia nie wynika, że generowanie treści na bazie głosu osoby trzeciej stanowi naruszenie jej dóbr osobistych. Znaczenie ma także kontekst oraz jednoczesne naruszenie innych chronionych sfer. Nie bez znaczenia jest wykonywana funkcja czy zawód. No i teraz część sędziów uzna, że aktor powinien liczyć się z dowolnym wykorzystaniem jego głosu, bo to taka praca. Być może znajdą się też tacy, którzy uznają, że wręcz przeciwnie! Przecież aktorzy świadomie wybierają role, wedle swoich upodobań artystycznych i poczucia godności, decydując co są w stanie przeczytać dla pieniędzy. Najłatwiej będą mieli rozpoznawalni aktorzy i lektorzy, których głos zostanie wykorzystany np. w kampanii politycznej albo do reklamy, już wszystko jedno czego, jeśli do tej pory nie byli w szufladce „komercja”. Zdaje się zatem, że łatwiej będzie zakazać korzystania z głosu nie twórcy aplikacji typu ReVoicer, ale klientowi tego narzędzia.

Podstawowe pytanie

…a brzmi ono: o co chodzi aktorom? Czy o zakaz korzystania z ich głosu przez producentów narzędzi SI i ich klientów, czy o otrzymanie proporcjonalnego wynagrodzenia? Obie opcje mają sens. Pierwsza wpisuje się w atmosferę środowisk twórczych w US, bo ma zatrzymać proceder podbierania pracy ludziom (czy też „człowiekom”, czego na razie SI raczej nie zrozumie). Druga ma proweniencję merkantylną, całkowicie uzasadnioną. Odpowiedź na to pytanie jest istotna, bo to do niej należy dostosować narzędzia prawne. Te, które istnieją obecnie oraz takie, które ukształtujemy w przyszłości w ramach jednoznacznie brzmiących przepisów.