Prawnicy Meta✴ ostrzegali firmę przed wykorzystywaniem pirackich kopii książek do szkolenia sztucznej inteligencji, ale mimo to tak się stało, jak wynika z pozwu dotyczącego praw autorskich złożonego przeciwko firmie latem ubiegłego roku, podaje Reuters.
Dzień wcześniej pozwy przeciwko Meta✴ zostały połączone przez komik Sarah Silverman, zdobywcę nagrody Pulitzera Michaela Chabona i kilku innych autorów, którzy twierdzą, że firma wykorzystała ich dzieła bez pozwolenia do szkolenia wielkojęzykowego modelu Lamy. Dokumenty pokazują dzienniki czatów na serwerze Discord, w których jeden z członków, badacz Meta✴ Tim Dettmers, opisuje swoją dyskusję z działem prawnym firmy na temat legalności trenowania sztucznej inteligencji na elektronicznych kopiach książek.
Prawnicy Meta✴ powiedzieli mu, że „danych nie można wykorzystać [do uczenia modelu] lub modeli nie można opublikować, jeśli zostaną przeszkoleni na tych danych”. Firma przyznała jednak, że nadal wykorzystywała te dane do szkolenia pierwszej wersji Lamy. Rozmówcy Dettmersa podkreślają jednak, że korzystanie z literatury chronionej prawem autorskim musi „podlegać uczciwemu użytku”, co jest doktryną prawną w Stanach Zjednoczonych, która w niektórych przypadkach pozwala na korzystanie z dzieł chronionych prawem autorskim bez zgody ich autorów.
W tym roku firmy technologiczne zostały dotknięte licznymi procesami sądowymi złożonymi przez różnych twórców, oskarżających twórców sztucznej inteligencji o nielegalne wykorzystywanie dzieł chronionych prawem autorskim. Ich zwycięstwo może stanowić zagrożenie dla rodzącego się przemysłu generatywnej sztucznej inteligencji, ponieważ koszty opracowywania modeli wzrosną ze względu na konieczność uiszczania opłat licencyjnych. Wstępnie zatwierdzona europejska ustawa o sztucznej inteligencji wymaga od programistów ujawniania danych, których używają do uczenia swoich modeli.
W lutym Meta✴ zaprezentowała pierwszą wersję dużego modelu języka Lamy i ujawniła szereg danych wykorzystanych do jego uczenia, w tym blok zawierający podobno 196 640 książek. Zeszłego lata zaprezentowano drugą wersję Lamy, a Meta✴ nie ujawniała już, jakie dane wykorzystano do jej szkolenia. Firmy obsługujące mniej niż 700 milionów użytkowników miesięcznie mogą korzystać z Llama 2 za darmo.