Blog:Mam wątpliwości, czy mierzenie AI ludzkimi testami ma sens

Mam wątpliwości, czy mierzenie AI ludzkimi testami ma sens
25 maja 2024 | Kenex

Psychologia przez wiele dekad rozwijała i nadal rozwija koncepcje związane z tym, jak się różnimy i jak to mierzyć. Dość naiwne wydaje mi się założenie, że nie musimy przejść podobnej ścieżki w przypadku AI, które uczy się i funkcjonuje inaczej niż człowiek.

Trafność testu

Niektórym może się wydawać, że testy tworzy jedna osoba rozmyślając nad biurkiem, ale w rzeczywistości to bardzo rozbudowany proces.

Przede wszystkim nie chcemy stworzyć sztuki dla sztuki, mierzyć czegoś, co nie istnieje. Jeśli sprawdzamy poziom ekstrawersji, to oczekujemy, że osoby z wysokim poziomem wskaźnika będą chętniej i intensywniej spędzać czas z innymi niż osoby o niskim poziomie (introwertycy). Jeśli osoba wykaże w teście wysokie IQ, oczekujemy, że – w zależności od definicji inteligencji – będzie sprawniej rozwiązywać problemy, posiadać wyższy poziom abstrakcji w myśleniu itp. Fachowo mówimy, że testy psychologiczne powinny spełniać kryterium trafności, czyli „mierzyć to, co mają mierzyć”.

W modelach językowych trudno mówić o zachowaniu trafności, ponieważ ogromne znaczenie ma dopasowanie pytania do danych treningowych. Jeśli coś przypomina klucze odpowiedzi, na których model był trenowany, to pewnie zaznaczy poprawną odpowiedź. Ale jeśli spróbujemy zapytać o coś niestandardowego, wymagającego tych samych umiejętności, nagle otrzymamy bełkot. Test nie jest w stanie przewidzieć zachowania w warunkach naturalnych. A więc staje się nietrafny.

Rzetelność testu

Gdy tworzymy test, chcemy też wiedzieć, na ile dokładnie jest on w stanie coś przewidzieć. Jaka jest szansa, że osoba o wysokiej ekstrawersji w teście zachowuje się jak osoba o wysokiej ekstrawersji na co dzień? Jakie jest ryzyko, że odpowiedzi zaszumiały nam inne cechy?

Do profesjonalnego testu psychologicznego często jest dołączony podręcznik, który zawiera m.in. instrukcję na temat interpretacji wyników. Załóżmy, że mierzymy ekstrawersję, a wynik może być na skali od 1 do 9. Gdy wszystko policzymy, wyjdzie nam zapewne coś takiego: „Z 85% prawdopodobieństwa Twój wynik mieści się w przedziale od 2 do 4 i z 95% prawdopodobieństwa Twój wynik mieści się w przedziale od 1 do 5”. I jak to przełożyć na AI? Zakładamy, że ryzyko błędu jest takie samo jak u ludzi? Moim zdaniem to niezwykle naiwne założenie.

Normalizacja testu

Nie możemy przyłożyć komuś linijki do głowy i powiedzieć, jaki ma poziom ekstrawersji. Takie określenia jak nieśmiałość, mądrość, grzeczność czy wytrwałość są w dużej mierze konstruktem kulturowym, który pomaga nam opisać człowieka i porównać go z innymi. Wśród samych leni osoba nieco mniej leniwa będzie postrzegana jako bardzo pracowita. Jednak gdy ta osoba trafi do grupy pracusiów, nagle jej postawa będzie dla innych lenistwem.

Wyniki testów psychologicznych nie tyle sprawdzają obiektywną miarę w przyrodzie, co porównują osobę z innymi. Dla dużych testów często powstają osobne normy w zależności od kraju, grupy wiekowej, płci itp. Prawidłowo interpretując test powiemy coś w stylu „Jesteś mniej ekstrawertyczny niż przeciętna osoba w Twoim kraju, Twojej płci i w Twojej grupie wiekowej”. Gdyby te same wyniki przenieść do innego kraju, mogłoby się okazać, że ta sama osoba jest bardziej ekstrawertyczna od krajowej normy.

Czy AI powinno się porównywać do ludzi? Oczywiście można powiedzieć, że porównanie kosmity i człowieka jest na swój sposób ciekawe. Tylko jakiego człowieka? Z jakiego kraju? W jakim wieku? I jakiego AI? Z jakimi ustawieniami parametrów?

Adaptacja testu

Aby test anglojęzyczny przełożyć na polski, nie wystarczy go bezmyślnie przetłumaczyć, ponieważ trzeba uwzględnić różne konteksty, kulturę oraz niejednoznaczność językową. W jednym z amerykańskich testów na inteligencję jako dość łatwe uważa się pytanie o treści „How many pints make a quart?”. Sęk w tym, że pytanie przetłumaczone na polski będzie dla Polaka bardzo trudne, bo w Polsce z rzadka używa się takich miar.

I tutaj pojawia się problem, jak potraktować AI? Czy to jest Amerykanin, który dobrze opanował polski, czy rodowity Polak? Czy jako poziom trudności traktować normy polskie czy amerykańskie? Model językowy to takie wszystko w jednym.

Inne zasady dobroci testów

Oprócz powyższych cech dobry test powinien też być obiektywny (różne osoby sprawdzające wyniki dojdą do tych samych wniosków) oraz standaryzowany (zawsze wykonywany zgodnie z procedurą). Te dwie cechy akurat da się zastosować z powodzeniem wobec modeli językowych. Jedynym dyskusyjnym aspektem jest, czy model językowy faktycznie rozumie instrukcję.

Podsumowanie

Jak widać, narzędzia przeznaczone do badania na ludziach, mogą fatalnie sprawdzać się w przypadku AI. Co z tego, że model językowy świetnie zdaje test, jeśli potem jest bezużyteczny w stosowaniu wiedzy w praktyce?

W mediach można znaleźć artykuły jarające się tym, że jakiś model zdał test na teorię umysłu albo kwalifikujący na stanowisko adwokackie. Mam nadzieję, że już jest jasne, dlaczego należy traktować podobne doniesienia z ogromną dozą sceptycyzmu.

Te cechy, które trafnie różnicują ludzi, mogą nie sprawdzać się w przypadku AI. Być może dla sztucznej inteligencji musimy wymyślić coś innego. Zamiast antropomorfizować na siłę, spróbujemy sensownie zbadać, co faktycznie odróżnia jeden model od drugiego.

Zobacz też

MiauBlog:

MruczekWiki:

Linki zewnętrzne: