Przejdź do zawartości

Blog:Mam wątpliwości, czy mierzenie AI ludzkimi testami ma sens: Różnice pomiędzy wersjami

m
(Utworzono nową stronę "<div class="bookpage"> {{Miaublogheader |data = {{subst:CURRENTDAY}} {{subst:CURRENTMONTHNAMEGEN}} {{subst:CURRENTYEAR}} |autor = {{subst:REVISIONUSER}} }} Psychologia przez wiele dekad rozwijała i nadal rozwija koncepcje związane z tym, jak się różnimy i jak to mierzyć. Dość naiwne wydaje mi się założenie, że nie musimy przejść podobnej ścieżki w przypadku AI, które uczy się i funkcjonuje inaczej niż człowiek. == Trafność testu == Niektóry…")
 
Linia 10: Linia 10:
Niektórym może się wydawać, że testy tworzy jedna osoba rozmyślając nad biurkiem, ale w rzeczywistości to bardzo rozbudowany proces.
Niektórym może się wydawać, że testy tworzy jedna osoba rozmyślając nad biurkiem, ale w rzeczywistości to bardzo rozbudowany proces.


Przede wszystkim nie chcemy stworzyć sztuki dla sztuki, mierzyć czegoś, co nie istnieje. Jeśli sprawdzamy poziom ekstrawersji, to oczekujemy, że osoby z wysokim poziomem wskaźnika będą chętniej i intensywniej spędzać czas z innymi niż osoby o niskim poziomie ([[Blog:Introwertycy są super!|introwertycy]]). Jeśli osoba wykaże w tekście wysokie IQ, oczekujemy, że – w zależności od definicji inteligencji – będzie sprawniej rozwiązywać problemy, posiadać wyższy poziom abstrakcji w myśleniu itp. Fachowo mówimy, że testy psychologiczne powinny spełniać kryterium trafności, czyli „mierzyć to, co mają mierzyć”.
Przede wszystkim nie chcemy stworzyć sztuki dla sztuki, mierzyć czegoś, co nie istnieje. Jeśli sprawdzamy poziom ekstrawersji, to oczekujemy, że osoby z wysokim poziomem wskaźnika będą chętniej i intensywniej spędzać czas z innymi niż osoby o niskim poziomie ([[Blog:Introwertycy są super!|introwertycy]]). Jeśli osoba wykaże w teście wysokie IQ, oczekujemy, że – w zależności od definicji inteligencji – będzie sprawniej rozwiązywać problemy, posiadać wyższy poziom abstrakcji w myśleniu itp. Fachowo mówimy, że testy psychologiczne powinny spełniać kryterium trafności, czyli „mierzyć to, co mają mierzyć”.


W modelach językowych trudno mówić o zachowaniu trafności, ponieważ ogromne znaczenie ma dopasowanie pytania do danych treningowych. Jeśli coś przypomina klucze odpowiedzi, na których model był trenowany, to pewnie zaznaczy poprawną odpowiedź. Ale jeśli spróbujemy zapytać o coś niestandardowego, wymagającego tych samych umiejętności, nagle otrzymamy bełkot. Test nie jest w stanie przewidzieć zachowania w warunkach naturalnych. A więc staje się nietrafny.
W modelach językowych trudno mówić o zachowaniu trafności, ponieważ ogromne znaczenie ma dopasowanie pytania do danych treningowych. Jeśli coś przypomina klucze odpowiedzi, na których model był trenowany, to pewnie zaznaczy poprawną odpowiedź. Ale jeśli spróbujemy zapytać o coś niestandardowego, wymagającego tych samych umiejętności, nagle otrzymamy bełkot. Test nie jest w stanie przewidzieć zachowania w warunkach naturalnych. A więc staje się nietrafny.


== Rzetelność testu ==
== Rzetelność testu ==