Blog:Mam wątpliwości, czy mierzenie AI ludzkimi testami ma sens: Różnice pomiędzy wersjami

Blog:Mam wątpliwości, czy mierzenie AI ludzkimi testami ma sens (tekst źródłowy)

Wersja z 20:52, 25 maj 2024

Usunięte 3 bajty , 25 maj 2024

m

→‎Trafność testu

WizualnieWikikod

Kenex

Administratorzy interfejsu, Administratorzy

16 869

edycji

@@ Linia 10: / Linia 10: @@
 Niektórym może się wydawać, że testy tworzy jedna osoba rozmyślając nad biurkiem, ale w rzeczywistości to bardzo rozbudowany proces.
-Przede wszystkim nie chcemy stworzyć sztuki dla sztuki, mierzyć czegoś, co nie istnieje. Jeśli sprawdzamy poziom ekstrawersji, to oczekujemy, że osoby z wysokim poziomem wskaźnika będą chętniej i intensywniej spędzać czas z innymi niż osoby o niskim poziomie ([[Blog:Introwertycy są super!|introwertycy]]). Jeśli osoba wykaże w tekście wysokie IQ, oczekujemy, że – w zależności od definicji inteligencji – będzie sprawniej rozwiązywać problemy, posiadać wyższy poziom abstrakcji w myśleniu itp. Fachowo mówimy, że testy psychologiczne powinny spełniać kryterium trafności, czyli „mierzyć to, co mają mierzyć”.
+Przede wszystkim nie chcemy stworzyć sztuki dla sztuki, mierzyć czegoś, co nie istnieje. Jeśli sprawdzamy poziom ekstrawersji, to oczekujemy, że osoby z wysokim poziomem wskaźnika będą chętniej i intensywniej spędzać czas z innymi niż osoby o niskim poziomie ([[Blog:Introwertycy są super!|introwertycy]]). Jeśli osoba wykaże w teście wysokie IQ, oczekujemy, że – w zależności od definicji inteligencji – będzie sprawniej rozwiązywać problemy, posiadać wyższy poziom abstrakcji w myśleniu itp. Fachowo mówimy, że testy psychologiczne powinny spełniać kryterium trafności, czyli „mierzyć to, co mają mierzyć”.
 W modelach językowych trudno mówić o zachowaniu trafności, ponieważ ogromne znaczenie ma dopasowanie pytania do danych treningowych. Jeśli coś przypomina klucze odpowiedzi, na których model był trenowany, to pewnie zaznaczy poprawną odpowiedź. Ale jeśli spróbujemy zapytać o coś niestandardowego, wymagającego tych samych umiejętności, nagle otrzymamy bełkot. Test nie jest w stanie przewidzieć zachowania w warunkach naturalnych. A więc staje się nietrafny.
 == Rzetelność testu ==