16 869
edycji
(Utworzono nową stronę "<div class="bookpage"> {{Miaublogheader |data = {{subst:CURRENTDAY}} {{subst:CURRENTMONTHNAMEGEN}} {{subst:CURRENTYEAR}} |autor = {{subst:REVISIONUSER}} }} Psychologia przez wiele dekad rozwijała i nadal rozwija koncepcje związane z tym, jak się różnimy i jak to mierzyć. Dość naiwne wydaje mi się założenie, że nie musimy przejść podobnej ścieżki w przypadku AI, które uczy się i funkcjonuje inaczej niż człowiek. == Trafność testu == Niektóry…") |
m (→Trafność testu) |
||
Linia 10: | Linia 10: | ||
Niektórym może się wydawać, że testy tworzy jedna osoba rozmyślając nad biurkiem, ale w rzeczywistości to bardzo rozbudowany proces. | Niektórym może się wydawać, że testy tworzy jedna osoba rozmyślając nad biurkiem, ale w rzeczywistości to bardzo rozbudowany proces. | ||
Przede wszystkim nie chcemy stworzyć sztuki dla sztuki, mierzyć czegoś, co nie istnieje. Jeśli sprawdzamy poziom ekstrawersji, to oczekujemy, że osoby z wysokim poziomem wskaźnika będą chętniej i intensywniej spędzać czas z innymi niż osoby o niskim poziomie ([[Blog:Introwertycy są super!|introwertycy]]). Jeśli osoba wykaże w | Przede wszystkim nie chcemy stworzyć sztuki dla sztuki, mierzyć czegoś, co nie istnieje. Jeśli sprawdzamy poziom ekstrawersji, to oczekujemy, że osoby z wysokim poziomem wskaźnika będą chętniej i intensywniej spędzać czas z innymi niż osoby o niskim poziomie ([[Blog:Introwertycy są super!|introwertycy]]). Jeśli osoba wykaże w teście wysokie IQ, oczekujemy, że – w zależności od definicji inteligencji – będzie sprawniej rozwiązywać problemy, posiadać wyższy poziom abstrakcji w myśleniu itp. Fachowo mówimy, że testy psychologiczne powinny spełniać kryterium trafności, czyli „mierzyć to, co mają mierzyć”. | ||
W modelach językowych trudno mówić o zachowaniu trafności, ponieważ ogromne znaczenie ma dopasowanie pytania do danych treningowych. Jeśli coś przypomina klucze odpowiedzi, na których model był trenowany, to pewnie zaznaczy poprawną odpowiedź. Ale jeśli spróbujemy zapytać o coś niestandardowego, wymagającego tych samych umiejętności, nagle otrzymamy bełkot. Test nie jest w stanie przewidzieć zachowania w warunkach naturalnych. A więc staje się nietrafny. | W modelach językowych trudno mówić o zachowaniu trafności, ponieważ ogromne znaczenie ma dopasowanie pytania do danych treningowych. Jeśli coś przypomina klucze odpowiedzi, na których model był trenowany, to pewnie zaznaczy poprawną odpowiedź. Ale jeśli spróbujemy zapytać o coś niestandardowego, wymagającego tych samych umiejętności, nagle otrzymamy bełkot. Test nie jest w stanie przewidzieć zachowania w warunkach naturalnych. A więc staje się nietrafny. | ||
== Rzetelność testu == | == Rzetelność testu == |