Analiza Głównych Składowych (PCA): Zastosowania i Akredytacja

28/06/2021

★★★★★Rating: 4.74 (4255 votes)

W dzisiejszym świecie, gdzie ilość danych rośnie w tempie wykładniczym, kluczowe staje się umiejętne przetwarzanie i analiza dużych i złożonych zbiorów danych. Jedną z technik, która zyskuje na znaczeniu w tym kontekście, jest Analiza Głównych Składowych (PCA, z angielskiego Principal Component Analysis). PCA to metoda statystyczna, która pozwala na redukcję wymiarowości danych, zachowując przy tym jak najwięcej istotnych informacji. W tym artykule przyjrzymy się bliżej temu zagadnieniu, zrozumiemy, jak działa PCA, jakie ma zastosowania oraz dowiemy się, jak uzyskać akredytację PCA w Polsce.

Czy akredytacja jest audytem? — W praktyce certyfikacja to potwierdzenie przez stronę trzecią, dokonane za pośrednictwem audytu systemów lub produktów organizacji, podczas gdy akredytacja to niezależne, zewnętrzne uznanie , że organizacja posiada kompetencje i jest bezstronna do wykonywania określonych działań technicznych, takich jak certyfikacja, testowanie i inspekcja.

Spis treści

Czym Jest Analiza Głównych Składowych (PCA)?
- Historia Algorytmu PCA
Dlaczego PCA Jest Ważne?
- Zalety i Wady Analizy Głównych Składowych
Jak Działa Analiza Głównych Składowych?
- Kluczowe Koncepcje Definiujące Działanie PCA
Kroki Analizy Głównych Składowych
Zastosowania Analizy Głównych Składowych
Cykl Akredytacji PCA
Podsumowanie

Czym Jest Analiza Głównych Składowych (PCA)?

Analiza Głównych Składowych (PCA) to technika statystyczna, której celem jest redukcja wymiarowości złożonych i obszernych zbiorów danych. Działa ona poprzez ekstrakcję głównych składowych, które zawierają najwięcej informacji, jednocześnie odrzucając szum lub mniej istotne dane. Kluczowe jest zachowanie najważniejszych szczegółów, pomimo redukcji liczby zmiennych.

PCA przekształca duży zbiór zmiennych w mniejszą grupę, która zachowuje niemal wszystkie informacje zawarte w pierwotnym, większym zbiorze. Zmniejszenie liczby zmiennych nieuchronnie prowadzi do pewnej utraty precyzji, jednak celem redukcji wymiarowości jest uproszczenie danych. Mniejsze zbiory danych są łatwiejsze w analizie i wizualizacji, co przyspiesza proces uczenia maszynowego i interpretacji wyników.

Wyniki PCA, czyli przekształcone nowe cechy, nazywane są głównymi składowymi (ang. Principal Components - PCs). Liczba głównych składowych jest mniejsza lub równa liczbie pierwotnych cech w zbiorze danych. Główne składowe charakteryzują się następującymi cechami:

Każda główna składowa jest kombinacją liniową pierwotnych cech.
Składowe są ortogonalne, co oznacza, że nie są ze sobą skorelowane.
Znaczenie każdej składowej maleje od pierwszej do ostatniej. Pierwsza główna składowa (PC1) jest najważniejsza, a ostatnia (PC „n”) najmniej istotna.

PCA jest wszechstronną metodą analizy danych, która radzi sobie z danymi zawierającymi współliniowość, braki danych, dane kategoryczne i niedokładne pomiary. Jej głównym celem jest wydobycie istotnych informacji i przedstawienie ich w postaci zbioru ogólnych wskaźników, czyli głównych składowych.

Historia Algorytmu PCA

Algorytm PCA został wynaleziony w 1901 roku przez Karla Pearsona, brytyjskiego matematyka uważanego za twórcę statystyki matematycznej. Pearson stworzył PCA jako analogię mechaniczną do twierdzenia o osiach głównych. W latach 30. XX wieku, amerykański statystyk i ekonomista Harold Hotelling niezależnie opracował i nazwał PCA.

W zależności od dziedziny zastosowania, PCA jest różnie nazywane:

Transformacja Hotellinga w wielowymiarowej kontroli jakości
Rozkład ortogonalny właściwy (POD) w inżynierii mechanicznej
Dyskretna transformacja Karhunena-Loève (KLT) w przetwarzaniu sygnałów
Empiryczna analiza modalna w dynamice struktur
Empiryczne funkcje ortogonalne (EOF) w meteorologii

Ogólnie rzecz biorąc, termin PCA odnosi się do obliczania głównych składowych i stosowania ich do danych w celu wywołania zmiany. Dzięki temu algorytm jest szeroko stosowany w różnych dziedzinach, w tym w sztucznej inteligencji i uczeniu maszynowym.

Dlaczego PCA Jest Ważne?

Ilość danych potrzebnych do uzyskania statystycznie istotnego wyniku rośnie wykładniczo wraz z liczbą cech lub parametrów w zbiorze danych. Może to prowadzić do problemów, takich jak przeuczenie (overfitting), wydłużenie czasu obliczeń i spadek dokładności modeli uczenia maszynowego. Zjawisko to nazywane jest „klątwą wymiarowości” i występuje podczas pracy z danymi o wysokiej wymiarowości.

Głównym celem PCA jest rozwiązanie problemu wymiarowości. Dane o wysokiej wymiarowości w uczeniu maszynowym to dane z dużą liczbą charakterystycznych cech lub zmiennych elementów. Wraz ze wzrostem liczby wymiarów, liczba możliwych kombinacji cech rośnie wykładniczo. Utrudnia to uzyskanie reprezentatywnej próbki danych i komplikuje zadania klasteryzacji i klasyfikacji.

Niektóre algorytmy uczenia maszynowego są bardzo wrażliwe na liczbę wymiarów, wymagając więcej danych do osiągnięcia poziomu dokładności porównywalnego z danymi o niższej wymiarowości.

Aby temu zaradzić, stosuje się zaawansowane techniki inżynierii cech, takie jak selekcja cech lub ekstrakcja cech. Analiza głównych składowych jest formą ekstrakcji cech, która dąży do zminimalizowania całkowitej liczby cech wejściowych, zachowując przy tym jak najwięcej informacji z oryginalnych danych.

Zalety i Wady Analizy Głównych Składowych

PCA jest niezbędne w operacjach na danych, pomagając przekształcać ogromne i złożone rzeczywiste zbiory danych w reprezentatywne pule danych, które komputer może zrozumieć i przetworzyć. Ma jednak również pewne wady. Zanim przejdziemy do wad PCA, przyjrzyjmy się jego zaletom:

Zalety PCA:

Algorytmy PCA są stosunkowo proste do obliczenia dla komputerów.
Zastosowanie PCA przyspiesza operacje i algorytmy uczenia maszynowego.
Zapobiega problemom z przeuczeniem w algorytmach predykcyjnych.
Eliminując zbędne skorelowane zmienne, można zwiększyć skuteczność algorytmów ML.
PCA często prowadzi do lepszej wizualizacji danych.
Umożliwia redukcję zakłóceń w danych, których nie można natychmiastowo pominąć.

Wady PCA:

Interpretacja PCA może być początkowo trudna.
Po obliczeniu głównych składowych, określenie kluczowych cech może być czasami problematyczne.
Obliczanie kowariancji lub macierzy kowariancji bez solidnej wiedzy statystycznej jest trudne.
Czasami wyniki PCA mogą być trudniejsze do zrozumienia niż pierwotny zbiór składowych, niezależnie od tego, czy są obszerne, czy zawiłe.

Dlatego większość użytkowników korzysta z oprogramowania do analizy głównych składowych, aby zminimalizować ryzyko błędów. Popularne opcje to Matlab, XLSTAT, SPSS i język programowania R.

Jak Działa Analiza Głównych Składowych?

Aby zrozumieć, jak działa PCA, musimy najpierw zrozumieć znaczenie głównej składowej. Rozważmy poniższy diagram - ma on wiele punktów danych, ale tylko dwie główne składowe wystarczają, aby zrozumieć ogólny obraz.

(Diagram przedstawiający punkty danych i dwie główne składowe - PC1 i PC2)

Na rysunku powyżej narysowano wiele współrzędnych na płaszczyźnie 2D. Istnieją dwa główne elementy. PC1 to główna składowa, która opisuje największą wariancję danych. PC2 to kolejna główna składowa, która jest ortogonalna do PC1 (tj. nieskorelowana z nią). W konsekwencji, PC to nieprzerwana linia, która odpowiada za większość wariacji danych. Ma ona wielkość i kierunek.

Kluczowe Koncepcje Definiujące Działanie PCA

Przyjrzyjmy się kilku koncepcjom kluczowym dla działania PCA:

1. Wymiarowość

Jak wspomniano, „wymiarowość” to liczba charakterystyk lub parametrów wykorzystywanych w danych. Praca z danymi o wysokiej wymiarowości, takimi jak zbiory danych i liczne zmienne (stąd klątwa wymiarowości), może być trudna w wizualizacji i analizie relacji między zmiennymi.

Techniki redukcji wymiarowości, takie jak analiza głównych składowych (PCA), są wdrażane w celu zachowania najważniejszych danych przy jednoczesnym zminimalizowaniu liczby zmiennych w zbiorze danych. Pierwotne zmienne są przekształcane w główne składowe, które są liniowymi kombinacjami zmiennych początkowych.

2. Korelacja

Korelacja to miara statystyczna wskazująca kierunek i intensywność liniowej zależności między dwiema zmiennymi. Macierz kowariancji to macierz kwadratowa, która przedstawia korelacje między wszystkimi zmiennymi w zbiorze danych. Jest ona określana przez korelację. Za pomocą współczynnika korelacji można określić intensywność i kierunek liniowej zależności między dwiema zmiennymi. To poprzez to obliczenie ostatecznie dochodzimy do głównej składowej.

3. Ortogonalność

Termin ortogonalność odnosi się do układu głównych składowych, które są wzajemnie ortogonalne. W skrócie, nie ma powielania informacji między głównymi składowymi i są one niezależne. Każda główna składowa w analizie głównych składowych jest konstruowana tak, aby maksymalizować wariancję, którą wyjaśnia, przy jednoczesnym zachowaniu wymogu, że jest prostopadła do wszystkich innych głównych składowych. Na naszym diagramie PC1 jest zatem ortogonalne do PC2.

Kto może przeprowadzić audyt? — Odpowiedzi zazwyczaj są dwie: audyt może przeprowadzić wyznaczony w tym celu pracownik albo. podmiot zewnętrzny, specjalizujący się w takich zadaniach.

4. Wektory Własne

W algebrze wektor własny to wektor, który zmienia się o nie więcej niż czynnik skalarny, gdy jest poddawany transformacji liniowej. Odpowiednia wartość własna, często reprezentowana przez lambdę, jest współczynnikiem skalującym dla wektora własnego. Upraszczając, te dwie koncepcje pomagają obliczyć rzeczywistą i maksymalną wariancję z oryginalnych danych możliwą w zbiorze danych, aby jego wymiarowość mogła zostać dokładnie zredukowana.

5. Macierz Kowariancji

Macierze kowariancji są niezbędne do obliczenia głównych składowych danych przez algorytm PCA. Jest to wskaźnik korelacji między dwiema zmiennymi losowymi. W analizie głównych składowych macierz kowariancji pomoże obliczyć ważność wartości, obliczając ich potencjalne zmiany razem, ponieważ są one skorelowane.

Kroki Analizy Głównych Składowych

Ważne jest, aby pamiętać, że zaawansowana wiedza statystyczna jest warunkiem wstępnym do ręcznego uruchomienia PCA. Nowoczesne oprogramowanie do modelowania danych upraszcza obliczenia, nawet jeśli jesteś początkującym specjalistą ds. danych. Jednak wiedza o tym, jak działa ten niezwykle ważny algorytm uczenia maszynowego, jest zawsze przydatna. Oto kluczowe kroki:

Standaryzacja początkowego zestawu zmiennych ciągłych. Standaryzacja musi nastąpić przed analizą głównych składowych (PCA), ponieważ PCA jest wyjątkowo podatne na wahania w zmiennych początkowych. Jeśli istnieją znaczące różnice w spektrum zmiennych pierwotnych, parametry o większych zakresach będą dominować. Doprowadzi to do stronniczych wyników. Matematycznie, standaryzację można przeprowadzić, odejmując średnią i dzieląc każdą wartość zmiennej przez jej odchylenie standardowe. Po osiągnięciu tego wszystkie zmienne zostaną dostosowane do tego samego poziomu.
Znalezienie macierzy kowariancji. Celem tego etapu jest zrozumienie, jak zmienne oryginalnego zbioru danych odbiegają od średniej w stosunku do siebie lub ustalenie, czy istnieje między nimi jakikolwiek związek. Dzieje się tak, ponieważ zmienne mogą stać się tak silnie skorelowane, że zawierają zbędne dane. Aby móc zidentyfikować takie korelacje, obliczana jest macierz kowariancji. Pamiętaj, że macierz kowariancji jest tylko tabelą, która podsumowuje relacje między wszystkimi możliwymi kombinacjami zmiennych.
Obliczenie wektorów i wartości własnych macierzy kowariancji w celu uzyskania głównych składowych (PCs). Wektory i wartości własne to koncepcje algebry liniowej wymagane do obliczenia głównych składowych danych uzyskanych z macierzy kowariancji. Jak wspomniano wcześniej, główne składowe (PCs) to nowe zmienne wyprowadzone z kombinacji liniowych lub kompozytów oryginalnych zmiennych. Kombinacje te są wykonywane tak, aby nowo utworzone zmienne nie korelowały, a większość danych zmiennych początkowych była skondensowana lub skompaktowana w początkowych składowych.
Ustalenie, które główne składowe zachować. Obliczając wektory własne i sortując je na podstawie ich wartości własnych w kolejności malejącej, można określić kolejność ważności głównych składowych. W kroku 4 należy zdecydować, czy zachować wszystkie te składowe, czy usunąć te o mniejszym znaczeniu (niskie wartości własne). Dokonuje się tego za pomocą wektora cech. Wektor cech to tablica, w której wektory własne części, które zdecydujemy się zachować, są uporządkowane w kolumnie. Stanowi to początkowy etap redukcji wymiarowości. Jeśli zachowamy tylko k wektorów własnych (lub składowych) z początkowych n, wynikowy zbiór danych będzie składał się tylko z k zmiennych w przeciwieństwie do oryginalnych n.
Ponowne naniesienie danych na osie oryginalne. Poza standaryzacją nie zmieniamy danych w poprzednich etapach. Po prostu wybieramy główne składowe i generujemy wektor cech, ale oryginalne osie zbioru danych źródłowych pozostają niezmienione. W tej ostatniej fazie wektor cech jest wykorzystywany do zmiany położenia danych z ich oryginalnych osi na te zawarte w głównych składowych. Można to osiągnąć, mnożąc transpozycję początkowego zbioru danych przez transpozycję wektora cech.

Zastosowania Analizy Głównych Składowych

Redukcja wymiarowości za pomocą PCA znajduje zastosowanie w wielu dziedzinach:

1. Biologia i Medycyna

W neuronauce stosuje się analizę kowariancji wyzwalanej impulsami, rodzaj analizy głównych składowych. PCA pomaga w identyfikacji właściwości bodźców, które zwiększają prawdopodobieństwo wywołania przez neuron odpowiedzi „akcji”.

2. Usługi Finansowe

PCA redukuje liczbę wymiarów w złożonym problemie finansowym. Załóżmy, że portfel bankiera inwestycyjnego składa się z 150 papierów wartościowych. Aby ilościowo przeanalizować te akcje, będą potrzebować macierzy korelacji 150 na 150, co czyni problem niezwykle złożonym. Niemniej jednak PCA może pomóc w wyodrębnieniu 15 głównych składowych, które najlepiej opisują wariancję akcji. Uprości to problem, a jednocześnie szczegółowo opisze wahania każdej z 150 akcji.

3. Technologia Rozpoznawania Twarzy

Zbiór wektorów własnych wykorzystywanych do komputerowego widzenia w zadaniu wykrywania ludzkich twarzy nazywa się eigenface. PCA ma kluczowe znaczenie dla metody eigenfaces, ponieważ generuje zbiór możliwych twarzy, które prawdopodobnie wystąpią. Analiza głównych składowych zmniejsza złożoność statystyczną przedstawienia obrazu twarzy, zachowując jednocześnie jej istotne cechy. Jest to kluczowe dla technologii rozpoznawania twarzy.

4. Kompresja Obrazu

Załóżmy, że mamy obszerny zbiór obrazów ludzkich twarzy o wymiarach 64×64. Chcemy przedstawić i zachować zdjęcia o znacznie mniejszych wymiarach. Korzystając z koncepcji PCA, zdjęcia można skompresować i przechowywać w mniejszych, równie precyzyjnych plikach. Należy jednak zauważyć, że rekonstrukcja obrazu wymaga dalszych obliczeń.

Cykl Akredytacji PCA

W Polsce Polskie Centrum Akredytacji (PCA) jest jedyną jednostką uprawnioną do udzielania akredytacji jednostkom oceniającym zgodność. Akredytacja PCA jest formalnym potwierdzeniem kompetencji danej jednostki do wykonywania działań w zakresie oceny zgodności, takich jak badania, certyfikacja, inspekcja i inne.

Proces Udzielania Akredytacji PCA

Proces uzyskania akredytacji PCA jest cykliczny i obejmuje kilka etapów:

1. Złożenie Wniosku o Akredytację

Podmiot ubiegający się o akredytację musi złożyć wniosek o akredytację (FA-01) do PCA. Wniosek należy złożyć pisemnie, a załączniki mogą być przekazane elektronicznie. Opłata za złożenie wniosku wynosi 500 zł dla laboratoriów i jednostek inspekcyjnych oraz 1000 zł dla pozostałych podmiotów.

2. Przegląd Wniosku przez PCA

PCA dokonuje przeglądu wniosku pod kątem kompletności i poprawności. W przypadku pozytywnej oceny wniosku, PCA informuje wnioskodawcę i przedstawia harmonogram dalszych etapów akredytacji. Jeśli wniosek jest niekompletny, wnioskodawca ma 20 dni roboczych na jego uzupełnienie.

3. Przegląd Dokumentacji i Wizytacja Wstępna (opcjonalna)

PCA dokonuje przeglądu dokumentacji systemu zarządzania jakością wnioskodawcy. Na tym etapie PCA decyduje, czy zasadne jest przeprowadzenie oceny na miejscu. Wizytacja wstępna jest opcjonalna i przeprowadzana na wniosek podmiotu ubiegającego się o akredytację. Jej celem jest wstępne sprawdzenie wdrożenia systemu zarządzania i kompetencji technicznych.

4. Ocena na Miejscu i Obserwacja

PCA przeprowadza ocenę na miejscu w siedzibie wnioskodawcy i we wszystkich lokalizacjach, gdzie prowadzona jest działalność. Ocena obejmuje system zarządzania jakością oraz świadczenie usług w zakresie oceny zgodności. Po ocenie PCA przekazuje wnioskodawcy raport z oceny.

5. Działania Korygujące i Ich Ocena

Jeśli podczas oceny na miejscu zostaną stwierdzone niezgodności, wnioskodawca ma 2 miesiące na ich naprawę i przedstawienie dowodów. W przypadku poważnych niezgodności termin ten wynosi 10 dni. PCA dokonuje oceny wdrożonych działań korygujących poprzez przegląd dokumentacji lub ocenę na miejscu.

6. Wydanie Certyfikatu Akredytacji

Po pozytywnej ocenie działań korygujących i spełnieniu wszystkich wymagań akredytacyjnych, PCA wydaje certyfikat akredytacji. Certyfikat akredytacji jest ważny przez 4 lata. W okresie ważności certyfikatu PCA monitoruje działalność akredytowanego podmiotu poprzez nadzory okresowe.

Terminy i Opłaty

Zaleca się złożenie wniosku o akredytację minimum 12 miesięcy przed oczekiwanym terminem uzyskania akredytacji. Czas trwania procesu akredytacji zależy od PCA i działań wnioskodawcy. Opłaty za poszczególne etapy procesu akredytacji są ustalane indywidualnie na podstawie cennika opłat PCA.

Odwołania

W przypadku odmowy udzielenia akredytacji, wnioskodawca ma prawo odwołać się do Komitetu Odwoławczego PCA w terminie 14 dni od otrzymania decyzji odmownej.

Podsumowanie

Analiza Głównych Składowych (PCA) jest niezwykle przydatnym narzędziem w dziedzinie analizy danych, umożliwiającym redukcję wymiarowości i uproszczenie złożonych zbiorów danych. Jej szerokie zastosowanie w różnych dziedzinach, od neuronauki po finanse, potwierdza jej znaczenie w nowoczesnym świecie danych. Jednocześnie, dla podmiotów działających w obszarze oceny zgodności, akredytacja PCA stanowi potwierdzenie kompetencji i wiarygodności. Zrozumienie zasad działania PCA oraz procesu akredytacji PCA jest kluczowe dla efektywnego wykorzystania tej techniki i budowania zaufania w sektorze oceny zgodności.

Jeśli chcesz poznać inne artykuły podobne do Analiza Głównych Składowych (PCA): Zastosowania i Akredytacja, możesz odwiedzić kategorię Rachunkowość.