Sari la conținut

Boxplot

De la Wikipedia, enciclopedia liberă

Diagrama Boxplot este un grafic care înglobează cele mai importante caracteristici statistice ale unor distribuții de frecvență, pentru a oferi o mai bună înțelegere și comparație. A fost creată de John Wilder Tukey.[1]

Diagrama Boxplot oferă informații privind tendința centrală și forma distribuției studiate.

Descrierea diagramei

[modificare | modificare sursă]

O diagramă de tip Boxplot reflectă grafic rezumarea prin cele 5 valori ale unei distribuții: valoarea minimă, prima cuartilă (sau cuartila inferioară), mediana, a treia cuartilă (sau cuartila superioară) și valoarea maximă. Graficul va prezenta de asemenea și valorile aberante sau valori situate mult în afara distribuției. Înainte de trasarea diagramei se ordonează toate valorile datelor, crescător, de la cea mai mică până la cea mai mare valoare.

- Xmin Valoarea minimă denumită și percentila 0 este cea mai mică valoare observată din șirul de valori, exceptând valorile aberante.

Percentila este valoarea unei variabile sub care se încadrează („cade”) un anumit procent din observații. De exemplu, percentila 20 este valoarea sub care pot fi găsite 20% din observații.

- Q1 Cuartila inferioară delimitează cele mai mici 25% din valorile observate. Cuartila este oricare din cele trei valori ale unei variații care divid datele sortate în patru grupe egale cu același număr de date observate, deci fiecare grupă reprezentând o pătrime din populația totală.

- Me; Mediana delimitează 50% din valori (intervalul cuprins între cea mai mică valoare observată și mediană conține 50% din valorile observate, iar intervalul cuprins între valoarea mediană și cea mai mare valoare observată conține celelalte 50% din valorile observate). A doua cuartilă se confundă cu mediana. Dacă numărul total de valori n este par, mediana este reprezentată de media aritmetică a celor două valori cu numerele de ordine n/2 și n/2 + 1, adică:

  Mediana Me = (Xn/2 + Xn/2+1)/2

Dacă numărul total de valori n este impar, atunci mediana reprezintă valoarea observată al cărei număr de ordine este (n+1)/2:

  Mediana Me = X(n+1)/2

-Q3 Cuartila superioară delimitează cele mai mari 25% din valorile observate.

-Xmax Valoarea maximă denumită și a 100-a percentilă este cea mai mare valoare observată, exceptând valorile aberante.

-Intervalul dintre cuartile IQR (sau intercuartilă) este intervalul cuprins între Q3 și Q1.

  IQR=Q3-Q1

-Valorile aberante (engleză outliers) sunt considerate valorile mai mari decât Q3 + 1,5xIQR sau valori mai mici decât Q1 - 1,5xIQR. Intervalul IQR este reprezentat grafic printr-un dreptunghi („cutie”). În interiorul său se află mediana reprezentată grafic prin o linie orizontală. Intervalele (Xmin , Q1) și (Q3 , Xmax) sunt reprezentate de câte o linie (engleză whisker =„mustață”) trasată în continuarea dreptunghiului. Valorile aberante sunt reprezentate prin „* ”

Reprezentarea grafică poate fi orizontală sau verticală, semnificațiile termenilor rămânând aceleași.

Analiza diagramei

[modificare | modificare sursă]

Odată ce a fost trasată diagrama, aceasta este analizată, observând:

  • Poziționarea medianei
  • Intercuartila datelor: cât de departe sunt poziționate cuartilele față de mediană
  • Simetria distribuției datelor
  • Existența punctelor aberante.[2]

În cazul în care se compară mai multe șiruri de date se repetă construirea diagramei pentru fiecare șir în parte.

Variante ale diagramei boxplot

[modificare | modificare sursă]

Au fost propuse, în timp, mai multe variante pentru calcularea, trasarea și utilizarea diagramei boxplot.

Diagrama boxplot modificată. Se calculează media aritmetică a tuturor valorilor observate și se evidențiază printr-un punct plasat pe dreptunghi. Cu cât media aritmetică este mai apropiată de mediană, cu atât distribuția este mai simetrică.

Diagrame boxplot „fantome” sau diagrame de control boxplot. O diagramă boxplot poate fi reprezentată prin linii punctate direct pe o diagramă (fișă) de control, cu scopul de a ilustra o imagine de ansamblu a datelor.

  1. ^ John W. Tukey, Exploratory Data Analysis. Addison-Wesley, 1977
  2. ^ Nancy R. Tague, Instrumentele calității. Ediția a doua. Trad. din l. engleză. Sibiu 2010, pp. 152-158
Commons
Commons
Wikimedia Commons conține materiale multimedia legate de Boxplot