Scanarea datelor pentru depistarea erorilor

Inainte de efectuarea analizelor statistice, datele sunt supuse unei examinari privind calitatea acestora. Aceasta operatie are scopul evidentierii posibilelor erori existente in setul de date pentru a se remedia aceste erori inainte de a se trece la analiza statistica propriu-zisa. Rezultatul controlului calitatii datelor este crearea automata a unui fisier text care cuprinde urmatoarele informatii:

  • Distributia erorilor mentionate dupa ID-ul (numarul liniei) de inregistrare a datelor in scopul identificarii rapide a erorilor (pentru corectare usoara si rapida). De exemplu, "List of values with incorrect format: record_id: 1908; field_name: creatinina", cu alte cuvinte, pe linia 1908 din tabela, creatinina are valoare gresita. Gasim, astfel, foarte rapid valoarea creatininei, si vedem ca este 95mg/dl in loc de 9,5 mg/dl. Se face corectia si gata, la urmatoarea scanare BIRO nu mai da eroare pentru creatinina pe linia 1908. Pot fi alte erori pe care le gasim la fel de rapid si usor.
  • Numarul total de valori lipsa (de exemplu, "Total number of missing values: 6887 (17.339%)").
  • Numarul total de valori cu format incorect (de exemplu,"Total number of values with incorrect format: 1 (0.003%)" ).
  • Numarul total de valori situate in afara valorilor posibil admise (de exemplu,"Total number of out of range values: 6 (0.015%)" ).
  • Numarul total de valori incoerente ( de exemplu, "Total number of not coherent values: 0 (0.000%)").
  • Numarul total de valori duplicat (de exemplu, "Total number of duplicates: 0 (0.000%)").

( 0 Votes )