R Basit Veri Analiz Fonksiyonları: Veriyi Tanımanın İlk Adımı

Bir veri setiyle karşılaştığımızda ilk yaptığımız iş, onu özetlemektir. Verinin en küçüğü ne? Ortalaması kaç? Tam ortasında hangi değer var?

Bu sorulara cevap vermek için R’ın hazır matematiksel fonksiyonlarını kullanırız. Bu dersimizde min, max, mean, median ve quantile fonksiyonlarını basit bir örnek üzerinden inceleyeceğiz.

Öncelikle üzerinde çalışacağımız basit bir sayı dizisi (vektör) oluşturalım:

x <- 1:5

Bu kod hafızada şu diziyi oluşturur: 1, 2, 3, 4, 5

Şimdi bu veri seti üzerinde analizlerimizi yapalım.

1. En Küçük ve En Büyük Değerler (min & max)

Verinin sınırlarını (Range) belirlemek için kullanılır. Veri setindeki en düşük ve en yüksek sayıyı bulur.

En küçük değeri bulmak için

min(x)

Sonuç: 1

En büyük değeri bulmak için

max(x)

Sonuç: 5

2. Aritmetik Ortalama (mean)

Hepimizin okuldan bildiği ortalama hesabıdır. Tüm sayıları toplar ve sayı adedine böler. (1 + 2 + 3 + 4 + 5) / 5 işlemini yapar.

Ortalamayı hesaplamak için

mean(x)

Sonuç: 3

3. Ortanca Değer (median)

Medyan, veri setini küçükten büyüğe sıraladığımızda tam ortada duran sayıdır.

Neden Önemli? Ortalama (mean), aşırı yüksek veya düşük değerlerden çok etkilenir. Ancak Medyan etkilenmez. Bu yüzden “gelir düzeyi” gibi analizlerde ortalama yerine genellikle medyan kullanılır.

Ortanca değeri bulmak için

median(x)

Sonuç: 3

(Bizim örneğimizde veriler simetrik olduğu için Ortalama ve Medyan eşit çıktı, ancak gerçek hayatta genellikle farklı çıkarlar.)

4. Çeyreklikler ve Yüzdelik Dilimler (quantile)

Veri setini sadece ortadan ikiye değil, belirli yüzdelik dilimlere bölmek istediğimizde quantile fonksiyonunu kullanırız.

Bu fonksiyon bize verinin “fotoğrafını” çeker ve şu değerleri verir:

  • %0: Minimum değer
  • %25: İlk çeyrek (Verinin ilk %25’lik kısmı bu değerin altındadır)
  • %50: Medyan (Tam orta)
  • %75: Üçüncü çeyrek
  • %100: Maksimum değer

Verinin çeyrekliklerini görmek için

quantile(x)

Çıktı şöyle görünecektir:

0% 25% 50% 75% 100%

1 2 3 4 5

Özetle

Veri analizine başlarken R’da en sık kullanacağınız 5 temel fonksiyon şunlardır:

  1. min(): En düşük değer.
  2. max(): En yüksek değer.
  3. mean(): Aritmetik ortalama.
  4. median(): Sıralı dizideki orta değer.
  5. quantile(): Verinin dağılımını gösteren yüzdelik dilimler.