Bir veri setiyle karşılaştığımızda ilk yaptığımız iş, onu özetlemektir. Verinin en küçüğü ne? Ortalaması kaç? Tam ortasında hangi değer var?
Bu sorulara cevap vermek için R’ın hazır matematiksel fonksiyonlarını kullanırız. Bu dersimizde min, max, mean, median ve quantile fonksiyonlarını basit bir örnek üzerinden inceleyeceğiz.
Öncelikle üzerinde çalışacağımız basit bir sayı dizisi (vektör) oluşturalım:
x <- 1:5
Bu kod hafızada şu diziyi oluşturur: 1, 2, 3, 4, 5
Şimdi bu veri seti üzerinde analizlerimizi yapalım.
1. En Küçük ve En Büyük Değerler (min & max)
Verinin sınırlarını (Range) belirlemek için kullanılır. Veri setindeki en düşük ve en yüksek sayıyı bulur.
En küçük değeri bulmak için
min(x)
Sonuç: 1
En büyük değeri bulmak için
max(x)
Sonuç: 5
2. Aritmetik Ortalama (mean)
Hepimizin okuldan bildiği ortalama hesabıdır. Tüm sayıları toplar ve sayı adedine böler. (1 + 2 + 3 + 4 + 5) / 5 işlemini yapar.
Ortalamayı hesaplamak için
mean(x)
Sonuç: 3
3. Ortanca Değer (median)
Medyan, veri setini küçükten büyüğe sıraladığımızda tam ortada duran sayıdır.
Neden Önemli? Ortalama (mean), aşırı yüksek veya düşük değerlerden çok etkilenir. Ancak Medyan etkilenmez. Bu yüzden “gelir düzeyi” gibi analizlerde ortalama yerine genellikle medyan kullanılır.
Ortanca değeri bulmak için
median(x)
Sonuç: 3
(Bizim örneğimizde veriler simetrik olduğu için Ortalama ve Medyan eşit çıktı, ancak gerçek hayatta genellikle farklı çıkarlar.)
4. Çeyreklikler ve Yüzdelik Dilimler (quantile)
Veri setini sadece ortadan ikiye değil, belirli yüzdelik dilimlere bölmek istediğimizde quantile fonksiyonunu kullanırız.
Bu fonksiyon bize verinin “fotoğrafını” çeker ve şu değerleri verir:
- %0: Minimum değer
- %25: İlk çeyrek (Verinin ilk %25’lik kısmı bu değerin altındadır)
- %50: Medyan (Tam orta)
- %75: Üçüncü çeyrek
- %100: Maksimum değer
Verinin çeyrekliklerini görmek için
quantile(x)
Çıktı şöyle görünecektir:
0% 25% 50% 75% 100%
1 2 3 4 5
Özetle
Veri analizine başlarken R’da en sık kullanacağınız 5 temel fonksiyon şunlardır:
- min(): En düşük değer.
- max(): En yüksek değer.
- mean(): Aritmetik ortalama.
- median(): Sıralı dizideki orta değer.
- quantile(): Verinin dağılımını gösteren yüzdelik dilimler.
