Şu ana kadar R’da tekil değişkenler oluşturduk ve basit veri tiplerini öğrendik. Ancak gerçek dünyada veriler tek tek sayılar halinde değil, devasa tablolar (Data Frame) halinde gelir. Bir veri bilimci olarak ilk göreviniz, elinize geçen bu veri setini tanımaktır.
Bu dersimizde; gerçek verileri nereden bulacağımızı (Kaggle), bu verileri RStudio’ya nasıl aktaracağımızı (read.csv) ve aktardıktan sonra tablonun röntgenini nasıl çekeceğimizi (str) öğreneceğiz.
1. Veri Kaynağımız: Kaggle.com
Gerçekçi analizler yapmak için gerçekçi verilere ihtiyacımız var. İşte tam bu noktada Kaggle devreye giriyor. Kaggle, veri bilimcilerin buluşma noktasıdır; içerisinde binlerce ücretsiz veri seti bulunur.
Bu ders için Kaggle’dan iki farklı veri seti indirdiğimizi varsayalım:
- Deprem Verisi: Depremlerin büyüklüğü ve tsunami riskini içeren bir set (earthquake_data_tsunami.csv).
- Akademik Stres Verisi: Öğrencilerin stres seviyelerini ölçen bir set (academic_stress_level.csv).
2. Veriyi RStudio’ya Aktarmak: read.csv()
İndirdiğimiz veriyi R’ın anlayabileceği bir tabloya dönüştürmek için read.csv() fonksiyonunu kullanırız.
Burada en çok dikkat etmeniz gereken nokta Dosya Yolu (File Path) konusudur. Windows kullanıcıları dosya yolunu kopyaladığında genellikle tek ters slash () görürler. R’da bu özel bir karakter olduğu için, dosya yollarında ya çift ters slash (\) ya da tek düz slash (/) kullanmalısınız.
Aşağıdaki kodlarda dosya yollarını kendi bilgisayarınıza göre düzenlemeyi unutmayın:
Veri setini içeri aktarma (Windows için çift slash kullanımı)
data <- read.csv(“C:\Kullanicilar\Masaustu\Proje\earthquake_data_tsunami.csv”)
İkinci veri setini içeri aktarma (Alternatif tek slash kullanımı)
data2 <- read.csv(“C:/Kullanicilar/Masaustu/Proje/academic_stress_level.csv”)
Bu kodları çalıştırdığınızda, sağ üstteki “Environment” panelinde “data” ve “data2” isminde veri setlerinizin belirdiğini göreceksiniz.
3. Tablodaki Bir Kolonun Tipini Öğrenmek: $ İşareti
Daha önce class() fonksiyonu ile tek bir verinin tipine bakıyorduk. Peki koca bir tablonun içindeki sadece bir sütunun (kolonun) tipini nasıl öğreniriz?
Burada sihirli operatörümüz Dolar İşareti ($) devreye girer. R’da tablonun isminin yanına $ koyduğunuzda, o tablodaki tüm sütunların listesi açılır.
Örneğin, deprem verisindeki “magnitude” (büyüklük) sütununun sayısal mı yoksa metin mi olduğunu merak ediyoruz:
data tablosunun içindeki magnitude sütununun tipine bakma
class(data$magnitude)
Bu kod bize muhtemelen “numeric” cevabını verecektir. Böylece o sütunla matematiksel işlem yapıp yapamayacağımızı anlarız.
4. Büyük Resme Bakmak: str() Fonksiyonu
Eğer veri setinizde 50 tane sütun varsa, hepsi için tek tek class() yazmak saatler sürer. Bunun yerine tablonun tam bir röntgenini (Structure) çeken str() fonksiyonunu kullanırız.
Bu, bir veri setini elinize aldığınızda çalıştıracağınız ilk kod olmalıdır.
Tablonun genel yapısını (structure) incelemek için:
str(data)
Diğer tablonun yapısını incelemek için:
str(data2)
str() Çıktısı Bize Ne Anlatır?
Bu fonksiyonu çalıştırdığınızda Konsol kısmında özet bir bilgi dökülür:
- Gözlem Sayısı (obs): Tabloda kaç satır veri var?
- Değişken Sayısı (variables): Tabloda kaç sütun var?
- Sütun Detayları: Her sütunun adını, veri tipini (num, chr, int, logi) ve içindeki ilk birkaç veriyi gösterir.
Özet
Veri analizine başlarken adımlarımız şunlardır:
- Veriyi Kaggle’dan bul ve indir.
- read.csv ile RStudio’ya aktar (Dosya yoluna dikkat!).
- Tek bir kolonu merak ediyorsan data$kolonAdi ve class() kullan.
- Tüm tablonun yapısını görmek için str() kullan.
