İçindekiler
R ile Tanımlayıcı İstatistikler: Veriyi Anlamanın Bilimsel Yolu
Giriş
R ile 8 Tanımlayıcı İstatistik. Veri analizi, bir araştırmanın kalbidir. Ancak ham veri, anlam ifade etmez; onu bilgiye dönüştürmek için özetlememiz gerekir. İşte bu noktada tanımlayıcı istatistikler (descriptive statistics) devreye girer. Tanımlayıcı istatistikler, büyük veri yığınlarını birkaç sayısal özet ile anlaşılır hale getirir. Ortalama, medyan, mod, varyans ve standart sapma gibi ölçüler, verinin temel yapısını ortaya koyar.
R Neden Tanımlayıcı İstatistiklerde Bu Kadar Güçlü?
R, istatistiksel analizler için özel olarak geliştirilmiş bir dildir. Kütüphanelerinin zenginliği, fonksiyonlarının hız ve doğruluğu sayesinde, akademiden endüstriye kadar binlerce veri bilimci tarafından kullanılır.
R’nin avantajları:
- Veriyi kolay özetleme (
summary(),mean(),sd()vb.) - Görselleştirme (boxplot, histogram)
- İleri istatistiksel testlerle entegrasyon (ANOVA, regresyon, korelasyon)
- Otomatik eksik veri yönetimi
1. Ortalama (Mean)
Ortalama, bir veri kümesinin merkezi eğilimini gösteren en yaygın ölçüdür. Verilerin toplamının gözlem sayısına bölünmesiyle bulunur.
Formül:

veri <- c(10, 12, 14, 15, 20, 22)
mean(veri)
Sonuç:
[1] 15.5
Bu veri kümesinde ortalama değer 15.5’tir. Ancak unutmayın: aşırı büyük veya küçük değerler (aykırı değerler) ortalamayı ciddi biçimde etkileyebilir.
2. Medyan (Median)
Medyan, sıralanmış verinin ortasındaki değerdir.
Veri dağılımı dengesizse, medyan ortalamadan daha güvenilir bir merkezi ölçüdür.
R Örneği:
veri2 <- c(10, 11, 12, 100)
median(veri2)
Sonuç:
[1] 11.5
Bu veri kümesinde 100 gibi büyük bir değer ortalamayı bozar, ancak medyan (11.5) dağılımın merkezini daha iyi temsil eder.
3. Mod (Mode)
Mod, bir veri setinde en sık görülen değerdir.
R dilinde mod için doğrudan bir fonksiyon yoktur, ancak aşağıdaki şekilde hesaplanabilir:
R Örneği:
mode_hesapla <- function(x) {
uniqx <- unique(x)
uniqx[which.max(tabulate(match(x, uniqx)))]
}
veri3 <- c(10, 12, 12, 13, 13, 13, 15)
mode_hesapla(veri3)
Sonuç:
[1] 13
Bu veri setinde 13 en sık görülen değerdir, yani mod 13’tür.
4. Varyans (Variance)
Varyans, verilerin ortalamadan ne kadar saptığını ölçer.
Birim kare cinsindendir.
Formül:

R Örneği:
veri4 <- c(8, 10, 12, 14, 16)
var(veri4)
Sonuç:
[1] 10
Varyans ne kadar büyükse, veri o kadar dağınıktır. Ancak yorumlamak zor olduğu için genelde standart sapma kullanılır.
5. Standart Sapma (Standard Deviation)
Varyansın kareköküdür.
Verinin ortalama etrafındaki yayılımını ölçer.
R Örneği:
sd(veri4)
Sonuç:
[1] 3.162278
Bu değer, ortalamadan ortalama uzaklığın yaklaşık 3.16 olduğunu gösterir. Standart sapma küçükse, veri daha homojendir.
6. Minimum ve Maksimum
Veri kümesinin en küçük (min) ve en büyük (max) değerleri, dağılımın sınırlarını gösterir.
R Örneği:
min(veri4)
max(veri4)
Sonuç:
[1] 8
[1] 16
Bu veri kümesinde gözlemler 8 ile 16 arasında değişmektedir.
7. Çeyrek Değerler (Quartiles)
Çeyrek değerler, veriyi dört eşit parçaya böler.
Özellikle veri dağılımını özetlemede kullanılır.
R Örneği:
quantile(veri4)
Sonuç:
0% 25% 50% 75% 100%
8 10 12 14 16
Yorum:
- 25% çeyreği (Q1): 10
- 50% çeyreği (medyan): 12
- 75% çeyreği (Q3): 14
Verinin yarısı 10 ile 14 arasındadır
8. Aykırı Değer (Outlier) Tespiti
Aykırı değerler, verinin genel eğilimini bozabilir.
R’da aykırı değerleri boxplot veya IQR yöntemi ile bulabiliriz.
R Örneği:
veri5 <- c(10, 12, 13, 14, 100)
boxplot(veri5)
R grafikte 100 değerini aykırı (nokta olarak) gösterecektir.
Alternatif olarak:
Q1 <- quantile(veri5, 0.25)
Q3 <- quantile(veri5, 0.75)
IQR <- Q3 - Q1
alt_sinir <- Q1 - 1.5 * IQR
ust_sinir <- Q3 + 1.5 * IQR
veri5[veri5 < alt_sinir | veri5 > ust_sinir]
Sonuç:
[1] 100
100 değeri, veri dağılımının genel yapısına göre aykırı değer olarak tespit edildi.
Dünyada En Çok Sorulan Sorular (FAQ)
1. Ortalama mı medyan mı daha güvenilir?
Eğer veri simetrik dağılmışsa ortalama, çarpık dağılmışsa medyan daha güvenilirdir.
2. R’de mod neden doğrudan hesaplanmaz?
Çünkü R daha çok istatistiksel analiz odaklıdır; mod kategorik verilerde daha çok kullanıldığı için elle fonksiyon tanımlanır.
3. Aykırı değerleri çıkarmalı mıyım?
Her zaman değil.
Aykırı değer hatalı ölçümse çıkarılır,
ama gerçek bir gözlemse analiz içinde kalmalıdır.
4. Varyans mı, standart sapma mı kullanılmalı?
Varyans yorumlamak için zordur çünkü birim kare cinsindedir.
Bu nedenle genelde standart sapma tercih edilir.
5. R’de tüm tanımlayıcı istatistikleri tek komutla alabilir miyim?
Evet!
summary(veri)
komutu ile minimum, maksimum, medyan, çeyrekler ve ortalama değerleri tek satırda özetleyebilirsin.
R ile Pratik Bir Mini Örnek:
data <- c(45, 50, 55, 60, 65, 70, 200)
mean(data) # Ortalama
median(data) # Medyan
var(data) # Varyans
sd(data) # Standart sapma
quantile(data) # Çeyrek değerler
boxplot(data) # Aykırı değer görselleştirmesi
Yorum:
200 değeri verinin geneline göre oldukça yüksektir ve boxplot grafiğinde aykırı değer olarak belirir. Ortalama 80.7 çıkarken, medyan 60’tır. Bu fark, dağılımın sağa çarpık olduğunu gösterir.
R’da Özetleme için Faydalı Paketler
| Paket | Açıklama |
|---|---|
| dplyr | Veri manipülasyonu ve özetleme |
| psych | Tanımlayıcı istatistik fonksiyonları (describe()) |
| summarytools | Ayrıntılı tablo özetleri |
| Hmisc | Eksik veri yönetimi + özet istatistikler |
Örnek:
library(psych)
describe(veri)
Tanımlayıcı istatistikler, verinin dilini anlamanın ilk adımıdır. Ortalama, medyan ve mod bize merkez hakkında bilgi verirken; varyans, standart sapma ve çeyrekler verinin nasıl yayıldığını gösterir. R programlama dili, bu işlemleri saniyeler içinde gerçekleştirerek analistin veriyi “okumasını” kolaylaştırır.
Eğer R Programını indirmek isterseniz buraya tıklayınız : R: The R Project for Statistical Computing – https://www.r-project.org/
Eğer R Studio Programını indirmek isterseniz buraya tıklayınız: RStudio Desktop – Posit – https://posit.co/download/rstudio-desktop/
Eğitimlerimize katılarak bu ve diğer projeleri uygulamalı olarak öğrenebilirsiniz. Eğitimlerimize ve diğer bilgilere buradaki linkten (https://www.facadium.com.tr/) ulaşabilirsiniz. Detaylı bilgi için lütfen bizlere 0553 377 29 28 numaralı telefondan ya da info@facadium.com.tr mail adresinden ulaşınız.
