Veriyi Kavramak için Veri Görselleştirmeyi Kullanmak

Veri Gazeteciliği El Kitabı o5.08 Bölümünden Dağ Medya çeviri ekibi tarafından 2015’de çevrilmiştir. http://www.verigazeteciligi.com/veriyi-kavramak-icin-veri-gorsellestirmeyi-kullanmak/ 


——–
Görselleştirme, veri analizi için kritik öneme sahiptir. Verinin girift (çapraşık) yapısını başka türlü içselleştirilemeyeceğimiz bir şekilde ortaya koyabilmemizi sağlayan öncü cephemizdir. Görselleştirme sayesinde önceden tahmin edilebilir etkileri sorugulayabilir, edilemeyenleriyse keşfederiz.
——–

Veri, bir bilgisayarın sabit diskinde depolanmış bir dosyadaki bit ve baytlardan oluşur ve görünmezdir. Veriyi görebilmek ve anlamlandırabilmek için onu görselleştirme ihtiyacı duyarız. Bu bölümde, görselleştirmek terimine dair verinin safi metinsel gösterilişini de içeren geniş kapsamlı bir tanım kullanacağım. Örneğin, bir veri setinin bir hesap tablosu yazılımına yüklenmesi veri görselleştirme olarak kabul edilebilir. Görünmez veri ekranımızda birden görünür bir “resme” dönüşüverir. Öyleyse soru gazetecilerin veriyi görselleştirmeye ihtiyaçları olup olmadıkları değil, hangi tür görselleştirmenin hangi tür durumlarda en kullanışlı olacağıdır.

Bir başka deyişle: tablo görselleştirmenin ötesine geçmek ne zaman anlamlı olur? Kısa cevap: çoğu zaman olacaktır. Tablolar yalnız başlarına bir veri seti hakkında bize kesinlikle yeterince bilgi verici değildir. Ayrıca tablolar yalnız başlarına verinin içindeki örüntüleri hemen fark edebilmemize imkan tanımazlar. Burada verebileceğimiz en yaygın örnek verinin ancak bir harita üzerinde görselleştirilmesi sonucunda anlamlanacağı coğrafi örüntüleridir. Fakat daha sonra bu bölümde göreceğimiz üzere bu örüntülerden daha başkaları da mevcuttur.

==== Yeni Anlayışlar Keşfetmek için Veri Görselleştirmeyi Kullanmak

Veri setlerinden veri görselleştirme araçları ve teknikleri vasıtası ile adeta bir yaylım ateşi gibi hazır haber öykülerinin çıkacağını beklemek gerçekçi olmaz. Bize bir haber öyküsünü garantileyebilecek hiçbir kural, hiçbir “protokol” yoktur. Bunun yerine, “yeni anlayışlar, kavramlar” arayışında olmak çok daha anlamlıdır ve bu arayış iyi bir gazetecinin elinde işlenerek haber öykülerine dönüştürülebilir.

Her yeni görselleştirmenin bizlere verilerimiz hakkında yeni ufuklar sunması olasıdır. Bu yeni ufuklardan bazıları halihazırda biliniyor (ancak henüz kanıtlanmamış) olabilir, bazıları ise tamamen yeni hatta bizler için tamamen sürpriz olabilir. Bazı yeni kavrayışlar yeni bir haber öyküsünün başlangıcını işaret ederken, diğerleri yalnızca verideki hataların sonucu olabilir. Bunların neredeyse tamamı veriyi görselleştirmekle fark edilebilir.

 

==== Veriyi nasıl görselleştireceğinizi öğrenin

Görselleştirme veri setine dair eşsiz bir perspektif sağlar. Veriyi çok çeşitli yollarla görselleştirebilirsiniz.

Görece olarak daha küçük boyutlardaki veri ile uğraşırken tabloları kullanmak çok faydalı olacaktır. Etiket ve miktarları olabilecek en düzenli ve organize şekilde gösterirler, veriyi filtreleme ve arama yapma olanakları ile verinin bütün potansiyel yönlerini ortaya koyarlar. Buna ek olarak Edward Tufte tablo sütunlarına küçük grafikler veya her satıra bir doğrusal grafik (bunlar kıvılcım-sparkline olarak adlandırılmıştır) ekleme önerisinde bulunmuştur ancak daha önceden de vurgulandığı üzere tabloların açık kısıtları vardır. Her ne kadar en iyi 10 gibi tek boyutlu aykırı verileri göstermekte çok iyi olsalar da, birçok boyutu (mesela zaman içerisindeki bir ülkedeki nüfus değişimi) aynı anda karşılaştırmak için yetersiz kalırlar.

 

Tablolar, genellikle, verilerinizin harita ölçeklerini geometrik şekil ölçülerine çevirmeye yarar.Görsel özelliklerin etkililiği ile ilgili yazılı çok şey bulunuyor, bunun kısa versiyonu ise;renklerin zor, pozisyonun her şey olduğudur.Örneğin, bir düzlem içinde x ve y koordinatlarına göre konumlandırılmış iki boyut vardır. Bununla birlikte,görünen simgelerin renk ve boyutlarına bağlı üçüncü bir boyut gözlemleyebilirsiniz.Çizgi grafikler,zamansal değişim içeren olayları göstermek için uygunken,çubuk grafikler farklı kategorilerdeki verileri karşılaştırmak için mükemmeldir. Verilerinizi üst üste kümeleyebilirsiniz. Eğer az sayıda bir grubu karşılaştırmak isterseniz, aynı grafikte birden çok durumu göstermek güçlü bir yoldur. Bütün grafiklerde, verilerinizin farklı yönlerini keşfetmek için değişik türlerde ölçüler kullanabilirsiniz. (örn.,doğrusal ya da logaritmik ölçü)

Aslında üzerinde çalıştığımız çoğu veri insanlarla ilişkilidir. Haritanın gücü bizim fiziksel dünyamızla tekrar iletişim halinde olması. Suç olaylarının haritalandırıldığı bir veri seti düşünün. Suçun nerede yaşandığını görmek istersiniz. Ayrıca haritalar veri içindeki coğrafi ilişkileri de ortaya çıkarabilir.

 

İlişkiler hakkında konuşurken en önemli görselleştirme yöntemlerinden dördüncüsü bir grafiktir. Grafikler tamamı ile veri noktalarınız (düğüm noktaları) ve aralarındaki bağlantılar (uçlar) hakkındadır. Düğüm noktalarınızın konumu ağın iç yapısını hızlı bir şekilde görmemize olanak sağlayan az ya da çok karmaşık grafik düzenleme algoritmaları tarafından hesaplanır. Grafik görselleştirmenin asıl numarası genelde ağın kendisini modelleyebilecek doğru metodu bulmakta gizlidir. Her veri seti ilişkileri halihazırda içermiyor olabilir; içerseler bile, bakılacak en ilginç şey bu olmayabilir. Bazı durumlarda düğüm noktalarının arasındaki uçları tanımlamak gazeteciye kalmış bir durumdur.

===== Gördüğünüzü analiz edin ve yorumlayın

Bir defa verinizi görselleştirdiğinizde sıradaki basamak yarattığınız bu resimden bir şeyler öğrenmektir. Kendinize sorabilirsiniz:

* Ben bu resimde ne görebilirim? Bunu görmeyi mi bekliyordum?
* İlginç kalıplar /detaylar var mı?
* Veri bağlamında bu ne anlama geliyor?

Bazen bütün güzelliğine rağmen veriniz hakkında size ilginç hiçbir şey söylemeyen bir görselleştirme ile başbaşa kalabilirsiniz. Fakat neredeyse her durumda her görselleştirmeden öğrenilebilecek (ne kadar küçük olursa olsun) ilginç bir şeyler vardır.

===== Basamakları ve çıkarımlarınızı dokümante edin

Eğer bu süreci veri seti üzerinden bir yolculuk olarak düşünürseniz, dokümantasyon sizin seyahat günlüğünüzdür. Sizin nerelere seyahat ettiğinizi, oralarda neler gördüğünüzü ve sonraki seçimlerinizi nasıl oluşturduğunuzu söyleyecektir. Verinize ilk kez bakmadan önce bir dokümante etmeye başlayabilirsiniz.

Daha önce görülmemiş bir veri setiyle çalışmaya başladığımız çoğu durumda çok önceden veri ile ilgili önkabuller ve beklentiler ile dolmuş oluruz. Genellikle çalıştığımız veri seti ile neden ilgilendiğimiz hakkında bir sebebimiz vardır. Dokümantasyona bu ilk düşünceleri not ederek başlamak iyi bir fikir olabilir. Bu bize önyargılarımızı tanımlamamızda yardımcı olur, ve ne bulmak istiyorsak onu bularak veriyi yanlış yorumlama riskimizi azaltır.

Gerçekten dokümantasyonun bu süreçteki en önemli basamak olduğunu düşünüyorum. Ayrıca bu basamağın atlamaya en yatkın olduğumuz basamak olduğunu da… Aşağıdaki örnekte de görebileceğiniz üzere tarif edilen süreç birçok çizim ve veriyle mücadeleyi içeriyor. Yarattığınız 15 grafikten oluşan bir sete bakmak oldukça kafa karıştırıcı olabilir, özellikle de bunun üzerinde belli bir zaman geçtikten sonra. Aslında bu grafikler (size veya bulgularınızı anlatmak istediğiniz kişiye) ancak yaratıldıkları bağlamla beraber sunulduklarında gerçekten bir anlam taşırlar. Bu yüzden şu gibi şeyler üzerine notlar almak için ilgili zamanı ayırmanız gerekir:

* Bu grafiği niye ürettim?
* Bunu üretmek için veriye ne yaptım?
* Bu grafik bana ne söylüyor?

===== Veriyi dönüştürün

Doğal olarak, son görselleştirme üzerinden yaptığınız çıkarımlarla beraber sırada ne göreceğinize dair bir fikriniz oluşabilir. Veri seti içerisinde şimdi daha detaylı incelemek isteyebileceğiniz bazı ilginç kalıplar olabilir.

Olası dönüşümler şunlardır:

Yakınlaştırmak
Görselleştirme içerisindeki belirli bir detaya ayrıca bakmak
Bir araya getirme
Birçok veri noktasını tek bir grupta birleştirme
Filtreleme
Ana odağımızda olmayan veri noktalarını (geçici olarak) yok saymak, ortadan kaldırmak
Aykırılıkları yok etmek
Veri setinin %99’u temsil etmeyen tekil noktalardan kurtulmak
Diyelim ki, bir grafik oluşturdunuz; sonucunda anlam ifade etmeyen birbirine yüzlerce hücreyle bağlanmış bir düğüm yığını ortaya çıktı. (görselleştirmede “yoğun bağlı ağlar” olarak adlandırılan çok yaygın bir sonuç). Bunun için yapılabilecek en genel düzeltme adımı; bazı hücreleri filtrelemek olabilir. Örneğin, eğer hücreler, bir ülkeden diğer ülkeye para akışını temsil ediyorsa, belirli bir miktarın altındaki para akışını temsil eden bütün göstergeleri silebiliriz.

==== Hangi Araçlar Kullanılabilir?

Araçların kullanım kolaylığı önemli bir nokta. Her veri görselleştirme aracının iyi olduğu bir konu vardır. Görselleştirme ve veri işleme, ucuz ve kullanımı kolay olmalıdır. Eğer görselleştirmenizin etkenlerini değiştirmek saatlerinizi alıyorsa, bu deneyimi daha fazla yaşamak istemezsiniz. Bu, aracı kullanmayı öğrenmenize gerek olmadığı anlamına gelmiyor. Fakat öğrendikten sonra, aracın gerçekten etkili olması gerekli.

Bir aracın veri çekme ve veri görselleştirme işlerinin ikisini de yapabilmesi çok şey ifade ediyor. Bunları yapmak için iki farklı araç kullanmanız, verilerinizi sık sık dışa ve içe aktarmanız anlamına gelir. Burada hem veri çekme hem de görselleştirme yapan araçların kısa bir listesini bulabilirsiniz.

* LibreOffice, Excel veya Google Docs gibi hesap tablosu programları
* R (r-project.org) veya Pandas (pandas.pydata.org) gibi istatistiksel programlama çerçeveleri
* Quantum GIS, ArcGIS, veya GRASS gibi Coğrafi Bilgi Sistemleri (GIS)
* d3.js (mbostock.github.com/d3), Prefuse (prefuse.org), veya Flare (flare.prefuse.org) gibi Görselleştirme Kütüphaneleri
* Open Refine veya Datawrangler gibi veri düzenleme araçları
* ManyEyes veya Tableau Public (tableausoftware.com/products/public) gibi programlama bilgisine ihtiyaç duymadan kullanılabilecek görselleştirme araçları

Yorumlar

yorumlar

Yazar Hakkında

Benzer yazılar

Yanıt verin.

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir