Veri Bilimi (Data Science) Nedir?

Veri Bilimi (Data Science) Nedir?

Veri Biliminin önemini belirlemek için ilk önce Verinin ne olduğunu ve günlük hayatta ne kadar veri akışı olduğundan bahsetmek istiyorum. O zaman başlayalım.

Veri Nedir?

Veri hamdır, işlenmemiş ve analiz edilmemiş. Bu veri analiz edilip işlenince bilgi olur. Bu veri analiz edilip işlenince bilgi olur. Bir verinin tek başına bir anlamı ve işlevi bulunmamaktadır. Ama bu veri bir araya getirilip işlenirse bu bilgi olur. Bilgi ve Veriyi daha iyi anlamak için örneklerle anlatalım.

 

Veri: Ali: 65, Zeynep: 64, Nur: 96, Ahmet: 59, Kemal: 45, Büşra: 94… (Öğrencilerin Ort.)

Bilgi: Kızların ortalaması erkeklerden fazladır.

 

Veri Biliminin kısaca tanımı, veriden anlamlı bilgi çıkarma işlemi diyebiliriz. Veriden anlamlı bilgi çıkarmak için elimizdeki Veri Miktarı çok önemlidir. Bu konuyu biraz daha detaylı anlatmak istiyorum. Elimizdeki verinin boyutunu iyice anlamanız için aşağıdaki resme iyice bakmanızı tavsiye ederim.

 

 

   Ne kadar hızla veri üretiğimize bakmanizi isterim.

 

  • 2005 yılında üretilen toplam veri: 130 EB 

  • 2010 yılında üretilen toplam veri: 1200 EB 

  • 2015 yılında üretilen toplam veri: 7900 EB 

  • 2020'de tahminen 40900 EB veri

 

2017-2018 yıllarında 1 dakikada üretilen veri miktarları:

 

 

2019 yılında 1 günde üretilen veri miktarı:

 

 

Bu resmi daha detaylı incellemek isteyenler Cloudinary.[1] Global yerine sadace Türkiye odaklı çalişmaları görmek isteyenler için, 2019 Türkiye İnternet Kullanım ve Sosyal Medya İstatistikleri[2] Yazıyı uzatıp fazla sıkmak istemediğim için bu konu hakkındaki araştırmaları link olarak bırakacağım.[3-8] Veri Bilimin bu kadar kıymetli hale getiren başlıca sebeplerden birisi elimizdeki verilerin çok fazla artmasıdır. Diğer sebep ise, bu verileri işleyecek donanımlar eskiden yetersizdi. Şimdi durum farklı, donanımlar daha fazla gelişmiş durumdadır.

 

Veri Bilimi Nedir?

Veri bilimi, karmaşık problemleri çözmek için hem yapılandırılmış hem de yapılandırılmamış veriyi, işe yarar/değerli bilgiye dönüştürmeye yarar.[9] Veri bilimi; Alan Uzmanlığı, Programlama Becerileri, Matematik ve İstatistik bilgisi ve Kişisel Beceriler(analitik düşünme,problem çözme gibi yetenekler) gibi çeşitli alanlarını kullanarak verilerden anlamlı bilgi çıkarma işlemine Veri Bilimi diyebiliriz.

 

1.Programlama Becerisi:

 

İlk önce Programlama Beceresinden bahsetmek istiyorum. Dil fanatikliği yapmak istemiyorum. Bu yüzden elimizdeki verilere bakarak konuşmak istiyorum. 

 

Veri biliminde en çok kullanılan 5 programlama dili :

 

  • Python (%57),

 

  • C/C++ (%44),

 

  • Java (%41),

 

  • R (%37), ve

 

  • JavaScript (%28) dir. [10]

 

IEEE Spectrum’un 2018 için hazırladığı programlama dillerinin kullanımıyla ilgili araştırmanın sonuçları da şöyle: 

 

 

Başka bir araştırmacının, iş ilanlarına göre bir rapor hazırlamış. Onu görelim.[11]

 

 

Türkiyedeki Veri Bilimcilerin katıldığı bir anketin sonuçlarını paylaşmak istiyorum.[12] 

 

Deniz Kılınç Hocanın Veri Biliminde  Python ve R dili hakkındaki tweet serisini: Deniz Kılınç-Twitter[13]

 

2.Matematik ve İstatistik

 

a. Lineer Cebir:

Lineer Cebir öğrenmek için tavsiye ettiğim eğitim:

 

 

b. Matematik:

Matematik için tavsiye ettiğim eğitim:

 

 

c. Olasılık ve İstatistik:

 

Veri Biliminde Olasılık ve İstatistik ayrı bir önem taşımaktadır. Bunun için datai team hazırlamış olduğu kursu izlemenizi veya Necmi Gürsakal hocanın kitaplarını bakmanızı tavsiye ederim. Neler öğrenmeliyiz derseniz kurs müfredatına bakmanız yeterlidir. 

 

 

 

Son olarak güzel bir cümle ile bu kısmı bitirmek istiyorum. 

 

Veri Bilimci, bir programcıdan çok istatistik bilen, bir istatistikçiden çok programlama bilen kişiye denir.

 

3. Alan Uzmanlığı

Veri Biliminde bu konu aslında çok önemlidir. Hatta yanınızda uzman birileri olmadan o alanda çalişma yapmayın diyenler de var. Çünkü bazen veriler bizi yanıltabılır. O alan hakkında uzman olun demiyoruz, fakat en azından biraz bilginiz olmanız sizin doğru sonuçlar üretmeniz için daha rahat olacaktır. Deniz Kılınç hocam yazısında bu soruyada değinmişti. Onu da okumanızı tavsiye ederim.(5.soru kısmında soruldu.)

 

 

Veri Bilimin ne olduğu ve alanlardan bahsettik. Şimdi daha iyi kavramak için, birkaç örnek verip Merve Ayyüce Kızrak hocanın yazısına yönlendirmek istiyorum.

 

Gerçek Hayattan Veri Bilim Projeleri:

 

  • Müşterilerinizin hangi ürünlere baktığını, satın alma geçmişini, yaşı ve geliri gibi mevcut verilerden müşterilerinizin ne istediğini bilseydiniz nasıl olurdu? Kuşkusuz tüm bu verilere daha önce sahip oldunuz, ancak şimdi çok miktarda ve çeşitli verilerle,modelleri daha etkin şekilde eğitebilir ve ürünü müşterilerinize daha hassas bir şekilde önerebilirsiniz. Bu şekilde şirketinizi geliştirmesini artırabilirsiniz.

 

  • Örnek olarak hava tahminini alalım. Modeller oluşturmak için gemilerden, uçaklardan, radarlardan, uydulardan veriler toplanabilir ve analiz edilebilir.Bu modeller sadece havayı tahmin etmekle kalmayacak, aynı zamanda herhangi bir doğal felaketin ortaya çıkmasını öngörmede de yardımcı olacaktır. Önceden uygun önlemleri almanıza ve birçok değerli hayatı kurtarmanıza yardımcı olacaktır.

 

  • Amazon’un tavsiye motorları, algoritmaları tarafından belirlenir ve satın almanız için öğeler önerir. Netflix ise size filmler önerir. Spotify ise size müzik önerir.

 

Merve Ayyüce Kızrak hocanın yazısı için: Yapay Zeka Kullanım Alanları- Medium[19]

 

Yazıyı daha fazla uzatmak istemiyorum. Bu yazıda kısaca Verinin ne olduğundan, veri akışından, veri biliminin tanımı ve bileşenlerinden, veri biliminin kullanım alanlarından gibi konuları anlattık. Veri Bilimcilerin ne yapar? Nasıl veri bilimci olurum? Veri Bilim Araçları nelerdir? Gibi soruların cevaplarını web sitede mevcuttur. Fakat o yazıları güncelleyeceğim den dolayı takipte kalmanızı tavsiye ederim. O konulara bakmak isteyenler için link koyacağım.

 

 

 

 

 

 

 

 

 

Son olarak kişisel verilerin ne kadar önemli olduklarını iyice anlamanız için size bir film tavsiye edeceğim.

 

Filmin ismi: Great Hack (Veri Bilimcilerin izlenmesi gereken filmler hakkında bir yazı yakında gelecek.)

 

Yazımı okuduğunuz için teşekkür ederim. Sorularınız varsa yorum kısmına yazabilirsiniz.

 

Referanslar:

 

  1. http://res.cloudinary.com/yumyoshojin/image/upload/v1/pdf/future-data-2019.pdf

  2. https://dijilopedi.com/2019-turkiye-internet-kullanim-ve-sosyal-medya-istatistikleri/

  3. https://www.internetlivestats.com/google-search-statistics/

  4. https://thenextweb.com/contributors/2019/01/30/digital-trends-2019-every-single-stat-you-need-to-know-about-the-internet/

  5. https://blog.microfocus.com/how-much-data-is-created-on-the-internet-each-day/#

  6.  https://biographon.com/youtube-stats/

  7. https://www.omnicoreagency.com/instagram-statistics/

  8. https://www.omnicoreagency.com/facebook-statistics/

  9. https://en.wikipedia.org/wiki/Data_science

  10. https://medium.com/@ayyucekizrak/yapay-zekaya-ba%C5%9Flama-rehberi-91e79d3de8e1

  11. https://towardsdatascience.com/which-programming-language-should-data-scientists-learn-first-aac4d3fd3038

  12. https://www.linkedin.com/in/caksu/

  13. twitter.com/denizkilinc/status/1054118902232481792

  14. https://tr.khanacademy.org/math/linear-algebra

  15. https://tr.khanacademy.org/math/multivariable-calculus

  16. https://www.udemy.com/course/istatistik-python-adan-zye-temel-istatistik-bilimi-6

  17. https://www.kitapyurdu.com/yazar/prof-dr-necmi-gursakal/18947.html

  18. https://medium.com/@denizkilinc/yapay-zeka-ile-ilgili-ortaya-kar%C4%B1%C5%9F%C4%B1k-notlar-ve-sorular-279f75ba7a90

  19. https://medium.com/@ayyucekizrak/yapay-zeka-kullan%C4%B1m-alanlar%C4%B1-ve-uygulamalar%C4%B1na-derinlemesine-bir-bak%C4%B1%C5%9F-d0fecaf7f61b