Okulda Öğrenmediğim 4 Veri Bilim Becerisini Nasıl Öğrendim?

Okulda Öğrenmediğim 4 Veri Bilim Becerisini Nasıl Öğrendim?

Bu yazının ele alınması, bir şey açıklığa kavuşturmak istiyorum: Olması gereken bilim adamı olmak lisans derecesi lazım. Son teknoloji makine öğrenimi araştırması yapma makalesi (hangisi dürüst olalım, veri bilimcilerin% 99,9'unu tanımlamıyor - benim dahil!), Nasıl bir araştırma yapılacağına dair bir derece gerekli değildir. Sizi farklı bir şekilde anlatan bir boyut.

 

Bu, mezun okulda çok fazla değer becerisini söyledi. Dağınık halde başa çıkılacağını, iyi bir şekilde sormayı, güvenilirliği ve makineyi kullanmayı öğrenirsiniz.

 

Bunlar, her veri bilimcisinin ihtiyaç duyduğu becerilerdir. Neyse ki, bende aynı yerdeyseniz, seni ele geçirdim. Daha fazla zorlanma olmadan, burada, nasıl öğrenebileceğiniz konusunda bazı pratik ipuçları ile birlikte, okulda öğrenmediğim dört veri bilimi becerisi var.

 

SQL:

 

SQL

 

 

Veri bilimini bir kariyer olarak inceleyen çoğu yüksek lisans öğrencisi, R veya Python'u (ya da her ikisini de!) Zaten biliyorlar. Öte yandan, bu pozisyonda çok daha az kişi SQL'i bilir. Ve bu, veri bilimi iş piyasasına devam etmeye hazır olduğunuzda sorun olabilir: Python ve R'den sonra, SQL veri bilimindeki en yaygın kullanılan üçüncü araçtır .

SQL (genellikle “esquel” olarak telaffuz edilir), özellikle veritabanlarıyla etkileşim için bir programlama dilidir. Akademik bir bağlamda kullanıldığını görmek oldukça nadirdir, ancak endüstride her yerde mevcuttur. Neyse ki, temel bilgilerin öğrenilmesi nispeten kolaydır ve işe başlamanıza yardımcı olacak birçok eğitim kaynağı vardır.

 

SQL Nasıl Öğrenilir?:

 

  • Bir ders al , Khan Academy , DataCamp , Stanford ve Udemy'nin dersleri de dahil olmak üzere birçok çevrimiçi seçenek var . Şahsen kurslar bulmak biraz zor, ancak yerel bir üniversiteye, toplum kolejine ya da kod kampına bakarsanız şanslı olabilirsiniz.

 

  • Bir SQL portföyü geliştirin, Gerçek veritabanlarında sorgu yazma yeteneğinizin örneklerine sahip olmak, dile aşina olduğunuzu kanıtlar. Bir seçenek, Kaggle üzerindeki BigQuery veri kümelerinde çekirdekler (örn. R veya Python defterleri) yazmaktır. Başlaman için hızlı bir şekilde nasıl yazdım . (Tam açıklama: Kaggle için çalışıyorum.) HackerRank ve SQLZOO'nun da birkaç SQL çalışması var.

 

Bir Generalist Olmak:

Genaralist olmak

 

Okul harika! Günlük çalışmalarınız insan bilgisinin sınırlarını genişletiyor, ki bu oldukça iyi. Derecenizle çalışırken, daha dar ve daha dar bir alanda giderek daha kesin sorular sorarak, belirli bir konuya değiniyorsunuz. Sonunda, gezegende küçük alt işler ile ilgili en bilgili kişi sensin. Bunda yanlış bir şey yok: bilimsel araştırma ne işe yarıyor?

 

Öyle değil veri bilim nasıl çalıştığını. Çok şanslı olmadıkça ve tezinizi ya da tezinizi yazdığınız kesin şey üzerinde çalışmadığınız sürece, hemen alanınızın dışındaki problemler üzerinde çalışmanız beklenir. Ve sadece sizin alanınızın dışından gelen şeyler değil: hiç duymadığınız alanlardan kaynaklanan problemler . Çok hızlı bir şekilde uzman olmadığınız şeyler üzerinde çalışmaya alışmanız gerekecek.

 

Bir Generalist Olmak İçin Daha İyi Olmanın Bazı Yolları:

 

  • Disiplini Dışında Oku.  Akademik disiplinler, özel bir dizi istatistiksel araç kullanma eğilimindedir. Sosyo-dilbilimde, örneğin, karışık etkiler regresyonu ile çok çalışıyoruz - ama orada başka birçok istatistiksel yaklaşım var. Farklı disiplinlerdeki çalışmaların okunması, sizi farklı teknikler ve problemlerin geniş bir yelpazesine sunacak ve yeni bir konuya ayak basmadan önce rahatça ayak uydurmanıza yardımcı olacaktır.

 

  • Yeni Veri Türlerini Analiz Etme Alıştırması.  Veri bilimcileri her türlü veri ile çalışmalıdır. Muhtemelen zaten bir veri türü ile derin deneyime sahipsin, ama dallanmayı düşün. Zaman serisi ile çalıştın mı? Metin? Görüntüler? Video? Ses? Ön eğitimli modeller? İlişkisel veritabanları? Bilginizdeki boşlukların ne olduğunu anlayın ve yeni ve farklı kaynaklarla çalışırken elinizi deneyin. (Zorunlu fiş: Kaggle, çok çeşitli kaynaklardan 10 binden fazla veri kümesine sahiptir . Ayrıca Zenodo veya Dataverse projesini de inceleyebilirsiniz .)

 

  • Alanınızın dışındaki kişilerle teknik kavramlar hakkında konuşun.  Sadece çok şey öğrenmeyecek, aynı zamanda belirli akademik geçmişinizi paylaşmayan insanlara teknik kavramları açıklamak için bir şansınız olacak.

 

Bu bana bir hile biraz: Ben aslında yaptım , üniversitedeyken bir sayesinde kaynak kontrolünü öğrenmek Yazılım Marangoz atölyesi . Öyle, çok, çok değerli, ve biliyorum ki, yüksek okuldaki akranlarımın çoğu ona maruz kalmadı.

 

Sürüm kontrolü olarak da adlandırılan kaynak denetimi, değişiklikleri tek bir merkezi belgeye veya kod tabanına yönetmenin bir yoludur. Temel fikir, çalışmanızı yaptığınız her şeyin bir kopyasında gerçekleştirmenizdir ve her defasında, orijinali güncellemek için bu kopyayı kullanırsınız. Bireysel projeler için faydalıdır (gerçekten işe yarayan ve kırdığınızı anlayan bir versiyona geri dönmenize izin verir) ve teknik işbirliği için oldukça fazla zorunludur.

 

Akademik bir ortamda çalışırken, her şeyin olabildiğince iyi olduğundan emin olmanız gerekir. Çalışmanız uzmanlar tarafından yakından değerlendirilecek ve toplanacaksa, akademik literatüre kalıcı olarak eklenecektir. Bir endüstri ortamında çalışırken, diğer yandan, şimdi bir şeyleri çok cilalanmış bir şeyden daha kullanışlı bir şeye sahip olmak çok daha iyidir .

 

Bir endüstri ortamında çalışmayı öğrendiğim ilk yeni terimlerden biri MVP ya da “Minimum Canlı Ürün” idi. Buradaki fikir, birileriyle etkileşime girecek insanların bir kısmını tatmin edecek kadar iyi bir şey paylaşmanızdır. Veri bilimi ayarında, her bir soruyu yanıtlayamayacağınız ya da ek ayarlamayla olabileceğinden daha az doğru bir modele sahip olabileceğiniz anlamına gelir. Daha derin analizler veya daha sonra ek ayarlamalar için zamanınız olabilir, ancak “yeterince iyi” olana kadar projeleri paylaşmaya hazır olmalısınız.

 

Neyin Yeterince İyi Olduğunu Görmek İçin Nasıl Geliştirilir:

 

  • “Şimdilik bitti” tanımlamaya çalışın. Bir sonraki proje üzerinde çalışırken, her gün sık sık durun, belki de her gün sarılmadan önce, ve muhtemelen değerli bir şey yaratıp yaratmadığınızı düşünün (muhtemelen sizde var!). Yaptıklarınız hakkında neyin yararlı veya ilginç olduğunu nasıl tanımlayabileceğinizi pratik yapmak için bir dakikanızı ayırın.

 

  • Araştırmanızın ara aşamalarını paylaşmayı düşünün. Eğer yapabiliyorsanız, bir sonraki araştırma projenizin ara aşamalarını, bir blogda veya bir laboratuvar arkadaşında paylaşmayı düşünebilirsiniz. Limuzight için hazır olmayabilir, ama analiz romanının bu parçası mı? Veri toplama sırasında paylaşmaya değer bir şey öğrendin mi? Yaptıklarınız, bir başkasının değerli bulabileceği kadar iyi bir şey mi?

 

Ve işte orada var, her gün az çok okulun bana öğretmediği dört temel becerileri kullandım. Diğer veri milletleri: dereceniz bittikten sonra aldığınız değer becerilerle eğlenmek için çekinmeyin!

 

Yazı için  rtatman teşekkür ederiz.