Yeni Başlayanlar İçin Eğlenceli Makine Öğrenim Projeleri

Yeni Başlayanlar İçin Eğlenceli Makine Öğrenim Projeleri

Makine Öğrenmesi serisi ve bu alanda verilerle uğraşmak isteyenler için eğlenceli basit bir düzeydeki projelerden bahsedeceğim. Benım biraz bilgim var. Bana direk veri setlerini paylaş uzun uzun anlatma diyorsan veri setleri paylaştığım bir yazı var. Alt kısma bırakıyorum.(Başlığa aldanmayın A'den Z'ye veri setleri paylaştığım bir yazı.)

 

 

Bu yazıda ise, biraz daha detaylı olarak projelerden bahsedip gerekli kaynakları verip, çalişmanız için oluşturulacak. O yazı daha çok veri toplama aşaması ve hemen çalişmak isteyen kişiler için oluşturdum. Veri setine ihtiyacınzı olduğu zaman oradan bakıp indirebilirsiniz.

 

 

 İris Çiçekleri Sınıflandırması - Denetimli Makina Öğrenme Projeleri 

 

Iris çiçek veri kümesi, sınıflandırma literatüründe en iyi veri kümelerinden biridir. Iris çiçek makinesi öğrenimi projesinin sınıflandırması, ,Makine Öğreniminin “Merhaba Dünyası” olarak adlandırılır.

 

 

 

 BigMart Satış Tahmini ML Projesi - Denetimsiz Makine Öğrenimi Projesi:

 

BigMart satış veri seti, farklı şehirlerdeki 10 farklı satış noktasında, 1559 ürün için satış verilerinden oluşmaktadır. BigMart satış tahmini ML projesinin amacı, 10 farklı BigMart çıkışının her birinde bir sonraki yıl için 1559 ürünün her birinin satışını tahmin etmek için bir regresyon modeli oluşturmaktır. BigMart satış veri seti ayrıca her ürün ve mağaza için belirli özelliklerden oluşur. Bu model, BigMart'ın genel satışlarını artırmada önemli bir rol oynayan ürün ve mağazaların özelliklerini anlamasına yardımcı oluyor.

 

 

Walmart Veri Kümesini kullanarak Satış Tahmini

 

Walmart veri kümesinin, 45 ürün için 98 ürün için satış verileri vardır. Veri seti, haftalık olarak departman başına mağaza başına satış içerir. Walmart veri setiyle çalışmanın zorlu yönü, satışları etkileyen ve dikkate alınması gereken seçilmiş işaretleme olayları içermesidir.

 

 

Makine Öğrenmesi Gladyatörü :

Amaç, kullanıma hazır modelleri almak ve bunları farklı veri kümelerine uygulamaktır. Bu proje şunları yapacaksınız :

 

  • Importing data (Verileri Aktarma)

 

  • Cleaning data (Veri Temizleme)

 

  • Splitting it into train/test or cross-validation sets (Eğitim/Test kümelerin ayrılması)

 

  • Data Pre-processing (Veri Ön İşleme)

 

  • Transformations

 

  • Feature engineering (Öznitelik Mühendisliği)

 

Bu projede Regresyon,sınıflandırma,kümeleme yöntemlerini kullanacaksınız.

 

Veri kaynakları :

 

  • UCI Machine Learning Repository - Hemen hemen her konuyu kapsayan 350+ aranabilir veri kümesi. Kesinlikle sizi ilgilendiren veri kümelerini bulacaksınız.

 

  • Kaggle Veri Kümeleri - Kaggle topluluğu tarafından yüklenen 100+ veri kümesi. Burada PokemonGo yumurtlama yerleri ve San Diego'daki Burritolar da dahil olmak üzere bazı gerçekten eğlenceli veri setleri var.

 

  • data.gov - ABD hükümeti tarafından açıklanan açık veri kümeleri. Sosyal bilimlerle ilgileniyorsanız bakmak için harika bir yer.

 

2. Para Topu Oyna :

Spor dünyasının oynayabileceği bir ton veri var. Takımlar, oyunlar, skorlar ve oyuncular için veriler çevrimiçi olarak takip edilir ve serbestçe kullanılabilir.

 

  • Spor bahisleri… Her yeni oyundan hemen önceki zamanda mevcut olan verilere göre puanlarını tahmin edin.

 

  • Yetenek araştırması Hangi oyuncuların en iyi profesyonel kariyerlere sahip olacağını tahmin etmek için istatistiklerini kullanın.

 

  • Genel yönetme… Çok yönlü bir takım oluşturmak için güçlü taraflarına göre oyuncu kümeleri oluşturun.

 

Spor ayrıca Veri Görselleştirme yapmak için mükemmel bir alandır .

 

 

Veri Kaynakları:

 

  • Spor İstatistikleri Veri Tabanı - Spor istatistikleri ve birçok profesyonel spor ve çeşitli kolejdekileri kapsayan tarihsel veriler. Temiz arayüz, web kazıma işlemini kolaylaştırır.

 

  • Spor Referansı - Spor istatistiklerinin başka bir veritabanı. Daha karmaşık bir arayüz, ancak bağımsız tablolar CSV dosyaları olarak dışa aktarılabilir.

 

  • cricsheet.org - Uluslararası ve IPL kriket maçları için top-by-top veriler. IPL ve T20 uluslararası maçları için CSV dosyaları mevcuttur.

 

3. Hisse Senedi Fiyatları :

 

Borsa, finans ile uzaktan yakından ilgilenen herhangi bir veri bilimcisi için çok kolay olacaktır. İlk olarak, seçebileceğiniz birçok veri türünüz var. Fiyatları, küresel makroekonomik göstergeleri vb. Bulabilirsiniz. Liste uzayıp gider. 

 

İkincisi, veriler çok ayrıntılı olabilir. Ticaret stratejileri hakkında yaratıcı düşünmenize olanak tanıyan, herbir şirket için günlük (hatta dakika) zaman serisi verilerini kolayca alabilirsiniz. Son olarak, finansal piyasalar genellikle kısa geri bildirim döngülerine sahiptir. Bu nedenle, tahminlerinizi yeni veriler üzerinde hızlı bir şekilde doğrulayabilirsiniz. 

 

 

  • Kantitatif(Nicel) değer yatırımı 6 aylık fiyat hareketlerini şirketlerin üç aylık raporlarından elde edilen temel göstergelere göre tahmin edin.

 

  • Öngörme Zaman serisi modelleri veya hatta tekrarlayan sinir ağları, ima edilen ve gerçek dalgalanma arasındaki deltada oluşturun.

 

  • İstatistiksel arbitraj Fiyat hareketlerine ve diğer faktörlere göre benzer stokları bulun ve fiyatlarının farklılaştığı dönemleri arayın.

 

Arbitraj: Herhangi mali bir değeri olan malı bir piyasada ucuzdan alıp, aynı malı, aynı anda, risk üstlenmeden, farklı bir piyasada daha yüksek fiyattan satarak elde edilen getiriye denir. 

 

Öğreticiler :

 

 

 

Veri kaynakları :

 

 

  • Quantopian - Ticaret algoritması geliştirmek için ücretsiz bir platform sunan kantitatif finans topluluğu. Veri kümelerini içerir.

 

 

4. El Yazısını Okumak için Sinir Ağını Öğretin:

 

Sinir ağları ve derin öğrenme, modern yapay zekada iki başarı öyküsüdür. Görüntü tanıma, otomatik metin oluşturma ve hatta kendi kendine sürüş arabalarında büyük ilerlemeler sağladılar. Bu heyecan verici alana dahil olmak için yönetilebilir bir veri kümesiyle başlamalısınız. MNIST Handwritten Haneli Sınıflandırma meydan klasik giriş noktasıdır. Görüntü verileri genellikle “düz” ilişkisel verilerden daha fazla çalışmak için daha zordur.

 

MNIST verileri başlangıç ​​dostu ve bir bilgisayara sığacak kadar küçük. El yazısı tanıma yüksek hesaplama gücüne ihtiyaç duymaz. Başlamak için, aşağıdaki öğreticinin ilk bölümünü öneriyoruz. MNIST zorluğunu yüksek doğrulukla çözen sıfırdan bir sinir ağının nasıl kurulacağını öğretecektir.

 

Eğitimi:

 

  • Sinir Ağları ve Derin Öğrenme (Çevrimiçi Kitap) - Bölüm 1, MNIST'den gelen rakamları sınıflandırmak için Python'da sıfırdan bir sinir ağının nasıl yazılacağını anlatır. Yazar ayrıca sinir ağlarının ardındaki sezginin çok iyi bir açıklamasını verir.

 

Veri kaynakları:

 

  • MNIST - MNIST, ABD Ulusal Standartlar ve Teknoloji Enstitüsü tarafından toplanan iki veri kümesinin değiştirilmiş bir alt kümesidir. El yazısıyla yazılmış rakamların 70.000 etiketli görüntüsünü içerir.

 

5. Enron Araştırmak:

 

Enron skandalı ve daraltma tarihinin en büyük kurumsal meltdowns biriydi. Enron 2000 yılında Amerika'nın en büyük enerji şirketlerinden biriydi. Ardından, dolandırıcılıktan çıktıktan sonra bir yıl içinde iflasa doğru inişe geçti. Neyse ki bizim için Enron email veritabanına sahibiz. Çoğunlukla üst düzey yöneticiler olmak üzere 150 eski Enron çalışanı arasında 500 bin e-posta içerir. Aynı zamanda, gerçek e-postaların tek büyük veri tabanıdır ve bu da onu daha değerli kılar. Aslında, Veri Bilimcileri bu veri setini yıllardır eğitim ve araştırma için kullanıyorlar. 

 

  • Anomali tespiti… Saatlerce gönderilen ve alınan e-postaların dağıtımını haritalayın ve kamu skandalıyla sonuçlanan anormal davranışları tespit etmeye çalışın.

 

  • Sosyal ağ analizi ... Anahtar etkileyicileri bulmak için çalışanlar arasında ağ grafik modelleri oluşturun.

 

  • Doğal Dil İşleme E-posta meta verileriyle bağlantılı olarak vücut mesajlarını, amaçlarına göre e-postaları sınıflandırmak için analiz edin.

 

Veri Kaynakları:

 

 

 

6. ML Algoritmalarını Scratch'ten yaz:

 

Makine öğrenme algoritmalarını sıfırdan yazmak, iki ana nedenden ötürü mükemmel bir öğrenme aracıdır. Her adımı düşünmeye zorlanacaksınız ve bu gerçek bir ustalığa yol açacaktır. İkincisi, matematiksel talimatları çalışma koduna nasıl çevireceğinizi öğreneceksiniz. Algoritmaları akademik araştırmalardan uyarlarken bu beceriye ihtiyacınız olacak. Başlamak için çok karmaşık olmayan bir algoritma seçmenizi öneririz. En basit algoritmalar için bile yapmanız gereken düzinelerce ince karar vardır. Kolayca basit algoritmalar oluşturduktan sonra, daha fazla işlevsellik için bunları genişletmeyi deneyin. 

 

Öğreticiler :

 

 

 

 

7. Mayın Sosyal Medya Duyarlığı :

 

Sosyal medya, kullanıcı tarafından oluşturulan içeriğin çokluğu nedeniyle neredeyse “Büyük Veriler” ile eş anlamlı hale gelmiştir. Facebook, Twitter, YouTube, WeChat, WhatsApp, Reddit… liste uzayıp gidiyor. Sosyal medyada harcanan vakit her yıl sürekli artan bir ivme hakim. Bu, sosyal medya verilerinin bir bütün olarak pazarlama, markalaşma ve iş için daha da alakalı hale geleceği anlamına gelir. Orada birçok popüler sosyal medya platformu varken, Twitter makine öğrenimi için klasik giriş noktasıdır.

 

 

Öğreticiler :

 

 

 

Veri Kaynakları :

 

  • Twitter API - twitter API, akış verileri için klasik bir kaynaktır. Tweetleri, hashtag'leri ve daha fazlasını izleyebilirsiniz.

 

 

8. Sağlık Hizmetlerini Geliştirmek :

 

Makine öğrenimi sayesinde hızlı değişime uğrayan bir başka endüstri de sağlık hizmetleridir. Çoğu ülkede, doktor olmak uzun yıllara dayanan bir eğitim gerektirir. Uzun saatler süren çalişma gerektiren zorlu bir alan ve yüksek riskli bölüm.

 

Kullanımları içerir:

 

  • Hem birey hem de toplumda hastalık salgınlarını tahmin etmek. (Hastalığı önceden tahmin etmek)

 

  • Tarama, röntgen vb. Gibi görüntülemeye otomatik olarak sınıflandırabilir.

 

  • Sigorta primlerine kamuya açık risklere göre ayarlanması.

 

 

Öğreticiler :

 

 

 

Veri kaynakları :