Veri Seti Platformları Tavsiye Listesi
Klasik makine öğrenmesi modellerinde veya Bayesçi istatistiksel modellerde modelinizin tahmin başarısını etkileyen en önemli faktörlerden birisi verinizin kalitesi. Veri setinizde eksik veya aykırı veri sayısı çok olmamalı, dağılım çarpık olmamalı ve normal dağılıma benzer bir dağılıma sahip olması gibi faktörler modelinizin başarısını etkileyecektir. Bu sebeple veri setini çekeceğiniz kaynak önemli. Bu içerikte ücretsiz olarak veri setlerine erişebileceğiniz birkaç siteyi tanıtacağım. Sitelere mavi renkte gömdüğüm bağlantılardan doğrudan ulaşabilirsiniz. İyi okumalar!
İçindekiler Tablosu
Kaggle
Kaggle, Google’ın bir yan kuruluşudur. Kullanıcılarına veri seti bulma, kendi veri setlerini veya modellerini paylaşma, alanla ilgili tartışma ( stackoverflow gibi), meydan okumalara (challange) ve para ödüllü yarışmalara katılma imkanı sunan bir platformdur. Kaggle’ın en beğendiğim özelliklerinden birisi beğendiğiniz veri setini indirmeden betimsel istatistiğini inceleyebilirsiniz. Ayrıca, arayüzü oldukça kullanışlı. 2021 istatistiklerine göre Kaggle’ın 8 milyon üzerinde kayıtlı kullanıcısı bulunmaktadır. Canlı bir topluluğunun bulunması güncel veri setleri ve modellerin paylaşılması açısından gayet önemli. Kaggle’da 50.000 üzerinde veri seti ve 400.000 üzerinde notebook bulunmaktadır
UCI
UCI makine öğrenmesi havuzundan (repository) veri seti indirebilirsiniz. UCI’yi 1987 yılında David Aha ve UC Irvine’deki sınıf arkadaşları tarafından ftp arşivi olarak oluşturuldu. Şu anki web site versiyonu ise 2007 yılında faaliyete başlamıştır. Sitede Kaggle’dakine benzer olarak veri tipi, verinin elde edildiği alan, değişken türü, örnek sayısı veri seti formatı gibi birçok seçeneğe göre filtreleme yapabilirsiniz. Veri setlerinin asıl sahipleri (atıf verirken önem arz ediyor), veri setiyle ilişkili makalelere, veri setiyle ilgili temel açıklamalara da veri setini indirmeden önce erişebilirsiniz. Lisans veya lisansüstü bir dersinizin bitirme projesi varsa veri seti indirmek için ideal bir platform. Tek eksiği veri seti sayısı az. 622 adet.
Data.gov
Data.gov gibi bir sitenin bir gün ülkemizde olmasını temenni ediyorum çünkü bu tür siteleri şeffaf yönetim anlayışının somutlaştırılmasına yönelik bir adım olarak görüyorum. Amerika’daki devlet kurumlarına ait 247.679 adet veri seti indirilebilir durumda. Veri setinizi birçok formatta (ör: CSV, XML, JSON vb.) indirebilirsiniz. Site üzerinden seçtiğiniz veri setine ilişkin açıklamaları okuyabilirsiniz; ancak UCI veya Kaggle’daki gibi veri setinin özelliklerine yönelik (ör: betimsel istatistik) bilgi edinemiyorsunuz. Diğer bir eksisi ise veri setlerinin paylaşıldığı konu başlıkları çeşitli sayılmaz (ör: yerel yönetimler, iklim, enerji vs.) eğer politika ya da sosyal bilimlere yönelik bir çalışma düşünüyorsanız ihtiyacınıza yönelik veri setlerine erişebilirsiniz.
Datahub.io
Datagub.io genellikle nüfus, finans ve işletmelerle ilgili binlerce veri seti bulundursa da gözatmaya değer bir havuz oluşturulmuş. İstediğiniz veri setinin sayfasını açtıktan sonra temel açıklamaları görebilir, grafikleri inceleyebilir ve veri setini kolayca indirebilirsiniz. Site ile ilgili en önemli sorun arayüzü kullanışlı değil.
Google Dataset Search
Google Dataset Search diğer websiteleri gibi kendi içerisinde veri setleri bulunduran bir platform değil adından da anlaşılacağı üzere ücretisiz erişebileceğiniz veri setlerini bulan bir arama motoru. Google bu arama motorunu bilim insanları ve veri bilimcilerin faydalanabilmesi için oluşturdu. Tıpkı google.com’daki gibi araştırma alanınızla ilgili anahtar kelimeyi search bar’a yazıyorsunuz ve size anahtar kelime ile ilgili veri setlerini bulunduran siteleri getiriyor. Bu sonuçları son güncelleme, indirme biçimi, kullanım hakları, konu gibi filterelerle sınırlandırabilirsiniz. İstediğiniz veri setini seçtikten sonra ve siteye yönlendirilmeden önce basit açıklamaları okuyabilir, daha sonra kullanmak için siteyi kaydedebilir, paylaşabilir ya da alıntı alabilirsiniz.
Daha Fazlası İçin
Eğer yukarıdaki beş adet öneri ihtiyacınızı karşılamıyorsa wikipedia ve dataportal üzerinden paylaşılan veri seti sitelerine gözatabilirsiniz.
Kaynaklar ve İleri Okumalar
- https://en.wikipedia.org/wiki/Data.gov
- https://data.gov/
- https://en.wikipedia.org/wiki/Google_Dataset_Search
- https://archive.ics.uci.edu/ml/about.html
- https://en.wikipedia.org/wiki/Kaggle
Yorum gönder