5 Set Data Percuma untuk Memulakan Projek Pembelajaran Mesin Anda Hari Ini


Terdapat banyak set data percuma dalam talian yang membantu anda berlatih dan belajar. Set data ini membolehkan anda mencuba teknik pembelajaran mesin yang berbeza dan meningkatkan kemahiran anda. Anda boleh menemui set data ini pada platform seperti Kaggle dan UCI Machine Learning Repository. Berikut ialah lima set data percuma yang boleh membantu anda memulakan projek pembelajaran mesin anda.

1. Set Data Iris

Penerangan: Set Data Iris menampilkan maklumat tentang tiga jenis bunga iris: Setosa, Versicolor dan Virginica. Set data terdiri daripada empat atribut: panjang sepal, lebar sepal, panjang kelopak dan lebar kelopak.

Kes Penggunaan:

  • Melatih algoritma pembelajaran di bawah seliaan seperti pepohon keputusan, k-jiran terdekat dan mesin vektor sokongan.
  • Melakukan analisis data penerokaan (EDA) dan visualisasi seperti plot serakan dan plot berpasangan.
  • Mempraktikkan teknik penskalaan dan pemilihan ciri.

Pautan: Set Data Iris pada Repositori Pembelajaran Mesin UCI

2. Digit Tulisan Tangan MNIST

Penerangan: Set data MNIST mengandungi 70,000 gambar nombor tulisan tangan antara 0 hingga 9. Setiap gambar ialah imej skala kelabu dengan saiz 28 kali 28 piksel.

Kes Penggunaan:

  • Melatih model pembelajaran mendalam untuk klasifikasi digit tulisan tangan.
  • Mempelajari teknik pemprosesan imej seperti normalisasi dan pembesaran imej.
  • Memahami cara membina model yang boleh mengklasifikasikan imej ke dalam kategori yang berbeza.

Pautan: Set Data MNIST pada Laman Web Yann LeCun
 

3. Set Data Perumahan Boston

Penerangan: Set data ini mengandungi maklumat tentang harga perumahan di pinggir bandar Boston. Ia termasuk ciri seperti kadar jenayah, umur hartanah dan bilangan bilik.

Kes Penggunaan:

  • Meramalkan harga perumahan menggunakan regresi linear atau model regresi lain.
  • Menjalankan kejuruteraan ciri, seperti mengubah pembolehubah atau menangani multikolineariti.
  • Mempraktikkan pengesahan silang dan penalaan hiperparameter untuk tugas regresi.

Pautan: Set Data Perumahan Boston pada Kaggle

4. Set Data Kualiti Wain

Perihalan: Set data ini mempunyai maklumat tentang wain merah dan putih. Ia termasuk sifat kimia dan penilaian kualitinya. Ia mengandungi ciri seperti keasidan, kandungan gula dan tahap alkohol.

Kes Penggunaan:

  • Menentukan kualiti menggunakan ciri kimianya.
  • Melatih kedua-dua model klasifikasi dan regresi, bergantung pada sifat ramalan.
  • Mencari kaedah untuk penskalaan ciri dan pengurangan dimensi.

Pautan: Set Data Kualiti Wain pada Repositori Pembelajaran Mesin UCI

5. Set Data Titanic

Penerangan: Set data Titanic termasuk butiran tentang penumpang di Titanic, seperti umur, jantina, kelas dan sama ada mereka terselamat daripada bencana itu.

Kes Penggunaan:

  • Meramalkan sama ada penumpang terselamat daripada bencana Titanic menggunakan algoritma klasifikasi seperti regresi logistik atau hutan rawak.
  • Mempraktikkan tugas prapemprosesan data seperti pengekodan pembolehubah kategori dan menormalkan ciri berangka.
  • Mengendalikan data yang hilang dan melaksanakan kejuruteraan ciri pada data dunia sebenar.

Pautan: Set Data Titanic pada Kaggle
 

Membungkus

Kesimpulannya, lima set data percuma ini sesuai untuk memulakan projek pembelajaran mesin anda. Mereka merangkumi beberapa tugas, daripada pengelasan kepada regresi. Manfaatkan set data ini untuk meneroka teknik pembelajaran mesin dan membina portfolio anda.