15 Sumber Teratas Untuk Kumpulan Data Machine Learning

Di dunia sekarang ini, kecerdasan buatan (AI) dipandang sebagai pedang bermata dua. Di satu sisi, ada aspek memiliki rumah yang lebih pintar, peningkatan teknologi kesehatan, dan prospek memiliki mobil van tanpa pengemudi untuk mengantarkan bahan makanan.

Di sisi lain, isu pelanggaran privasi, diskriminasi, dan beragam dampak negatif teknologi yang belum terungkap.

Berbagai risiko terlibat dalam AI terkait kesulitan data, yang terdiri dari menelan data berkualitas tinggi sebelum proses penyortiran, penautan, dan pemrograman bahkan terjadi. Dalam artikel ini, 15 sumber set data machine learning akan dianalisis.

1) Google Buka Gambar

Gambar Google Open terutama merupakan kumpulan data yang terdiri dari ~9 juta URL ke gambar yang telah ditafsirkan dengan label yang tersebar di lebih dari 6000 kategori.

Orang-orang di Google memastikan bahwa mereka membuat kumpulan data sepraktis mungkin yang berarti bahwa label mencakup lebih banyak entitas kehidupan nyata daripada 1000 kelas ImageNet.

Anotasi tingkat gambar telah diisi secara otomatis melalui model visi yang mirip dengan Google Cloud Vision API. Dataset ini sebagian besar merupakan produk kolaborasi antara Google, CMU, dan universitas Cornell.

Ini dia tautan ke Google Open Images Dataset

2) ImageNet

ImageNet adalah kumpulan data gambar yang diatur menurut hierarki WorldNet. Konsep yang bermakna di WorldNet terutama dijelaskan melalui penggunaan beberapa kata atau frase kata yang dikenal sebagai “set sinonim” atau “synset”.

Dalam WorldNet, ada lebih dari 100.000 synsets, kebanyakan dari mereka adalah kata benda (80.000+). Gambar dari setiap konsep dikontrol kualitasnya dan diberi anotasi manusia.

Ini dia tautan ke Kumpulan Data ImageNet.

Baca juga: 6 Algoritma Regresi Teratas yang Harus Diketahui Setiap Penggemar Pembelajaran Mesin

3) Waymo Buka Dataset

Waymo Buka Dataset

Waymo Open Dataset mencakup data sensor resolusi tinggi yang dikumpulkan oleh mobil self-driving Waymo dalam beragam kondisi.

Dataset ini terutama terdiri dari data lidar dan kamera dari sekitar 1000 segmen tahun 20-an yang masing-masing dikumpulkan pada 10Hz di geografi dan kondisi yang berbeda.

Data sensor mereka terutama 1 lidar jarak menengah, 4 lidar jarak pendek, 5 kamera, lidar dan data kamera yang disinkronkan, proyeksi lidar ke kamera, dan kalibrasi sensor dan pose kendaraan. Data berlabel memiliki 4 kelas objek, label berkualitas tinggi untuk data lidar di setiap segmen, dan label kotak pembatas 3D 12M.

Ini Githubnya tautan ke Waymo Buka Dataset

4) Repositori Pembelajaran Mesin UCI

UCI adalah tempat penyimpanan 100-an dataset dari University of California, School of Information and Computer Science. Repositori khusus ini mengkategorikan kumpulan data melalui jenis masalah pembelajaran mesin.

Pengguna akan dapat menemukan kumpulan data untuk kumpulan data deret waktu univariat dan multivariat, klasifikasi, regresi, atau sistem rekomendasi.

Ini Githubnya tautan ke Repositori Pembelajaran Mesin UCI

5) tampilan x

Xview dianggap sebagai salah satu kumpulan data citra overhead terbesar yang tersedia untuk umum. Ini terdiri dari gambar yang diambil dari adegan kompleks dari seluruh dunia, dijelaskan menggunakan kotak pembatas.

Tantangan Deteksi DIUxxView 2018 difokuskan pada percepatan kemajuan di empat bidang batas visi komputer yang mengurangi resolusi minimum untuk deteksi, meningkatkan efisiensi pembelajaran, memungkinkan penemuan lebih banyak kelas objek, dan meningkatkan deteksi kelas berbutir halus.

Ini Githubnya tautan ke Xview Dataset

6) MS COCO

Kumpulan Data MS COCO

COCO deteksi objek skala besar, segmentasi, dan dataset teks. Ada banyak fitur dari dataset ini yaitu segmentasi objek, 80 kategori objek, pengenalan dalam konteks, 5 keterangan per gambar, di antara banyak lainnya.

Ini Githubnya tautan ke Kumpulan Data MS COCO.

Baca juga: Top 10 IDE dan Editor Kode Python Terbaik

7) Genom Visual

Kumpulan data Genom Visual

Genom visual adalah kumpulan data atau basis pengetahuan yang terdiri dari upaya berkelanjutan untuk terhubung dengan konsep gambar terstruktur ke bahasa.

Ini Githubnya tautan ke Kumpulan Data Genom Visual

8) Pengenalan Pemandangan Dalam Ruangan

Set data Pengenalan Pemandangan Dalam Ruangan

Pengenalan pemandangan dalam ruangan dipandang sebagai masalah terbuka yang sulit memiliki visi tingkat tinggi. Banyak model pengenalan pemandangan cenderung bekerja secara efisien untuk segala jenis pemandangan luar ruangan yang berkinerja buruk di domain dalam ruangan.

Area sulit utama muncul ketika beberapa pemandangan dalam ruangan secara efisien dicirikan oleh properti spasial global, sementara yang lain terdiri dari objek yang dikandungnya.

Basis data terdiri dari 67 kategori dalam ruangan dan total 15620 gambar. Gambar-gambar tersebut dikategorikan ke dalam berbagai aspek, dengan 100 gambar per kategori. Gambar biasanya dalam format jpeg.

Ini Githubnya tautan ke Dataset Pengenalan Pemandangan Dalam Ruangan

9) Label saya

Ini adalah kumpulan data besar yang terdiri dari gambar beranotasi. Dataset ini bekerja dalam dua cara. Yang pertama dengan mendownload gambar melalui toolbox LabelMe Matlab.

Kotak alat memungkinkan pengguna untuk fokus pada bagian database yang ingin diunduh individu. Pendekatan kedua adalah melalui penggunaan gambar online dengan bantuan toolbox LabelMeMatlab.

Dari dua opsi, yang pertama lebih disukai karena opsi kedua cenderung lebih lambat dan bisa memakan waktu.

Setelah instalasi database, kotak alat LabelMe Matlab membantu membaca file anotasi dan meminta gambar untuk mengekstrak objek tertentu.

Ini dia tautan ke Kumpulan Data Labelme.

Baca juga: Keras vs TensorFlow – Ketahui Perbedaannya

10) perasaan140

Ini adalah kumpulan data populer, yang terdiri dari 160.000 tweet yang memastikan emotikon dihapus dari sebelumnya. Untuk mengumpulkan dan membubuhi keterangan data, pendekatan yang dituntut dalam kumpulan data ini unik karena data pelatihan yang dibuat secara otomatis.

Proses secara otomatis mengasumsikan tweet dengan emotikon positif seperti “:)” dan tweet dengan emotikon negatif seperti “:( “dipertimbangkan. Kumpulan data menggunakan API Pencarian Twitter untuk mengumpulkan tweet melalui penggunaan pencarian kata kunci.

Ini dia tautan ke Kumpulan Data Sentimen140

11) Kaggle

Kumpulan data ini mencakup komunitas kecil tempat diskusi berbeda tentang data, kode publik, atau pembuatan proyek sendiri di Kernel.

Ada berbagai jumlah kumpulan data kehidupan nyata dengan berbagai bentuk dan ukuran dalam format berbeda yang tersedia. Pengguna juga dapat menggunakan “kernel” untuk menautkan dengan setiap kumpulan data di banyak ilmuwan data berbeda yang telah menyediakan buku catatan untuk menganalisis kumpulan data.

12) Kumpulan Data Amazon

Sumber amazon terdiri dari berbagai kumpulan data di berbagai bidang, misalnya, transportasi umum, sumber daya ekologi, citra satelit, dan sebagainya).

Sumber memiliki kotak pencarian yang membantu menemukan kumpulan data yang dicari pengguna. Selain itu, ada juga deskripsi kumpulan data dan contoh penggunaan yang tersedia untuk kumpulan data yang dianggap informatif dan mudah digunakan juga.

Ini dia tautan ke Amazon Dataset

13) Kumpulan Data Visi Komputer

Untuk memahami pemrosesan gambar dengan cara terbaik, visi komputer atau pembelajaran mendalam dipandang sebagai sumber data untuk melakukan eksperimen semacam itu.

Data Visual terdiri dari sejumlah kumpulan data beragam yang dapat digunakan untuk membuat model visi komputer (CV).

Dalam kumpulan data khusus ini, pengguna memiliki opsi untuk mencari subjek CV tertentu, yang dapat berupa segmentasi semantik, teks gambar, pembuatan gambar, serta untuk memilih kumpulan data mobil self-driving.

Ini dia tautan ke Kumpulan Data Computer Vision

14) Kumpulan data MNIST

Dataset ini terutama tentang database angka tulisan tangan. Ini mencakup satu set pelatihan 60.000 contoh dan satu set uji 10.000 contoh. Ini terutama merupakan subset dari set yang lebih besar yang tersedia dari NIST.

Ini dia tautan ke kumpulan data MNIST.

Baca juga: 20 Saluran YouTube yang Harus Diikuti untuk mempelajari AI

15) Kumpulan data Chars74K

Pengenalan karakter adalah masalah pengenalan pola klasik yang telah dikerjakan oleh para peneliti sejak hari-hari awal visi komputer.

Dalam kehadiran kamera saat ini, aplikasi pengenalan karakter otomatis lebih luas daripada sebelumnya.

Beberapa orang lebih suka menyebutnya set karakter “Bahasa Inggris”. Dataset biasanya terdiri dari:

  • 64 kelas (0-9, AZ, az)
  • 7705 karakter dicapai melalui gambar alam
  • 3410 karakter yang digambar tangan digunakan melalui penggunaan tablet PC
  • 62992 karakter yang disintesis dapat digunakan dari font komputer.

Ini adalah total lebih dari 74K gambar, begitulah nama kumpulan data dibuat.

Ini dia tautan ke kumpulan data The Chars74K

Rate this post
Share Jika Bermanfaat Ya 🙂

Leave a Comment