MIT araştırmacıları, makine öğrenimi sistemlerini test etmek için kullanılan on veri setini inceledi. Bilgisayar bilimcileri tarafından yönetilen ekip, verilerin yaklaşık yüzde 3,4'ünün yanlış veya yanlış etiketlendiğini ve bu veri setlerini kullanan yapay zeka (AI) sistemlerinde sorunlara neden olabileceğini buldu.
Her biri 100.000'den fazla alıntı içeren veri kümeleri arasında, haber grupları, Amazon ve IMDb gibi metin tabanlı olanlar da var. Amazon ürün incelemelerinin olumsuz (veya tersi) yanlış etiketlenmesi gibi hatalar vardır, ancak bunlar aslında olumludur. Daha az göze çarpan nesne arşivinde fotoğrafların yanlış etiketlenmesi durumu da vardır. Örneğin, dağ bisikleti yerine su şişesi etiketinin kullanılması. YouTube videolarından alınan seslere dayanan başka bir veri kümesi, yalnızca son 30 saniyede duyulabilmesine rağmen, kamerayla üç buçuk dakika boyunca konuşan bir YouTuber'ın görüntüsünü "kilise zili" olarak etiketler. Bruce Springsteen'in performansının "orkestra" olarak sınıflandırılması da bir başka hata olarak öne çıkıyor. Yapay zeka ve makine öğrenimi alanı, çoğu halka açık olan bir veri kümesi alt kümesinden alınan verileri kullanarak sonuçlara varmak için oluşturuldu. Hatalı etiketler, makine öğrenimi sistemleri için ciddi sorunlara neden olabilir. Araştırmacılar ayrıca herkesin söz konusu hatalara göz kulak olabilmesi için bir web sitesi kurdular.