Veri Toplama
最后更新于
最后更新于
Yapay zeka (AI) alanında veri toplamak, ilerlemeyi yavaşlatan büyük bir engeldir. Birçok makine öğrenimi projesinin çalışması, veriyi hazırlamakla ilgilidir. Bu, veriyi toplamak, temizlemek, analiz etmek, görselleştirmek ve özellikleri hazırlamak gibi adımları içerir. Veri toplamak, bu adımların en zoru birkaç nedenden ötürü.
İlk olarak, makine öğrenimi yeni alanlara uygulandığında genellikle makineleri eğitmek için yeterli veri yoktur. Dillerin çevirisi veya nesnelerin tanınması gibi daha eski alanlarda yıllar boyunca toplanmış çok fazla veri bulunurken, yeni alanlar bu avantajdan yoksundur.
Ayrıca, derin öğrenmenin popülaritesinin artmasıyla birlikte veri ihtiyacı da artmıştır. Geleneksel makine öğreniminde, veri hazırlamak için alanı iyi bilmek gerekir; çünkü özellik mühendisliği (feature engineering) yaparken, eğitmek için özellikleri seçmek ve oluşturmak büyük çaba gerektirir. Derin öğrenme, özellikleri bağımsız olarak belirleyerek bu süreci kolaylaştırır; bu da veri hazırlama işinde daha az çalışma anlamına gelir. Ancak, bu kolaylığın bir bedeli vardır: derin öğrenme genellikle iyi çalışmak için daha fazla veriye ihtiyaç duyar. Bu nedenle, etkili ve ölçeklenebilir veri toplama yöntemleri bulmak artık her zamankinden daha kritik hale gelmiştir, özellikle büyük dil modelleri (LLM'ler) için.
Şekil 1, makine öğrenimi için veri toplamanın yüksek düzeyde bir manzarasını göstermektedir. Topluluğun merkeziyetsiz olarak katkıda bulunabileceği alt konular yeşil metinle vurgulanmıştır.
Herkes, Analytix ve xData adlı ekosistemdeki iki dApp aracılığıyla tüm DIN ağına zincir üzerindeki (on-chain) ve zincir dışındaki (off-chain) verileri toplamada yardımcı olabilir.
Ağ, veri toplama düğümlerini veri kalitesine göre ödüllendirir (bu kalite değerlendirme standardı, ağ tarafından otomatik olarak belirlenir, yani doğrulayıcı düğümün yardımıyla).
Doğrulayıcı düğüm izin gerektirmediği için, ağın inşasına katılan insan sayısı arttıkça, tüm ağın daha sağlam olmasını sağlar.