> For the complete documentation index, see [llms.txt](https://docs.din.lol/din-cook-data-for-ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.din.lol/din-cook-data-for-ai/turkiye/din-nasil-calisir/veri-katmani-tum-veri-icin/veri-toplama.md).

# Veri Toplama

Yapay zeka (AI) alanında veri toplamak, ilerlemeyi yavaşlatan büyük bir engeldir. Birçok makine öğrenimi projesinin çalışması, veriyi hazırlamakla ilgilidir. Bu, veriyi toplamak, temizlemek, analiz etmek, görselleştirmek ve özellikleri hazırlamak gibi adımları içerir. Veri toplamak, bu adımların en zoru birkaç nedenden ötürü.

İlk olarak, makine öğrenimi yeni alanlara uygulandığında genellikle makineleri eğitmek için yeterli veri yoktur. Dillerin çevirisi veya nesnelerin tanınması gibi daha eski alanlarda yıllar boyunca toplanmış çok fazla veri bulunurken, yeni alanlar bu avantajdan yoksundur.

Ayrıca, derin öğrenmenin popülaritesinin artmasıyla birlikte veri ihtiyacı da artmıştır. Geleneksel makine öğreniminde, veri hazırlamak için alanı iyi bilmek gerekir; çünkü özellik mühendisliği (feature engineering) yaparken, eğitmek için özellikleri seçmek ve oluşturmak büyük çaba gerektirir. Derin öğrenme, özellikleri bağımsız olarak belirleyerek bu süreci kolaylaştırır; bu da veri hazırlama işinde daha az çalışma anlamına gelir. Ancak, bu kolaylığın bir bedeli vardır: derin öğrenme genellikle iyi çalışmak için daha fazla veriye ihtiyaç duyar. Bu nedenle, etkili ve ölçeklenebilir veri toplama yöntemleri bulmak artık her zamankinden daha kritik hale gelmiştir, özellikle büyük dil modelleri (LLM'ler) için.

Şekil 1, makine öğrenimi için veri toplamanın yüksek düzeyde bir manzarasını göstermektedir. Topluluğun merkeziyetsiz olarak katkıda bulunabileceği alt konular yeşil metinle vurgulanmıştır.

<figure><img src="/files/YqBsyhxUTBqY7xykmz1N" alt=""><figcaption></figcaption></figure>

Herkes, Analytix ve [xData](https://docs-dintr-lol.gitbook.io/docs.dintr.lol/nasil-katilabilirsin/xdata-aciklamasi) adlı ekosistemdeki iki dApp aracılığıyla tüm DIN ağına zincir üzerindeki (on-chain) ve zincir dışındaki (off-chain) verileri toplamada yardımcı olabilir.

Ağ, veri toplama düğümlerini veri kalitesine göre ödüllendirir (bu kalite değerlendirme standardı, ağ tarafından otomatik olarak belirlenir, yani doğrulayıcı düğümün yardımıyla).

Doğrulayıcı düğüm izin gerektirmediği için, ağın inşasına katılan insan sayısı arttıkça, tüm ağın daha sağlam olmasını sağlar.