Büyük Veri İşleme 2 - Big Data 2

*copying data over network takes time

Computation Local -> işlemek istediğimiz veriyi programın içine atmak Data Local -> işlenecek veri klasörünün içine,uygulama atılır Map reduce -> datanın bulunduğu yerde program çalıştırılır

Storage Infrastructure 1) diskler sürekli bozuluyorsa veri saklama? 2) dağıtık dosya sistemi(global dosya namespace) 3) veri nadiren güncellenir -> dosya yeni kopyaları oluşur bunun yerine

Chunk Servers: Datamız 64mb bloklara bölünüyor. Genelde 2 ve 3 replika oluşuyor ve bu replikalar başka rocklarda saklanıyor. Aynı datacenter içinde kopyalanır saklanır. Dışarı çıkmaz.

Raid -> disklere çoklu yazdırıyor.

Master Mode -> dağıtık sistemlerde nodelara masterlik yapar, metadata saklar Client Library for file access-> bir master node ip veriyoruz.master-node oluyor ve chunk serverla iletişime geçiyor.

*chunk serverlar aynı zamanda hesaplama sunucularıyla çalışıyor *map reduce -> paralelleştirilebilir hesaplama yöntemi geçerli.Bu mapreduce uygulamasını disklerimize kopyalayabiliriz.