Büyük Veri İşleme 2 - Big Data 2
*copying data over network takes time
Computation Local -> işlemek istediğimiz veriyi programın içine atmak Data Local -> işlenecek veri klasörünün içine,uygulama atılır Map reduce -> datanın bulunduğu yerde program çalıştırılır
Storage Infrastructure 1) diskler sürekli bozuluyorsa veri saklama? 2) dağıtık dosya sistemi(global dosya namespace) 3) veri nadiren güncellenir -> dosya yeni kopyaları oluşur bunun yerine
Chunk Servers: Datamız 64mb bloklara bölünüyor. Genelde 2 ve 3 replika oluşuyor ve bu replikalar başka rocklarda saklanıyor. Aynı datacenter içinde kopyalanır saklanır. Dışarı çıkmaz.
Raid -> disklere çoklu yazdırıyor.
Master Mode -> dağıtık sistemlerde nodelara masterlik yapar, metadata saklar Client Library for file access-> bir master node ip veriyoruz.master-node oluyor ve chunk serverla iletişime geçiyor.
*chunk serverlar aynı zamanda hesaplama sunucularıyla çalışıyor *map reduce -> paralelleştirilebilir hesaplama yöntemi geçerli.Bu mapreduce uygulamasını disklerimize kopyalayabiliriz.