Data Vinci 26 : Big Data

Tahmini Okuma Süresi: 7 dakika

Bu yazıda yine son zamanlarda adından sıkça bahsedilen “Big Data” konusuna değineceğim. “Big Data” adı üstünde “varayoğa” çıktı üreten, log atan, iz bırakan uygulamalar, cihazlar sayesinde hayatımıza girmiş düzensiz, kirli, maliyetli ama bir o kadar da göz ardı edilemez verileri temsil etmektedir. Yine büyüklük değil işlev sendromu ile karşı karşıyayız. Üretilen verilerin gelişigüzel ve kategorisiz oluşu bilginin işlenmesini imkânsızlaştırır. Oysa ki bu büyük veri yığınları içerisinden ayıklanan veriler oldukça değerlidir.  Big data konusu açıklanmaya çalışılırken vermeyeni dövdükleri bilgi “5V” şeklinde adlandırılır ve Big Data bileşenleridir. Verinin çeşitliliği, hızı, büyüklüğü, doğrulanması ve değeri şeklinde Türkçe’leşen bu bileşenler ÇHBDD akronimini oluşturmakta ve biz fakirlere pek anlamlı gelmemekte. Bileşen kısaltması değil de köy dayanışma derneğini andırıyor. Çemişkezekliler Haberleşme Birlik Dayanışma Derneği. Neyse…

Big Data” konusuyla yakın ilişkide olan konulardan birisi IoT iken bir diğeri de bulut sistemleri… Evet ulan sizin verileri satıyolar:)

Big Data, konseptinin sunmuş olduğu olası faydalarda bol bol “reduction” geçer. Cost reduction, Time Reduction, Risk reduction vs… Böyle olunca ilgi çekici bir konu haline dönüşüyor tabii ki. Fakat göz ardı etmemekte fayda var çağırayım bir firma basayım 100k$ bana “Big Data” yapsın 2 ayda gibi bir yaklaşımla bu işin başarılmayacağı aşikâr.


Big Data gündeme geldiğinde, bir takım toolkit’lerden söz etmek mümkün. Sanırım bizim diyarlarda en çok bilineni “hadoop“.  Yanına hive, flume, pig gibi araçlar eklenerek bir set oluşturulabilir. Daha detaylı bakıldığında kafalar biraz daha karışacaktır şüphesiz. Çünkü gelişine çakılmış, sürekli büyüyen verileri öyle 2-3 tane tool ile satmak veya analiz etmek sözde kolay. Veri yaşam döngüsü, HDFS gibi dosya sistemler, Falcon gibi diğer entegratörlerden tutalım,  Batch processor, Streaming, Searching gibi “stage”leri halleden araçlara, iyi veriyi işledin güzel şimdi bunu koruman lazım, encryption, auditing, administration araçları, sonrasında provisioning, managing, monitoring için başka araçlar. Front-end development, DevOps gibi teknolojilerin de yaşadığı “tool bombing” vakası burda da karşımıza çıkıyor. İnsan en son getir ulan Excel’i basarım ben veriyi Excel‘e, gittiği yere kadar kıvamına geliyor.  Bahsedemediğim diğer araçlara Hortonworks ecosystem sayfasından ulaşabilirsiniz.  Hadoop Framework’ünde yer alan tool’ları kısaca açıklayan bir stackoverflow girdisini de şurda.

Tek pipeline’ın Hadoop olmadığı da aşikâr. Cassandra’sı, Lucene’i, Cloudera’sı, rapidminer’ı, Mongo DB’si, Spark’ı, Power BI’ı, NoSql’i, Redis’i hangisi araç(tool)? hangisi vendor(kare pantolonlu havalı adamlar)?, hangisi çerçeve(framework) insanın başı dönmüyor değil. Diğer tarafta Amazon’un boş durduğu da söylenemez. Biz daha Big Data dedik fuları taktık derken predictive analytics diye bir über konuya dalıyor. İnternet’te birinin adından bir takım bilgilerine ulaşıp “stalker” oldum ya laaa diye gezen abiler, ablaları üzecek alanlara dalmışlar. Şurdan giriş yapılabilir konuya. Ya da ismi öğren, twitter’ı bul ordan instgram’a, o da olmadı google images’dan yürü,  evet sevgilisi yokmuş, gizli işsizlik fora 🙂

Hangisi daha fularlı konu bakalım: Big Data kelimesi ile bir google araması yaptığımızda 282.000.000 kayıt karşımıza çıkıyorken, predictive analytics aramasında 4.290.000 sonuca ulaştığımız görünüyor. Bah ne güzel analiz ettim diye düşünürken. Bir de Google trends’ten geçmişe yönelik arama yaptığımda ise aslında predictive analytics  2004- günümüz aralığı baz alındığında Big Data’dan daha önce eyyorlanmaya başlanan ve günümüzde de neredeyse aynı eğilimi  sergileyen bir konu. Bu iki görsel karşılaştırıldığında Big Data konusunun 2012’den itibaren “sky rocket” etkisine maruz kaldığı görünüyor.

Big Data’da 2012 sonra yaşanan hızlı popüleşmesinde IoT konusunun parmağı olduğu ve muhtemelen 2012 civarlarında aynı eğişimi IoT konusunun da gösterdiği tahminlenebiliyor. Bakalım doğru mu?

Yani beklediğim kadar doğru değil:) Demek ki öyle kolay iş değil tahminleme yapmak. İşin şakası bir yana, bu tarz davranış eğilimlerinin takibi, insan alışkanlıklarının ve rutinlerinin analiz edilmesi sayesinde firmalar büyük kazançlar elde ediyorlar. Genel eğilimlerin bilinmesi ile insanları yönlendirmek daha kolaylaşmakta, yönlenen insanların verdiği güçle de önce şirketleri sonra devletleri yönetmeye varana kadar sosyo-teknolojik ve tabii ki maddi faydalar sağlanabilmektedir.

Önümüzdeki yıllarda veri işleme konusu önemini daha da arttıracak gibi duruyor. Bir elin parmaklarını geçmeyen Data Scientist sayısı da  artacaktır. Sonra arz-talep patlaması. Yallah KPSS’ye.

TL;DR 

Bu yazıda Big Data konusunda teknik detay veya pratik içermeyen bir yorum yaptım. Konu alanıma uzak olduğu için yanıldığım veya yanlış yorumladığım yerler olabilir. Bunları farkeden kişiler olur ise düzeltmem için uyarabilirler. Konunun daha çok magazinsel bir şekilde işlenmesini amaçlarken yanlış bilgilendirme yapmak istemem. Herkesin BigData’sına kimse karışamaz, lakin ki öyle değildir. Eyyorlamam bu kadar.

Leave a Reply

Your email address will not be published. Required fields are marked *