Data Lake , Tek store da structure , semi-structure veya raw dataların tutulması ve raporlama , analitik , görselleştirme gibi çeşitli görevler için kullanmasıdır. Aslında Data Lake bir bir teknoloji önermez, yalnızca gereksinimler. Data Lakes genellikle Hadoop’la ele alınabilir ama aslında Hadoop, NoSQL, S3, RDBMS veya bunların kombinasyonları gibi çoklu teknolojiler üzerine kurulabilir.
Data lakes can be based on HDFS, but are not limited to that environment; for example, object stores such as Amazon Simple Storage Service (S3)/Microsoft Azure or NoSQL DBMSs like HBase or Cassandra can also be environments for data lakes.” — Gartner
Gartnerın yukarıdaki tanımlaması günümüzde dahada gelişti diyebiliriz.
Günümüzde Data Lake ‘in bazı ana design kuralları vardır.
Öncelikle Data ingestion sistemi otomatikleştirilmeli ve güvenilir olmalıdır.
Tüm filelar içine çekilebilmelidir.
Bu ingest işlemi en günlük sıklıkta olmalıdır.
Orjinal formda saklanan veriler olmalıdır.
Governance ve güvenlik agile ile dengelenmelidir.
Düşük maliyetli teknolojilerle sağlanmalıdır.
Peki firmalar Data Lake neden ihtiyaç duyarlar?
Birçok farklı ve önemli başlığı var aslında ama bunlardan bazıları yazmak gerekirse
Çoğu zaman çok büyük, çok küçük, çok hızlı, çok yavaş, bozuk, yanlış veya yanlış biçimde veri alabiliriz.
Bugün kurumların öncelikleri hızla değişiyor yeni flowlar oluşturma mevcut olanları değiştirme hızlı olmalıdır.
Protokol ve formatlar her zaman değişebilirler. Dataflow ,esas itibariyle birlikte çalışmak için gevşek olan veya olmayan bileşenlerden oluşan bir sistemi birleştirmek için kullanılır.
Kanunlar, düzenlemeler ve policyler değişir. İşletmeler arası anlaşmalar değişir. Sistemden sisteme ve sistemle kullanıcı arasındaki etkileşimler güvenli, güvenilir ve hesap verebilir olmalıdır.
DATA Lake sayesinde yeni fırsatlar nelerdir?
Bir Data Lake projesi muhtemelen birkaç milyon dolarlık bir yatırım olacaktır. Kurumlarda başarılı bir Data Lake programı oluşturmak için yeterli tecrübeye sahip uzman sayısının az olmasıda bunda etkendir.
Tabi birde günün sonunda bu Data Lake ‘i business userlarının kolay kullanacağı bir hale getirmek var. Günümüzde IT mutlaka Spark ,Kafka , Hadoop Nifi öğrenmelidir. Ancak bu teknolojilerin çok kolay olduğunu tam doğru olmaz. Doğru design edilmiş Data lake çözümünde kolay monitor edilen data pipelines ve data profiling ve discover aşamaları olmalıdır.
Bu konunun ana başlıklarına baktığımızda Hadoop Ortamına ek olarak
Kylo Data Lake sofware platformu ile