Sevgili arkadaşlar bu yazımda sizlere çok önemli ve şirketler için vazgeçilmez bir rol üstlenen Data Engineer’lardan bahsetmek istiyorum.
Data önceki yazımda Data Scientist (veri bilimci) kimdir ne iş yapar detaylı paylaşmıştım.
Ufak tefek farklılıklar göstersede Data scientist bence bir software engineer dan daha fazla istatistik bilgisi olan ve bir istatistikçiden de daha fazla yazılım bilen kişi olarak başlayabiliriz.
Bu doğrultuda Data Engineer ne bilmelidir. Data scientist ve Data engineerlar birbirlerine yakın çalışması gereken roller.
Data engineer konusuna gelirsek çok beğendiğim bir tanımı sizlerle paylaşmak istiyorum. Klasik software engineer a göre daha fazla istatistik bilmesi ve bir Data Scientist ten daha fazla sistem ve yazılım bilmesi gerekiyor.
Veri bilimi olarak basit bir şekil çizersek
Veriyi Hazırlama —–> Test ve Train setler —–> Model —–> Değerlendirme gibi bir yol izleyebiliriz.
Data engineering ise Ham data kısmından başlayabilir. Veriyi Data scientist arkadaşlarımızın rahatlıkla kullanabilceği hale getirme ve birlikte çalışmaya kadar devam eder.
Bu roller bazı şirketlerde aynı kişiler tarafından götürülebilir ama şirket büyüdükçe bu mümkün ve doğru olmayacaktır. Günümüzde her şirket Data Engineer’a ve Data Scientist’e inanılmaz ihtiyaç duyacaktır. Bu roller klasik IT rolleri gibi değildir. Business’a direkt Katma Değer sağlayan rollerden bahsediyoruz.
Sadece basit analitik yetmez Datayı bir asset haline getirmemiz lazım.
Inanılmaz büyük fakat nasıl analiz edileceği bilinmeyen ya da bu büyük veri içerisinden anlamlı bir veri çıkarılamamış binlerce şirket var. Diğer taraftan en başarılı şirketlere baktığınızda aslında veriyi iyi kullanan , veriden ürün çıkartan şirketler olduklarını görüyoruz. Ülkemizin bu alanda ciddi ihtiyaçları var. Benim gördüğüm kadarı ile veriyi iyi kullanıp bir product çıkaran şirket sayımız çok az.
Gerçek Veri bilimi için çok iyi data engineering lazım. Verinin çok çeşitli oluştuğunu düşündüğümüzde bu ihtiyacı daha iyi anlayabiliriz. Bu işleri otomatize etmemiz de ayrı bir önemli konu.
Günümüzde sistemleri özetlemek gerekirse;
SOURCE DATA
Batch ve Streaming olarak ikiye ayıralım.
Batch tarafta klasik Sourcelarımızı yani RDBMSleri , NOSQL leri , FTP leri ve API ile jsonları düşünebiliriz.
Streaming tarafında IOT datası , Applicationlar , kafka gibi düşünnebiliriz.
PROCESS olarak
SQL , data extraction , partition, cleaning, encrpytion , split , compress , metadata , enrich ve stream processing çok önemli.
Bu konularda python , java , NIFI , Spark , Kafka , flink , Informatica(Big Data Management) , pentaho avantaj sağlayacak ürünler
ANALYZE etmek
Presto, Hive , Python , R , Elasticsearch , SOLR , Hbase i , Tensorflow u yazabiliriz.
Bütün bunlarla beraber Lambda ve Kappa mimarisi bir kurum için hayati öneme sahip. Yeni nesil data tutmayan Column oriented çalışmayan bir çok şirket görüyorum.
Konumuza dönelim Nasıl Data Engineer Olurum. Neleri bilmek avantaj sağlar?
Buradan Özetle;
Bu kabiliyetlerin çok önemli olduklarını görüyoruz. Tabiki Yukarıda yazdıklarımın tamamını bilmek çok zor ama ne kadar çok başlıkta yetkinliğiniz artarsa o kadar aranan kişi olursunuz.
Büyük bir iş ama sitesinde Data Engineer arattığımda 125.000 üzerinde ilan ve ortalama 130.000 USD üzerinde bir ücret görebiliyoruz.
Benzer bir şekilde data scientist arattığımda 30.000 üzerinde iş ve 120.000 usd üzerinde ortalama gelir görüyoruz.
Birbirini tamamlayan bu iki rol son derece önemli. Yukarıdan da anlaşılacağı gibi Data engineer olabilmek harika bir kariyer.
Bir data engineer kariyerine Nasıl devam edebilir. 3 yıldan sonra senior data engineer ve bence 10 yıl üzerinde yukarıda bahsettiğim maddelerde yetkinliği varsa Data Architect olarak devam edebilir.
Bu konularda gerek çalışan iseniz şirketinizdeki bilgiyi artırmak veya öğrenci iseniz universitenizdeki öğrenci arkadaşlarımızla bu tecrübeleri paylaşmaktan son derece keyif alıyorum. Ücretsiz olarak seminer düzenlememiz mümkün.
Sorularınız için bana ulaşmaktan çekinmeyin.