Pandas’ta Performans Arttırmak: İşlem Hızlandırma Teknikleri

Şekil Resim Bir
Pandas’ta Performans Arttırmak: İşlem Hızlandırma Teknikleri
  1. Veri Türünü Değiştirme

Pandaslar, sütundaki mevcut değerlerin aralığından bağımsız olarak, tamsayı değerli sütunun
veri türü olarak her zaman int64’ü atayacaktır. Neyse ki Pandas, astype() yöntemini kullanarak
bir sütunun veri türünü değiştirme esnekliği sağlar. “Insulin” sütununun dönüştürülmesi,
dönüştürmeden önceki ve sonraki bellek kullanımıyla birlikte aşağıda gösterilmektedir:

2. Modin Kütüphanesi

Veri Bilimi projelerimizde hepimiz Pandas’la çok sıklıkla karşılaşmaktayız. Verileri ayrıştırma, veri görselleştirmeleri oluşturma, istatistiksel işlemleri gerçekleştirme gibi çeşitli işlemlerin gerçekleştirilmesine yardımcı olan en çok kullanılan Python kitaplıklarından birisidir.
Ancak büyük veri kümeleriyle uğraşıyorsak Pandas biraz yavaş olabilir, bu verileri yüklemek ve üzerinde işlem yapmak zaman alır. Pandas kütüphanesini hızlandırmak için açık kaynaklı bir Python kütüphanesi olan MODIN kullanabiliriz.

3. Datatable Kütüphanesi

Modern makine öğrenimi uygulamalarının çok büyük miktarda veriyi işlemesi ve birden çok
özellik oluşturması gerekir. Bu, daha yüksek doğrulukta modeller oluşturmak için gereklidir.
Python’un Datatable kütüphanesi bu sorunu çözmek için oluşturuldu. Bir makinede mümkün
olan maksimum hızda büyük veri (100 GB’a kadar) işlemlerini gerçekleştirmeye yönelik bir araç
takımıdır. Bu araç seti, pandasa çok benziyor ancak daha çok hız ve büyük veri desteğine
odaklanıyor. Pandas ve Datatable kullanılarak bir CSV’den “Pandas DataFrame” oluşturmanın
çalışma zamanı karşılaştırması aşağıda yer almaktadır.

4. Numpy Select

Uzun uzun for döngüler yazmak yerine , koşullu sütunlar oluşturmak için karşımıza Numpy
kütüphanesinin harika bir fonksiyonu karşımıza çıkıyor. Hem de hız olaran diğer metodlardan
5x kadar daha hızlıdır.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir