Top Package Python for Data Science

สำหรับคนที่ทำงานเกี่ยวกับ Data Science โดยใช้ภาษา Python ผมก็จะมาแนะนำ Package Python ที่จำเป็นต่อการทำงานด้าน Data Science ซึ่งคนที่ทำงานด้านนี้จำเป็นจะต้องรู้จักและศึกษาการใช้งาน ซึ่งผมก็ใช้อยู่ในปัจจุบัน


Basic Package

  • Virtualenv : ใช้สำหรับสร้าง Virtual Environment ของ Python เพื่อลดปัญหาในเรื่องของ Dependency และ Version ของ Application
  • Pandas : ใช้สำหรับจัดการข้อมูลเชิงโครงสร้าง Data Structure ที่ประกอบด้วย Row and Column พวกข้อมูล Dataset ที่มาจากไฟล์ CSV, TSV, SQL
  • NumPy : ใช้สำหรับสร้าง N Dimension Array ตัวแปรหลายมิติได้ ซึ่งจะมีประโยชน์สำหรับการทำพวก Linear Algebra, Fourier Transform
  • OpenCV : ใช้สำหรับงานด้าน Computer Vision สามารถ Processing ได้ทั้ง Image และ Video ซึ่งเป็นพื้นฐานของการทำ Detection, Classification และ Recognition
  • Matplotlib : ใช้สำหรับสร้าง Interactive Graph แบบ 2D Graphic ไม่ว่าจะเป็น Bar Chart, Graph, Histogram หรืออื่น ๆ เพื่อทำ Data Visualization ซึ่งถ้าหากต้องการ Plot ใน Notebook จะต้องใช้คำสั่ง %matplotlib inline ด้วย
  • Seaborn : ใช้สำหรับสร้าง Statistic Data Virtualization ซึ่งเป็นส่วนขยายจาก Matplotlib ที่มี High-Level Interface สำหรับให้เรียกใช้งานได้ง่ายขึ้น
  • Scikit Learn : ใช้สำหรับการทำ Machine Learning ซึ่งประกอบไปด้วยการทำ Classification, Regression, Clustering, Dimension Reduction, Model Selection และ Pre-Processing
  • Pillow : ใช้สำหรับการประมวลผลรูปภาพ Image Processing เช่น Point Operation, Filtering, Image Resizing, Rotation นอกจากนี้ยังใช้สำหรับแสดงรูปภาพ Image Display และใช้สำหรับจัดเก็บรูปภาพ Image Archive
  • Pytesseract : ใช้สำหรับการแปลงภาพเป็นข้อความ Optical Character Rcognition ( OCR ) ซึ่งรองรับไฟล์รูปภาพได้หลายประเภท เช่น jpeg, png, gif, bmp, tiff นอกจากนี้ยังรองรับภาษาได้มากกว่า 100 ภาษา
  • Django : ใช้สำหรับสร้าง Web Application ซึ่งเป็น High-Level Web Framework ของทาง Python
  • Easydict : ใช้สำหรับจัดการ Dict ในการดึง Value ในลักษณะของ Attribute โดยทำงานแบบ Recursive
  • Jupyter Notebook : ใช้สำหรับแสดง Code พร้อม Output ที่ได้ อีกทั้งยังสามารถเพิ่มคำอธิบายได้โดยแยกเป็น Text กับ Code
  • OS : ใช้สำหรับ Access Local Computer ในการสร้างหรือลบ File, Folder
  • Random : ใช้สำหรับ Random Number เพื่อใช้ในการ Split หรือ Shuffle พวก Dataset
  • Garbage Collector : ใช้สำหรับ

Option Package

  • Tensoflow : ใช้สำหรับ Machine Learning ในการ Build and Train Model ซึ่งเป็นทั้ง High-Level & Low-Level API
  • Keras : ใช้สำหรับ Deep Learning ในการ Build and Train Model ซึ่งเป็น High-Level API โดยที่รันอยู่บน Tensorflow, CNTK หรือ Theano อีกที จะทำงานช้ากว่า Pytorch ซึ่งเป็น Low-Level API แต่ใช้งานง่ายกว่าเยอะ
  • PyTorch :
  • Tensorboard :
  • OpenPose :
  • DeepSpeech :

อ่านเพิ่มเติม : https://bit.ly/2KgR4Ft


Leave a Reply

Your email address will not be published. Required fields are marked *