เข้าใจ Data structures ใน Pandas แบบง่าย ๆ สไตล์คนเคยใช้ Excel

เข้าใจ Data structures ใน Pandas แบบง่าย ๆ สไตล์คนเคยใช้ Excel

Data

3 นาที

20 ก.ย. 2023

แชร์

“Pandas” เป็น Library อันดับหนึ่งของ Python ที่ได้รับความนิยมมากในงานที่เกี่ยวข้องกับการวิเคราะห์ข้อมูล (Data Analytics) จนปัจจุบันไม่ได้เป็นทักษะที่สำหรับเฉพาะผู้เชี่ยวชาญในสายงานโดยตรงแต่เพียงเท่านั้น Pandas ได้กลายเป็นหนึ่งในทักษะสำคัญที่ช่วยสายงานอื่นๆ ได้ อาทิ นักวิจัย นักวิเคราะห์ธุรกิจ หรือผู้ที่ต้องทำงานอยู่กับข้อมูลจำนวนมากอยู่เป็นประจำ ทว่าก็มักจะมีคำถามยอดฮิตเข้ามาจากผู้ที่สนใจเรียนว่า “อยากเรียน แต่เขียนโค้ดไม่เป็นเลย เรียนได้ไหม?”

สามารถตอบได้เลยทันทีว่าไม่ใช่เรื่องยากเกินความสามารถแน่นอน โดยเฉพาะคนที่ใช้ Excel มาก่อนอยู่แล้ว จะสามารถเข้าใจได้อย่างรวดเร็วมากยิ่งขึ้น บทความวันนี้จะพาทุกคนมาทำความเข้าใจโครงสร้างข้อมูล (Data Structures) ของ Pandas Library กันให้มากยิ่งขึ้น ด้วยการเปรียบเทียบกับ Excel เพื่อให้ผู้ที่ไม่เคยเขียนโค้ด Python หรือใช้ Pandas มาก่อน มองเห็นภาพได้มากขึ้น

source
Pandas: https://www.geeksforgeeks.org/creating-a-pandas-dataframe/
Excel: https://www.researchgate.net/figure/Sample-data-in-Microsoft-Excel-worksheet_fig1_346420261

5 คำศัพท์เกี่ยวกับ Data Structures ง่าย ๆ ใน Pandas ฉบับคนเคยใช้ Excel

1. DataFrame

DataFrame ใน Pandas เทียบได้กับ Worksheet ใน Excel ที่เป็นโครงสร้างข้อมูลเชิงสองมิติประกอบด้วยข้อมูลที่มีโครงสร้างคล้ายตาราง ทว่าจุดสำคัญที่แตกต่างกัน คือหนึ่ง Workbook ใน Excel สามารถมีหลาย Worksheet ได้ ในขณะที่แต่ละ DataFrame บน Pandas จะแยกกันอยู่อย่างอิสระ นอกจากนี้ DataFrame ใน Pandas สามารถมีข้อมูลประเภทต่าง ๆ ผสมกันได้ ในขณะที่ Worksheet ใน Excel แต่ละคอลัมน์จะต้องเป็นประเภทข้อมูลเดียวกัน อีกทั้ง Pandas  ยังมีฟังก์ชันและวิธีจัดการข้อมูลมากมายที่ช่วยให้จัดการข้อมูลได้ง่ายขึ้น 

2. Series

Series ใน Pandas คือโครงสร้างเชิงหนึ่งมิติใน DataFrame ประกอบด้วยข้อมูลที่มีโครงสร้างคล้ายลำดับ ที่ใช้สำหรับเก็บข้อมูลในรูปแบบของแถวเดียวหรือคอลัมน์เดียวเท่านั้น เปรียบเสมือน Column  ใน Excel จุดแตกต่างคือ Series เป็นโครงสร้างข้อมูลที่มีความยืดหยุ่นมากกว่า และมีความสามารถในการจัดการข้อมูลที่ซับซ้อนมากกว่า

3. Index

DataFrame และ Series ทุกตัวมี Index ซึ่งเป็นเสมือนป้ายกำกับบนแถวของข้อมูล คล้ายกับส่วน Row Heading ของ Excel ที่อยู่ทางซ้ายสุดเป็นตัวเลขแถว 1,2,3,4,…. ที่มีมาให้ตั้งแต่เริ่มเปิด Worksheet ซึ่งช่วยในการค้นหาและอ้างอิงข้อมูลได้อย่างรวดเร็ว เราใช้ Index เพื่อหา Row ที่เราต้องการใน DataFrame นั้นๆ

4. Row

Row ใน Excel และ Row ใน Pandas ถูกเรียกเหมือนกัน คือสิ่งที่ใช้ในการอ้างอิงข้อมูลในแต่ละแถวของตารางหรือโครงสร้างข้อมูลที่เก็บข้อมูลแบบตาราง แต่จุดแตกต่างสำคัญคือ Row ใน Excel เป็นแถวของข้อมูลที่ประกอบด้วย Cell ในขณะที่ Row ใน DataFrame ของ Pandas มีโครงสร้างข้อมูลเป็น Series ซึ่งจะใช้ Index เป็นการอ้างอิงถึงตำแหน่งเพื่อเข้าถึงข้อมูลในแถวนั้น ๆ เพื่อนำมาวิเคราะห์หรือปรับแต่งตามต้องการ

5. NaN

Cell ข้อมูลที่ว่างเปล่าใน Excel หรือเรียกง่ายๆ ว่า Empty Cell  เมื่อมาอยู่บน DataFrame ของ Pandas จะถูกแทนค่าด้วย NaN ย่อมาจาก Not A Number เป็นค่าที่ผิดพลาดทางหลักคณิตศาสตร์ที่ไม่ใช่ตัวเลข มักถูกใช้ในบริบทที่ควรมีค่าตัวเลข แต่ไม่สามารถคำนวณได้หรือไม่มีค่าตัวเลขที่ชัดเจน เช่น ในกรณีที่มีการหารด้วยศูนย์หรือคำนวณผลลัพธ์ที่ไม่มีคำตอบทางคณิตศาสตร์ ข้อมูลที่หายไป หรือข้อมูลที่ไม่สมบูรณ์


ทักษะการใช้ Pandas จะช่วยเสริมให้การทำงานกับข้อมูลจำนวนมากมีประสิทธิภาพมากยิ่งขึ้น จนล่าสุดไม่กี่เดือนที่ผ่านมา Microsoft Excel ได้ประกาศว่าจะเพิ่มฟังก์ชัน Python in Excel เข้ามาให้ผู้ใช้ Excel ได้เพิ่มขีดความสามารถการทำงาน เพียงแค่ดาวน์โหลด Beta version สำหรับ Windows มา แล้วเขียน =PY() ใน Cell ก็สามารถเขียนโค้ด Python ต่อในวงเล็บได้เลยทันที

เริ่มต้นเรียนรู้เกี่ยวกับ Pandas เพิ่มเติมได้แล้ววันนี้ คลิกเลย! https://www.truedigitalacademy.com/course/pandas-for-data-analytics

Source:  https://pandas.pydata.org
———————————————-
สามารถติดตามความรู้และคอร์สเรียนที่น่าสนใจจาก True Digital Academy ได้ทุกช่องทาง
Website – https://bit.ly/3e9QZPw
Facebook – https://bit.ly/391XSkF
LinkedIn – https://bit.ly/3p7x08V
Instagram – https://bit.ly/2LwX5Ra
TikTok – https://bit.ly/3v8e0wV
YouTube – https://bit.ly/3is5lCx