12 คำสั่งสุดเจ๋ง ใน pandas

12 คำสั่งสุดเจ๋ง ใน pandas

Data

3 Min

26 Oct 2023

Share

Pandas เป็น Library ตัวหนึ่งในภาษา Python ที่ได้รับความนิยมมากสำหรับการจัดการและวิเคราะห์ข้อมูลตาราง
โดยใน Library นี้ ประกอบด้วยฟังก์ชัน (Function) มากมายที่ช่วยให้ผู้ใช้สามารถทำงานกับข้อมูลได้อย่างมีประสิทธิภาพและยืดหยุ่น

นบทความนี้ True Digital Academy จะมาแนะนำ 12 ฟังก์ชันสุดเจ๋งใน pandas ที่จะช่วยให้คุณทำงานกับข้อมูลได้อย่างมีประสิทธิภาพยิ่งขึ้น โดยฟังก์ชันเหล่านี้ครอบคลุมการใช้งานพื้นฐานไปจนถึงการใช้งานขั้นสูง เหมาะสำหรับผู้ที่เริ่มต้นใช้งาน pandas ไปจนถึงผู้ที่มีประสบการณ์ใช้งานอยู่แล้ว


เริ่มต้นใช้งาน pandas ครั้งแรก 

การเริ่มต้นใช้งาน pandas นั้นไม่ยุ่งยาก เพียงแค่มี Jupyter Notebook (ใช้งานได้ฟรี) สำหรับเขียน Python และ import pandas เข้ามาใช้งาน จากนั้นก็สามารถเริ่มใช้งานฟังก์ชันต่างๆ ใน Library ได้เลย ด้วยคำสั่งดังต่อไปนี้ import pandas as pd

แนะนำ 12 คำสั่งสุดเจ๋งใน pandas 

1. pd.read_csv() 

ใช้สำหรับอ่านข้อมูลจากไฟล์ CSV (Comma Separated Value) ซึ่งเป็นไฟล์ข้อความประเภทหนึ่งที่ใช้สำหรับเก็บข้อมูลในรูปแบบตาราง ใช้เครื่องหมายจุลภาค หรือคอมม่า (,) ในการแบ่งแต่ละคอลัมน์ โดยปกติเราสามารถบันทึกไฟล์จาก Microsoft Excel ออกมาเป็น CSV ไฟล์ได้โดยตรง หรือ อาจได้ไฟล์ CSV จากการ export ไฟล์จากระบบฐานข้อมูลอื่นๆ เมื่อใช้คำสั่ง pd.read_csv() แล้วไฟล์จะถูกอ่านและเข้ามาเก็บใน DataFrame สิ่งที่เราต้องทำคือเพียงแค่ระบุ path ของไฟล์ที่ต้องการให้อ่าน นอกจากนี้ยังสามารถอ่านไฟล์ที่คั่นด้วยตัวคั่นที่ไม่ใช่ลูกน้ำ เช่น | หรือแท็บ ได้ด้วย

2. info()

ใช้สำหรับแสดงข้อมูลสรุปเกี่ยวกับ DataFrame เช่น จำนวนแถว จำนวนคอลัมน์ ประเภทข้อมูล เป็นต้น

3. describe() 

ใช้สำหรับแสดงข้อมูลสรุปเกี่ยวกับข้อมูลตัวเลขใน DataFrame เช่น ค่าเฉลี่ย ค่ามัธยฐาน ค่าเบี่ยงเบนมาตรฐาน เป็นต้น ช่วยให้รับรู้ข้อมูลในภาพรวมได้อย่างรวดเร็ว

4. head(n)

ใช้เพื่อแสดง n แถวแรกของ DataFrame หากต้องการจำนวนแถวมากขึ้น/น้อยลง สามารถระบุค่า n ในวงเล็บเป็นจำนวนเต็มได้

5. plot()

ใช้สำหรับสร้างกราฟจากข้อมูลใน DataFrame รองรับการสร้างกราฟได้หลากหลายประเภท ขึ้นอยู่กับค่าของพารามิเตอร์ kind ที่กำหนด อาทิ line สร้างกราฟเส้น bar สร้างกราฟแท่ง barh สร้างกราฟแท่งแนวตั้ง hist สร้างกราฟฮิสโตแกรม เป็นต้น

6. memory_usage

ใช้เพื่อแสดงการใช้งานหน่วยความจำของแต่ละคอลัมน์ (แสดงเป็นหน่วย “ไบต์”) ของ DataFrame ทำให้เราทราบพื้นที่ความจำจริงที่แต่ละคอลัมน์ใช้ไป และสามารถจัดการกับข้อผิดพลาด เช่น Memory Error ใน Python ได้

7. astype()

ใช้ในการแปลงประเภทข้อมูลใน Python เป็นประเภทข้อมูลที่ต้องการ เป็นฟังก์ชันที่มีประโยชน์มากในกรณีที่ข้อมูลไม่ได้จัดเก็บไว้ในรูปแบบประเภทข้อมูลที่ถูกต้อง ตัวอย่างเช่น หาก Python ตีความตัวเลขทศนิยม (Floating point number) ว่าเป็นข้อความ (String) เราสามารถแปลงกลับเป็นตัวเลขทศนิยมได้ด้วย astype() หรือถ้าคุณต้องการแปลงประเภทข้อมูลวัตถุเป็นหมวดหมู่ คุณสามารถใช้ astype()

8. merge()

ใช้เพื่อรวมข้อมูลใน DataFrame หรือข้อมูลแบบ Series ทั่วไป กับ Dataframe อื่นๆ คำสั่งนี้ทำงานคล้ายกับ JOIN ใน SQL ซึ่งเป็นหนึ่งในคำสั่งที่มีประโยชน์มากๆ ในการทำงานกับข้อมูลหลายชุดจากหลายๆ แหล่ง 

9. sort_values()

ใช้เพื่อเรียงลำดับคอลัมน์ใน DataFrame หรือ Series ตามค่าตัวเลขจากน้อยไปหามากหรือจากมากไปน้อย หรือจากตัวอักษร A-Z หรือ Z-A จากการระบุคอลัมน์หลักที่ต้องการใช้เรียงลำดับ  

10. fillna()

โดยทั่วไปเมื่อต้องจัดการกับชุดข้อมูลขนาดใหญ่ จะพบว่ามีข้อมูลหลายรายการที่ปรากฏเป็น NaN (Not a Number) ซึ่งเป็นการแสดงผลข้อมูลที่หายไปใน Python คำสั่ง fillna() ช่วยให้เราสามารถทำการแทนที่ค่า NaN ทั้งหมดใน DataFrame หรือ Series ได้ด้วยค่าที่เหมาะสมมากขึ้น เช่นใส่เป็นค่าเฉลี่ย ค่ามัธยฐาน เป็นต้น

11. groupby()

ใช้เพื่อจัดกลุ่มข้อมูลใน DataFrame เพื่อจะนำมารวบยอดหรือทำอะไรก็ตามแบบแยกเป็นกลุ่มๆ เช่น คำนวนทางคณิตศาสตร์ สามารถใช้เพื่อสรุปข้อมูลในลักษณะง่ายๆ

12. drop_duplicates() 

ใช้เพื่อแสดง DataFrame โดยลบแถวที่ซ้ำกันออก โดยสามารถลบข้อมูลซ้ำได้ทั้งแบบทั้งหมดและแบบเลือกเฉพาะบางคอลัมน์ มีประโยชน์อย่างมากสำหรับทำความสะอาดข้อมูล

นอกจาก 12 คำสั่งนี้แล้ว pandas ยังมีคำสั่งสำหรับจัดการ DataFrame อีกมากมาย โดยสามารถเข้าถึงเอกสารการอย่างเป็นทางการใช้งานได้จากที่นี่: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html

————————————————-

ทว่าการอ่านเอกสารเชิงเทคนิคเหล่านี้เองก็อาจจะยากสำหรับมือใหม่ ดังนั้นหากอยากเรียนรู้ Data Analysis ด้วย pandas ตั้งแต่พื้นฐาน เพื่อการทำงานกับข้อมูลแบบมืออาชีพ สามารถมาสมัครเรียน “Pandas With AI Coding Assistant For Data Analytics” กับ True Digital Academy กันได้ ดูรายละเอียดเพิ่มเติม และสมัครเรียนที่นี่ https://bit.ly/45R1txw

———————————————-
สามารถติดตามความรู้และคอร์สเรียนที่น่าสนใจจาก True Digital Academy ได้ทุกช่องทาง
Website – https://bit.ly/3e9QZPw
Facebook – https://bit.ly/391XSkF
LinkedIn – https://bit.ly/3p7x08V
Instagram – https://bit.ly/2LwX5Ra
TikTok – https://bit.ly/3v8e0wV
YouTube – https://bit.ly/3is5lCx