Tôi cài đặt 9 công cụ Python này trên mọi máy mới

Tác giả Starlink, T.M.Một 28, 2025, 09:00:06 CHIỀU

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 2 Khách đang xem chủ đề.

Đây là những thư viện tôi thường dùng để xử lý dữ liệu Python.

Ai cũng có bộ công cụ gồm những chương trình yêu thích mà họ cài đặt trên máy tính mỗi khi mua máy mới. Nhờ Python, tôi đã xây dựng được bộ công cụ thiết yếu của riêng mình. Dưới đây là những thư viện và chương trình tôi thường dùng mỗi khi mua máy mới.


1. Jupyter/IPython

Jupyter là một cách tạo sổ ghi chép tương tác kết hợp văn bản, đồ họa và mã. Đây là một hình thức lập trình độc đáo. Nó đã tạo nên cơn sốt trong giới lập trình khoa học. Việc chạy và chạy lại các đoạn mã rất dễ dàng.


Mặc dù không phải là công cụ dành riêng cho Python, Python hỗ trợ các ngôn ngữ khác, nhưng là một trong những ngôn ngữ nguồn mở được lựa chọn cho tính toán khoa học, bao gồm cả thống kê. Sổ tay Jupyter ban đầu là một phần của IPython, giúp tăng cường môi trường tương tác của Python. Tôi chủ yếu sử dụng IPython để thử nghiệm và sổ tay Jupyter khi muốn lưu kết quả.

2. Mamba

Đây không phải là một công cụ Python cụ thể, nhưng Mamba rất hữu ích cho việc thiết lập môi trường của tôi trên máy mới. Mặc dù Python được tích hợp sẵn trên nhiều hệ thống, nhưng trên Linux, nó chủ yếu được sử dụng để hỗ trợ các tập lệnh và các chức năng khác của chính hệ điều hành, chứ không dành cho các dự án lập trình. Nếu tôi muốn cài đặt các gói, tôi sẽ phải sử dụng trình quản lý gói hoặc thiết lập một môi trường ảo.


Mamba cho phép tôi dễ dàng thiết lập môi trường tùy chỉnh với các gói tôi muốn và chuyển đổi qua lại. Điều này giúp tôi ít có khả năng làm hỏng môi trường Python hệ thống của mình hơn.

3. NumPy

NumPy là công cụ tính toán khoa học mạnh mẽ trên Python. Chức năng của nó tương đương với Matlab, vốn đã được sử dụng rộng rãi trong khoa học và kỹ thuật. Nó giúp việc xử lý các mảng số trở nên dễ dàng. Bạn có thể định nghĩa vectơ và ma trận để giải hệ phương trình tuyến tính một cách dễ dàng.


Điểm hấp dẫn chính đối với tôi là khả năng cung cấp nhiều phép tính thống kê cơ bản, bao gồm cả giá trị trung bình và trung vị. NumPy cũng tương thích với nhiều thư viện khác mà tôi sẽ đề cập sau.

4. SciPy

SciPy là một tập hợp rất nhiều hàm khoa học. Một lần nữa, điểm thu hút chính của nó đối với tôi là tính toán thống kê. Tôi có thể tính toán các hàm mà vì lý do nào đó không có trong NumPy chuẩn. Ví dụ, tôi có thể tính toán chế độ thống kê, tức là số xuất hiện thường xuyên nhất trong một tập dữ liệu.


Giả sử tôi có một mảng có tên là "a". Nếu tôi muốn tìm chế độ, tôi chỉ cần chạy đoạn mã này:

Mã nguồn [Chọn]
from scipy import stats
stats.mode(a)

SciPy cũng có nhiều phân phối thống kê phổ biến, chẳng hạn như phân phối chuẩn, phân phối nhị thức và phân phối t của Student. Tôi không cần phải xem qua các bảng nữa.

5. SymPy

Trong khi NumPy và SciPy xử lý các phép tính số, SymPy lại mang đến một thứ hoàn toàn khác. Đây là một thư viện biến Python thành một hệ thống đại số máy tính. Điều này cho phép Python thao tác các biến ký hiệu theo cách máy tính xử lý số. Đây là chức năng đã được cung cấp trong các gói đắt tiền như Wolfram Mathematica.


Điều này cho phép tôi thực hiện các phép toán đại số trong Python, chẳng hạn như khai triển và phân tích đa thức thành nhân tử, giải phương trình, và thậm chí cả phép tính tích phân và vi phân. Mặc dù chỉ chiếm một phần nhỏ trong các phép toán hàng ngày, nhưng chúng rất hữu ích để hiểu sâu hơn về các khái niệm thống kê. Tôi có thể sử dụng nó để tính toán công thức hồi quy tuyến tính, trong khi các thư viện khác sẽ xử lý các phép tính thực tế. Tôi cũng đã sử dụng nó để xử lý các văn bản có sử dụng các phép toán nâng cao này. Tôi thấy đây là một công cụ vô giá cho việc tự học toán của mình.

6. Pandas

Đối với các phép tính thống kê, đây thậm chí còn là một công cụ mạnh mẽ hơn cả NumPy. Pandas giúp dễ dàng định nghĩa DataFrames của dữ liệu hình chữ nhật. Điều này tương tự như cách sắp xếp dữ liệu bạn thấy trong bảng tính và cơ sở dữ liệu quan hệ. Việc nhập dữ liệu từ bảng tính Excel và CSV cũng rất dễ dàng.


Tôi không chỉ có thể hiển thị dữ liệu mà còn có rất nhiều hàm tích hợp để thực hiện các phép tính, chẳng hạn như thống kê mô tả. Tôi cũng có thể vẽ biểu đồ dữ liệu bằng các phương pháp của Pandas.

7. Seaborn

Tôi đã đề cập đến Seaborn trước đây. Tôi thích cách nó cung cấp một cách dễ dàng để tạo các biểu đồ thống kê phổ biến. Về cơ bản, nó là giao diện người dùng cho thư viện Matplotlib phổ biến. Mặc dù thư viện Matplotlib rất hữu ích, nhưng việc thiết lập biểu đồ mong muốn có thể khá rắc rối. Trong Seaborn, vấn đề chủ yếu là chọn loại biểu đồ tôi muốn và thiết lập trục x và trục y.


Ví dụ, để có được hồi quy với biểu đồ phân tán của cơ sở dữ liệu tiền boa tích hợp sẵn trong nhà hàng so với tổng hóa đơn:

Mã nguồn [Chọn]
import seaborn as sns
sns.set_theme()
tips = sns.load_dataset('tips')
sns.regplot(x='total_bill',y='tip',data=tips)

8. Pingouin

Pingouin là một thư viện hữu ích để thu thập kết quả kiểm tra thống kê một cách thân thiện với người dùng. Để xem các số liệu thực tế đằng sau biểu đồ hồi quy đó trước đó, tôi có thể sử dụng linear_regressionphương pháp của pingouin:

Mã nguồn [Chọn]
import pingouin as pg
pg.linear_regression(tips['total_bill'],tips['tip'])


Ngoài ra còn có các bài kiểm tra phổ biến khác như kiểm tra t của Student và Chi-square.

9. Statsmodels

Statsmodels là một thư viện cũ, đúng như tên gọi, chủ yếu dành cho các bài kiểm tra thống kê. Điểm hấp dẫn chính của nó là hồi quy tuyến tính. Kết quả của nó cũng được kiểm tra chéo với các chương trình thống kê khác như R. Điều này rất hữu ích nếu bạn muốn đảm bảo kết quả của mình là hợp lệ. Nói về R, nó cũng hỗ trợ các công thức tương tự R. Tôi sẽ minh họa điều này bằng một phiên bản khác của phân tích hồi quy từ tập dữ liệu mẹo:

Mã nguồn [Chọn]
import statsmodels.formula.api as smf
results = smf.ols('tip ~ total_bill',data=tips).fit()
results.summary()


Những thư viện và công cụ này giúp việc phân tích dữ liệu trở nên dễ dàng và thú vị hơn. Có lẽ tôi sẽ áp dụng chúng vào chiếc máy tính tiếp theo.