numpy

numpy中的数据存储是array, array要求数据类型是一样的,这和python中的list不同

generating Array

Array indexing and slicing

Array concatenation

Array reshaping

Vectorized manipulations

做numpy和pandas操作时的一个原则:能用向量操作尽量用向量操作,速度最快。尽量避免写元素的循环

Calculations with numpy

Masked arrays

Mask 把 array 的一部分“挡住”,来阻止其他的函数对其进行操作。这在有的时候挺有用

pandas

Create a data frame

Quick production of dataframe examples with pandas._testing

read data

Quick summary

object vs. str

objectstr有什么区别:

一些细节:numpy 中允许 object 和 str 两种字符串的格式。但pandas没有采用numpy的这种格式,而是用原生python的字符串格式。numpy的格式更为复杂。例:(来自https://stackoverflow.com/questions/34881079/pandas-distinction-between-str-and-object-types)

byteorder: https://numpy.org/doc/stable/reference/generated/numpy.dtype.byteorder.html#numpy.dtype.byteorder

pandas中不允许用固定长度的str

Sort, duplicates

Categorizing values

datetime type, time series as index

Useful resources: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html

BM: Business Month

apply, groupby apply

注意:pandas中的apply操作有时会很慢(包括groupby apply)

multiindex (panel data)

merge

Reshaping and pivoting

Plotting

Matplotlib basics

an Seaborn example with masked data

Draw from pandas