# Python 简介

- Guido van Rossum 于1989年圣诞节时发明
- 语言流行度排名：https://www.tiobe.com/tiobe-index/
- 关于编程语言
    + C, C++ 适合底层（也即贴近硬件）的程序编写，例如操作系统(Unix, Linux, Windows)，编译器(GCC, CPython...)，或者其他的编程语言(Java, Matlab...)
    + Python 是一种解释型语言（interpretive），而非C语言这种编译型语言(Compiled)
    + 除了机器语言，所有高级语言都需要编译器才能翻译成机器可以运行的代码。解释型语言的翻译过程：编译器（同时也可以执行）一行一行地对语言进行逐行翻译，边翻译，边运行；编译型语言：编译器先把整个完整的代码翻译好(Build)，再由机器执行。比如，.exe文件就是编译好的，可以在Windows下运行的完整程序。
    + 因此，编译型语言的运行速度快，同时对硬件方面操作的自由度要大。解释型语言的运行速度要慢。但编译型语言的缺点是：编译过程可能很费劲; 不同的平台需要不同的编译器。解释型语言一般更容易编写，且因为编译器同时也可执行代码，可跨平台适用。
    + 解释型语言的另外一个缺点是代码不好加密。发布Python代码就是发布源代码，而C语言可以只发布编译后的机器码(.exe文件)，要从机器码反推源代码是不可能的（不是一一对应的函数，即使反推出来也难以阅读）。

- 各种语言有不同的特点，在不同的场景中有自己的领域。
  - 微观计量：stata
  - 统计：R
- Python不仅仅用于科学计算，在网络开发这个领域也进占了别的语言的地盘(PHP, Ruby等)。很多大型的网站是用Python开发的，比如豆瓣，YouTube。
- Python最大的特点是提供了非常完善的基础代码库。基础代码库提供好了很多现成的东西，来帮助加快开发速度。比如文件操作，网络协议库，科学计算库，机器学习，等等。
- 尤其在数据科学领域，由于Python这种“万金油”的特点，使其成为最好的通用型语言。比如，如果要搜集网页数据，Python有很好的一系列爬虫库；如果要进行矩阵运算，Python有numpy, pandas等等；如果要进行常规的统计建模，Python有statsmodels；机器学习，sklearn；……

# 安装Python

- 有很多种安装方式。比如从Python官网下载对应的安装包，有的操作系统已经内置有Python编译器。
- 由于历史原因，Python有两个主要的版本，Python 2 和 Python 3。有些程序在两者之间不可兼容运行。现在主流的选择是Python 3。我们选择 Python 3。
- 同时，仅仅安装 Python 内核还不够用，我们需要用到和科学计算大量相关的库，以及 Jupyter notebook (lab) 这种方便的工具，因此，我们选择最常见的一站式解决方案，安装 Anaconda：https://docs.anaconda.com/anaconda/install/
- 下面我们来看看 Python 程序
    + 命令行模式，交互式
    + notebook 中
    + 文本编辑器

$E = MC^2$

In [1]:
print('Hello World!')

Hello World!


In [2]:
print("Hello World!")

Hello World!


In [3]:
ss = "Haa'ha"
print(ss)

Haa'ha


In [4]:
name = input("Please enter your name: ")

In [5]:
print(name)

Zhao Bo


In [1]:
! python --version

Python 3.8.8


In [2]:
# ! 命令可以在notebook中执行命令窗口的命令
! ls

Python_intro.html  Python_intro.ipynb all_files.7z       lec-1.pdf


## 常用工具介绍

- 编辑器, Visual Studio Code, Sublime Text. (Emacs, Vim)
- 善用搜索引擎. stackoverflow, stackexchange, github...
- 我们的主要工作环境：Jupyter lab (notebook)。可以类比为一个编程草稿本。

优势：

    - 文字、代码、图表可统一在一个地方。
    - 可方便转换为其他形式的文件，例如: pdf, html, markdown, slides 等
    
劣势：

    - 内容比较多时容易杂乱。
    - 解决方案：添加目录。这是我从jupyter notebook 转为 jupyter lab 的一个主要原因
    
如有自行编写的需经常重复使用的代码，应进行整理并构建自己的常用库（下面会介绍）

## 模块安装

`conda install <package_name>`

`conda install -c conda-forge <package_name>`

- `conda-forge`是另一个管理package的channel，也在conda上。和默认的channel不一样。
- `conda-forge`的包一般更新更快，有时也会发现在默认的channel里没有的包在`conda-forge`中有
- 如果要指定安装哪个版本，一般可以把`package_name`写成，例如，`package_name = 3`

也可以用`pip3`，类似的傻瓜式操作.
- 区别：pip只安装python的包
- conda 也可以安装一些其他的工具软件，即使不是python开发的

### 环境

python中有一个`virtualenv`可用来管理不同的python运作环境。好处：
- 不同的环境之间彼此隔离，互不影响。
    - 如果一个项目是爬虫，另一个项目是机器学习，那么用到的包可能很不一样。如果都装到一个地方，可能会逐渐变得越来越庞大，垃圾包很多，配置文件很多，越来越乱
    - 一旦我不使用了，可以直接删除虚拟环境，不用管文件残留，关联等等问题
    - 如果开发程序，为了保证程序的稳定性，不随意更新相关的软件，或者多人合作，也会放在一个环境里。
- conda 也有类似的环境

在命令行中输入以下代码：

在`anaconda3/envs/`下构建了一个`myenv`环境

要切换到这个环境：

不用这个环境了：

如果出现有一个package只在pip中有，但我又想安装在conda的一个虚拟环境中，该怎么办？
https://stackoverflow.com/questions/41060382/using-pip-to-install-packages-to-anaconda-environment/56889729#56889729

# Python 基础

- Python 采用缩进的格式来划分代码块（因此，空格是很重要的）
- 大小写敏感
- 缩进可以多也可以少，但必须全部统一（一般的文本编辑器都会有自动缩进判断，统一即可）。最好按照编辑器的推荐，用4个空格缩进
- 最好不要用tab

In [9]:
# This is a comment
a = 10
if a > 0:
    print(a + 3)
else:
    print(-a)

13


In [10]:
# This is ok, but not recommended.
a = 10
if a > 0:
  print(a + 3)
else:
  print(-a)

13


## 数据类型和变量

- 整数, integer
- 浮点数, float
- 字符串, string
- 布尔值, bool
- 空值, None
- 变量, constant
- 常量, variable

### 整数

In [11]:
10000000

10000000

In [12]:
10_000_000

10000000

In [13]:
0xa5b3

42419

### 浮点数

In [14]:
0.23

0.23

In [15]:
1e5

100000.0

### 字符串

In [16]:
"asdias"

'asdias'

In [17]:
'I have a \'naive\' dream.'

"I have a 'naive' dream."

In [18]:
print("I have a 'naive' dream.")

I have a 'naive' dream.


In [19]:
print('This is a cat. \n That is a dog.')

This is a cat. 
 That is a dog.


In [20]:
print('This is a cat. \t That is a dog.')

This is a cat. 	 That is a dog.


In [21]:
print("This is a cat. \ That is a dog.")

This is a cat. \ That is a dog.


In [22]:
print("This is a cat. \\ That is a dog.")

This is a cat. \ That is a dog.


In [23]:
print("This is a cat. \\\\\\ That is a dog.")

This is a cat. \\\ That is a dog.


如果要很多转义，就有很多的`\\`。Python 还允许这样:

In [24]:
print(r'This is a cat. \t That is a dog.')

This is a cat. \t That is a dog.


r'' 中的字符不转义

还可以用 """ """, 通常用于函数和类的说明

In [25]:
print("line1 \
       line2 \
       line3")

line1        line2        line3


In [26]:
print("""line1
line2
line3
""")

line1
line2
line3



字符串内部的字符可以循环

In [27]:
name

'Michael'

In [28]:
name[0:3]

'Mic'

In [29]:
for letter in name:
    print(letter)

M
i
c
h
a
e
l


#### 字符串中引用变量

In [30]:
name = 'Martin Luther King'

In [31]:
'%s has a dream.' % name

'Martin Luther King has a dream.'

In [32]:
n = 1e6
'%s has %d supporters.' % (name, n)

'Martin Luther King has 1000000 supporters.'

- `%s`: 字符串
- `%d`: 整数
- `%f`: 浮点数
- `%.2f`: 保留两位小数的浮点数

In [33]:
'%s has %.2f yuan' % ('Michael', 1234.324256)

'Michael has 1234.32 yuan'

In [34]:
# format()
'Bingo, that {0} has {1} seats.'.format('classroom', 35)

'Bingo, that classroom has 35 seats.'

In [35]:
name = 'Lucy'

In [36]:
# f-string
f"{name} has a dream"

'Lucy has a dream'

#### 关于编码

什么是编码？

计算机只能处理数字，因此文本需转换为数字。最早的计算机只包含127个字符（大小写英文、数字、符号），这个编码表就是 ASCII。

中文的编码随后出现，名称是 GB2312。

如果编码没有指明，就会出现乱码。为了解决这个问题，出现了Unicode编码。这个编码把所有语言都统一到一套编码里。

最常用的Unicode编码是 UCS-16，用2个字节(byte, 1个byte是8个bit)表示一个字符。如果有偏僻的字符，就用4个字节。现代的操作系统和编程语言一般都支持Unicode。

但是，如果写的东西大部分是英文（比如代码），那么都用Unicode编码会占据大量的存储空间，存储和传输不方便。因此，在传输时，经常使用 UTF-8 编码，这种编码方式会根据字符的常用程度，进行不同长短的编码。

常用的英文字母是1个字节，汉字通常是3个字节，生僻的字符有4-6个字节。

| 字符 |   ASCII  |      Unicode      |            UTF-8           |
|:----:|:--------:|:-----------------:|:--------------------------:|
| A    | 01000001 | 00000000 01000001 | 01000001                   |
| 中   | x        | 01001110 00101101 | 11100100 10111000 10101101 |

因此，计算机一般这样工作：
- 内存中统一使用Unicode
- 当需要保存到硬盘或者传输时，用UTF-8编码

Python 3 中字符串以 Unicode 编码。因此，中文可以显示。

In [37]:
print("中文")

中文


In [38]:
# ord()获取字符的整数，chr()把编码转换为对应的字符
ord('中')

20013

In [39]:
ord('A')

65

In [40]:
chr(12475)

'セ'

字符串前若有b，则这个字符串为bytes的格式

In [41]:
'ABC'

'ABC'

In [42]:
b'ABC'

b'ABC'

In [43]:
'中文'.encode('utf-8')

b'\xe4\xb8\xad\xe6\x96\x87'

In [44]:
'中文'.encode('ascii')

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

In [45]:
'中文'.encode('GB2312')

b'\xd6\xd0\xce\xc4'

In [46]:
# 若编码不对应，则会出错
'中文'.encode('GB2312').decode('utf-8')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd6 in position 0: invalid continuation byte

In [47]:
b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')

'中文'

因此，在操作字符串时，时常会遇到`str`和`bytes`的转换，应当始终用`UTF-8`编码进行。

另外，时常我们会看到一段这样的代码放在 `.py`文件的头两行：

In [48]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

这是两段特殊的注释。第一行告诉Linux/OS X 操作系统，这是可执行的程序。第二行告诉Python解释器，这段代码用UTF-8读取。

##### 中国数据的例子

In [49]:
import pandas as pd
pd.read_csv('../../../data/AF_Co.txt',sep='\t')

Unnamed: 0,Stkcd,Stknmec,Updt,Conme,Conmee,IndClaCd,Indus,Indnme,Listdt,Udwnm,Sponsor,Http
0,֤ȯ����,֤ȯ���,��������,��˾��������,��˾Ӣ������,��ҵ�����׼,��ҵ���루�£�,��ҵ����,�״���������,��������,�����Ƽ���,��˾���ʻ�����ַ
1,û�е�λ,û�е�λ,û�е�λ,û�е�λ,û�е�λ,û�е�λ,û�е�λ,û�е�λ,û�е�λ,û�е�λ,û�е�λ,û�е�λ
2,000001,ƽ������,2018-12-24,ƽ�����йɷ����޹�˾,"Ping An Bank Co., Ltd.",2,J66,���ҽ��ڷ���,1991-04-03,��������֤ȯ��˾,���ھ�������֤ȯ��˾,www.bank.pingan.com
3,000002,���A,2018-12-24,�����ҵ�ɷ����޹�˾,"China Vanke Co., Ltd.",2,K70,���ز�ҵ,1991-01-29,���ھ�������֤ȯ��˾,���ھ�������֤ȯ��˾,www.vanke.com
4,000003,PT ����A,2002-06-14,����ʵҵ(����)�ɷ����޹�˾,"Gintian Industry (Group) Co., Ltd.",1,M,�ۺ���,1991-07-03,��������֤ȯ��˾,���ھ�������֤ȯ��˾,www.gintiangroup.com
...,...,...,...,...,...,...,...,...,...,...,...,...
3801,900952,����B��,2018-12-24,���ݸ۹ɷ����޹�˾,"Jinzhou Port Co., Ltd.",2,G55,ˮ������ҵ,1998-05-19,�㷢֤ȯ�������ι�˾,�㷢֤ȯ�������ι�˾,www.jinzhouport.com
3802,900953,����B,2018-12-24,���쿭���ɷ����޹�˾,"Kama Co., Ltd.",2,C36,��������ҵ,1998-06-24,����֤ȯ���޹�˾,����֤ȯ���޹�˾,www.kama.com.cn
3803,900955,����B��,2018-12-26,�������¹ɷ����޹�˾,"HNA INNOVATION CO.,LTD.",2,K70,���ز�ҵ,1999-01-18,�������֤ȯ�ɷ����޹�˾,�������֤ȯ�ɷ����޹�˾,"www.ninedragon.com.cn,www.hnainnovation.com"
3804,900956,����B��,2018-12-24,��ʯ���������ɷ����޹�˾,"Huangshi Dongbei Electrical Appliance Co., Ltd.",2,C34,ͨ���豸����ҵ,1999-07-15,��֤ͨȯ�������ι�˾,��֤ͨȯ�������ι�˾,www.donper.com


In [50]:
pd.read_csv('../../../data/AF_Co.txt',sep='\t',encoding='GB2312')

UnicodeDecodeError: 'gb2312' codec can't decode byte 0x95 in position 221129: illegal multibyte sequence

In [51]:
pd.read_csv('../../../data/AF_Co.txt',sep='\t',encoding='GBK')

Unnamed: 0,Stkcd,Stknmec,Updt,Conme,Conmee,IndClaCd,Indus,Indnme,Listdt,Udwnm,Sponsor,Http
0,证券代码,证券简称,更新日期,公司中文名称,公司英文名称,行业分类标准,行业代码（新）,行业名称,首次上市日期,主承销商,上市推荐人,公司国际互联网址
1,没有单位,没有单位,没有单位,没有单位,没有单位,没有单位,没有单位,没有单位,没有单位,没有单位,没有单位,没有单位
2,000001,平安银行,2018-12-24,平安银行股份有限公司,"Ping An Bank Co., Ltd.",2,J66,货币金融服务,1991-04-03,深圳特区证券公司,深圳经济特区证券公司,www.bank.pingan.com
3,000002,万科A,2018-12-24,万科企业股份有限公司,"China Vanke Co., Ltd.",2,K70,房地产业,1991-01-29,深圳经济特区证券公司,深圳经济特区证券公司,www.vanke.com
4,000003,PT 金田A,2002-06-14,金田实业(集团)股份有限公司,"Gintian Industry (Group) Co., Ltd.",1,M,综合类,1991-07-03,深圳特区证券公司,深圳经济特区证券公司,www.gintiangroup.com
...,...,...,...,...,...,...,...,...,...,...,...,...
3801,900952,锦港B股,2018-12-24,锦州港股份有限公司,"Jinzhou Port Co., Ltd.",2,G55,水上运输业,1998-05-19,广发证券有限责任公司,广发证券有限责任公司,www.jinzhouport.com
3802,900953,凯马B,2018-12-24,恒天凯马股份有限公司,"Kama Co., Ltd.",2,C36,汽车制造业,1998-06-24,华夏证券有限公司,华夏证券有限公司,www.kama.com.cn
3803,900955,海创B股,2018-12-26,海航创新股份有限公司,"HNA INNOVATION CO.,LTD.",2,K70,房地产业,1999-01-18,申银万国证券股份有限公司,申银万国证券股份有限公司,"www.ninedragon.com.cn,www.hnainnovation.com"
3804,900956,东贝B股,2018-12-24,黄石东贝电器股份有限公司,"Huangshi Dongbei Electrical Appliance Co., Ltd.",2,C34,通用设备制造业,1999-07-15,国通证券有限责任公司,国通证券有限责任公司,www.donper.com


可以发现数据在生成时没有从GB编码转换为UTF-8，给用户带来了额外的不便。

### 布尔值

In [52]:
True

True

In [53]:
False

False

In [54]:
True and True

True

In [55]:
True or False

True

In [56]:
False and True

False

In [57]:
5 > 2 and 1 > 3

False

In [58]:
not True

False

#### & 是bit-wise的操作

In [59]:
(5 > 2) & (3 > 2)

True

In [60]:
5 > 2 & 3 > 2

False

上式原因：& 的运算优先级比>高。2&3 的运算是 $$0000 0010\  \& \ 0000 0011 = 0000 0010 = 2$$. 因此，上式实际上等价于 $$5>2>2$$

In [61]:
5 > 2 and 3 > 2

True

In [62]:
5 > 2 or 2 > 3

True

In [63]:
5 > 2 | 3 > 2 # why?

True

### 空值

In [64]:
None

### 变量

命名规则：大小写英文、下划线、数字的组合。不可以用数字开头。

In [65]:
a = 1

In [66]:
b = 'abs'

In [67]:
c = True

In [68]:
a = 'asd'

赋值时无需指明变量类型。这种语言被称为<font color='red'> 动态语言 </font>. 如果需要指明变量类型，则是 <font color='red'> 静态语言 </font>

例如，C++里面赋值是

`int a = 34;`

如果此时再 `a = "ads"`，则会报错

In [69]:
a = 12
a = a + 13

In [70]:
a += 13

In [71]:
print(a)

38


另外，赋值操作的步骤在内存中实际上分两步。比如：

In [72]:
a = 'asd'

1. 在内存中的某个位置放入'asd'
2. 在内存中创建一个名称是 a 的变量，把它指向'asd'

In [73]:
a = 'asd'
b = a
a = 'QWE'

这个操作是把 a 指向'asd'，把 b 指向 a 所指向的数据。当 a 指向的数据变了之后， b 指向的数据并没有变化

In [74]:
print(a)

QWE


In [75]:
print(b)

asd


### 常量

常量就是不变的量。命名规则：常量用大写字母。

In [76]:
START = 2000

In [77]:
PI = 3.14

另外，Python 2 和 3 在除法上有一个不同。

In [78]:
3 / 2

1.5

在 Python 2中，上面的除法会给出整数。3 / 2 的结果是 1

这种除法实际上是 floor。在 Python 3中，要得到floor，则

In [79]:
3 // 2

1

In [80]:
10 % 3

1

在 Python 2中，要得到浮点的解，则可以这样写：3 / 2.0。此时会给出结果 1.5

另外，Python的整数没有最大最小的范围，因此数字的大小仅受内存的影响。浮点数也没有大小限制，但超出一定范围会表示为 'inf'

## List, tuple

### List

In [81]:
students = ['Albert',[1,2,3],'Calvin']

In [82]:
students

['Albert', [1, 2, 3], 'Calvin']

In [83]:
students[0]

'Albert'

In [84]:
# slicing
students[0:3]

['Albert', [1, 2, 3], 'Calvin']

注意：`list` 中的 slicing 的终结点是数据实际标号的下一位。这个 slicing 和 `pandas`中`DataFrame`的`.loc` slicing 不同，但和 `.iloc` 是一样的。

In [85]:
import pandas as pd

In [86]:
df = pd.read_pickle('../../../data/stk_df_2015_2021.pkl')

In [87]:
df

Unnamed: 0,secID,secShortName,exchangeCD,tradeDate,preClosePrice,closePrice,turnoverVol,turnoverValue,dealAmount,turnoverRate,negMarketValue,marketValue
0,000001.XSHE,平安银行,XSHE,2015-01-05,1293.044,1307.737,4966040,4.565388e+09,92478.0,0.0291,1.575841e+11,1.830268e+11
1,000001.XSHE,平安银行,XSHE,2015-01-06,1307.737,1288.146,3761152,3.453446e+09,80325.0,0.0220,1.552233e+11,1.802848e+11
2,000001.XSHE,平安银行,XSHE,2015-01-07,1288.146,1263.656,2951601,2.634796e+09,72697.0,0.0173,1.522723e+11,1.768574e+11
3,000001.XSHE,平安银行,XSHE,2015-01-08,1263.656,1221.208,2443951,2.128003e+09,68734.0,0.0143,1.471572e+11,1.709164e+11
4,000001.XSHE,平安银行,XSHE,2015-01-09,1221.208,1231.004,4355039,3.835378e+09,99882.0,0.0255,1.483376e+11,1.722874e+11
...,...,...,...,...,...,...,...,...,...,...,...,...
5838745,900957.XSHG,凌云B股,XSHG,2021-12-27,0.625,0.638,488511,3.081540e+05,226.0,0.0027,1.164720e+08,2.209170e+08
5838746,900957.XSHG,凌云B股,XSHG,2021-12-28,0.638,0.637,177702,1.118810e+05,64.0,0.0010,1.162880e+08,2.205680e+08
5838747,900957.XSHG,凌云B股,XSHG,2021-12-29,0.637,0.630,123550,7.733300e+04,58.0,0.0007,1.150000e+08,2.181250e+08
5838748,900957.XSHG,凌云B股,XSHG,2021-12-30,0.630,0.635,113600,7.130800e+04,41.0,0.0006,1.159200e+08,2.198700e+08


In [88]:
df.loc[0:3]

Unnamed: 0,secID,secShortName,exchangeCD,tradeDate,preClosePrice,closePrice,turnoverVol,turnoverValue,dealAmount,turnoverRate,negMarketValue,marketValue
0,000001.XSHE,平安银行,XSHE,2015-01-05,1293.044,1307.737,4966040,4565388000.0,92478.0,0.0291,157584100000.0,183026800000.0
1,000001.XSHE,平安银行,XSHE,2015-01-06,1307.737,1288.146,3761152,3453446000.0,80325.0,0.022,155223300000.0,180284800000.0
2,000001.XSHE,平安银行,XSHE,2015-01-07,1288.146,1263.656,2951601,2634796000.0,72697.0,0.0173,152272300000.0,176857400000.0
3,000001.XSHE,平安银行,XSHE,2015-01-08,1263.656,1221.208,2443951,2128003000.0,68734.0,0.0143,147157200000.0,170916400000.0


In [89]:
df.iloc[0:3]

Unnamed: 0,secID,secShortName,exchangeCD,tradeDate,preClosePrice,closePrice,turnoverVol,turnoverValue,dealAmount,turnoverRate,negMarketValue,marketValue
0,000001.XSHE,平安银行,XSHE,2015-01-05,1293.044,1307.737,4966040,4565388000.0,92478.0,0.0291,157584100000.0,183026800000.0
1,000001.XSHE,平安银行,XSHE,2015-01-06,1307.737,1288.146,3761152,3453446000.0,80325.0,0.022,155223300000.0,180284800000.0
2,000001.XSHE,平安银行,XSHE,2015-01-07,1288.146,1263.656,2951601,2634796000.0,72697.0,0.0173,152272300000.0,176857400000.0


In [90]:
del df

In [91]:
students[-1]

'Calvin'

In [92]:
students.append('Steve')

In [93]:
students

['Albert', [1, 2, 3], 'Calvin', 'Steve']

In [94]:
students.insert(1,'Hey')

In [95]:
students

['Albert', 'Hey', [1, 2, 3], 'Calvin', 'Steve']

In [96]:
students.pop()
students

['Albert', 'Hey', [1, 2, 3], 'Calvin']

In [97]:
students.pop(1)
students

['Albert', [1, 2, 3], 'Calvin']

In [98]:
students

['Albert', [1, 2, 3], 'Calvin']

In [99]:
students[2] = 'HeyHey'
students

['Albert', [1, 2, 3], 'HeyHey']

In [100]:
list_ = ['a','b',[12,13]]
list_

['a', 'b', [12, 13]]

In [101]:
list_[2][1]

13

### tuple

tuple 中的元素一旦确定，就不可以更改。

不能更改有什么用？数据更安全。

因此，可以用tuple的地方就尽量用tuple，以免不小心数据进行了不必要的改动

In [102]:
t = (1,2,3)

In [103]:
t[0]

1

In [104]:
t[1]

2

In [105]:
t[0:3]

(1, 2, 3)

In [106]:
t[0] = 123

TypeError: 'tuple' object does not support item assignment

In [107]:
t = (1)

In [108]:
t

1

这是因为括号`()`也可以被理解为代数运算里的“括号”，产生了歧义。Python规定上面这种写法是代数运算里的括号，而非tuple. 若要写一个单元素的tuple，则

In [109]:
t = (1,)

In [110]:
t

(1,)

In [111]:
t = (1,2,'a')

In [112]:
t

(1, 2, 'a')

In [113]:
list_ = ['a', 'b']
t = (1,2,list_)
print(t)

(1, 2, ['a', 'b'])


In [114]:
t[2][0] = 'x'
t[2][1] = 'y'
t

(1, 2, ['x', 'y'])

In [115]:
list_[0] = 'xx'
list_[1] = 'yy'
t

(1, 2, ['xx', 'yy'])

In [116]:
list2 = list_
list2

['xx', 'yy']

In [117]:
list_[0] = 'xxx'
list_[1] = 'yyy'
list2

['xxx', 'yyy']

以上说明：
- list 的赋值和变量不同
- 所谓的“tuple不变”，说的是tuple的指向不变，但这个指向的对象本身如果是一个变量，那么就可以变

因此：

In [118]:
s = 'Hello'
list_ = ['a', 'b']
t = (s,2,list_)
print(t)

('Hello', 2, ['a', 'b'])


In [119]:
s = 'Hey'
print(t)

('Hello', 2, ['a', 'b'])


In [120]:
ss = s
t = (ss,2,list_)
print(t)

('Hey', 2, ['a', 'b'])


In [121]:
s = 'HeyHey'
print(t)

('Hey', 2, ['a', 'b'])


## 条件判断 if, else

In [122]:
age = 20
if age >= 18:
    print('your age is', age)
    print('adult')

your age is 20
adult


In [123]:
age = 3
if age >= 18:
    print('adult')
elif age >= 6:
    print('teenager')
else:
    print('kid')

kid


if 从上往下执行，只要发现了 True, 就忽略掉剩下的 elif, else。

In [124]:
age = 20
if age >= 6:
    print('teenager')
elif age >= 18:
    print('adult')
else:
    print('kid')

teenager


In [125]:
if 378:
    print('haha')

haha


只要 if 后面的不是0，不是空str, 不是空的list, 不是None，等，就判断为 True

In [126]:
len([])

0

In [127]:
if []:
    print('haha')
else:
    print('hehe')

hehe


## 循环 Loops

In [128]:
for i in 'abc':
    print(i)

a
b
c


In [129]:
list_ = ['Michael','Miller']
for i in list_:
    print(i)

Michael
Miller


In [130]:
n = 1
sum = 0
while n <= 100:
    sum += n # same as sum = sum + n
    n = n + 1
print(sum)

5050


In [131]:
# break
n = 1
sum = 0
while n <= 100:
    print(n)
    sum += n # same as sum = sum + n
    n = n + 1
    if n == 10:
        break

1
2
3
4
5
6
7
8
9


In [132]:
print(sum)

45


In [133]:
# continue
n = 0
while n <= 10:
    n = n + 1
    if n % 2 == 0:
        continue
    print(n)

1
3
5
7
9
11


In [134]:
# n = 0
# while n < 10:
#     if n % 2 == 0:
#         continue
#     n = n + 1

## dict, set

In [135]:
d = {'a':1,'b':2}

In [136]:
d['a']

1

In [137]:
d[0]

KeyError: 0

In [138]:
d['c'] = 'asd'

In [139]:
d

{'a': 1, 'b': 2, 'c': 'asd'}

In [140]:
d[0] = 'haha'

In [141]:
d

{'a': 1, 'b': 2, 'c': 'asd', 0: 'haha'}

In [142]:
d[0]

'haha'

In [143]:
'name' in d

False

In [144]:
d.keys()

dict_keys(['a', 'b', 'c', 0])

In [145]:
d.items()

dict_items([('a', 1), ('b', 2), ('c', 'asd'), (0, 'haha')])

In [146]:
d.items()[0]

TypeError: 'dict_items' object is not subscriptable

In [147]:
list(d.items())[0]

('a', 1)

In [148]:
d.values()

dict_values([1, 2, 'asd', 'haha'])

In [149]:
d.values()[0]

TypeError: 'dict_values' object is not subscriptable

In [150]:
list(d.values())[0]

1

dict 就像是有索引的电话本，查找数据很快。和list相比，dict是用空间换时间：
- 查找和插入数据很快
- 需要占据大量内存

dict 的 keys 必须是不可变的。因此不可以是 list

In [151]:
{['a']:3}

TypeError: unhashable type: 'list'

set也是一组key的集合（因此不可以重复），但不存储value

In [152]:
s = set([1,1,1,2,3,4,4])
s

{1, 2, 3, 4}

In [153]:
s.add(5)

In [154]:
s

{1, 2, 3, 4, 5}

In [155]:
s.remove(3)
s

{1, 2, 4, 5}

In [156]:
ss = set([4,5,6])

In [157]:
s = set([5,6,7])

In [158]:
s.intersection(ss)

{5, 6}

## 不变的、可变的对象，要注意区分


一个常见的错误（我自己就犯过好多次），是想要直接更改字符串的内容。但字符串是<ins>不可变</ins>的！

In [159]:
list_ = [3,1,2]

In [160]:
list_.sort()

In [161]:
list_

[1, 2, 3]

list 本身改变了

In [162]:
a = 'xyz'

In [163]:
a.replace('x','X')

'Xyz'

In [164]:
a

'xyz'

a 本身没有变

In [165]:
b = a.replace('x','X')
b

'Xyz'

replace 方法作用在 'xyz' 上，但没有改变 'xyz' 的内容，而是返回了一个新的字符串 'Xyz'。

# 函数

In [166]:
abs(-1)

1

In [167]:
?abs

[0;31mSignature:[0m [0mabs[0m[0;34m([0m[0mx[0m[0;34m,[0m [0;34m/[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m Return the absolute value of the argument.
[0;31mType:[0m      builtin_function_or_method


In [168]:
?pd.read_csv

[0;31mSignature:[0m
[0mpd[0m[0;34m.[0m[0mread_csv[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mfilepath_or_buffer[0m[0;34m:[0m [0mUnion[0m[0;34m[[0m[0mForwardRef[0m[0;34m([0m[0;34m'PathLike[str]'[0m[0;34m)[0m[0;34m,[0m [0mstr[0m[0;34m,[0m [0mIO[0m[0;34m[[0m[0;34m~[0m[0mT[0m[0;34m][0m[0;34m,[0m [0mio[0m[0;34m.[0m[0mRawIOBase[0m[0;34m,[0m [0mio[0m[0;34m.[0m[0mBufferedIOBase[0m[0;34m,[0m [0mio[0m[0;34m.[0m[0mTextIOBase[0m[0;34m,[0m [0m_io[0m[0;34m.[0m[0mTextIOWrapper[0m[0;34m,[0m [0mmmap[0m[0;34m.[0m[0mmmap[0m[0;34m][0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msep[0m[0;34m=[0m[0;34m<[0m[0mobject[0m [0mobject[0m [0mat[0m [0;36m0x7fbb1173e110[0m[0;34m>[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdelimiter[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mheader[0m[0;34m=[0m[0;34m'infer'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mnames[0m[0;34m=[0m[0;32mNone[0m

In [169]:
abs(1,2,3)

TypeError: abs() takes exactly one argument (3 given)

## 自定义函数

In [170]:
def foo(n):
    if n < 10:
        return n
    else:
        return -n

In [171]:
foo(1)

1

In [172]:
foo(12)

-12

In [173]:
from foooo import my_foo

In [174]:
my_foo(12)

-12

### `pass`

pass 可以什么都不做，经常用作占位。比如这里应该实现一个什么功能，现在已经想好了，但没来得及编写。为了避免这部分出错，就用pass

In [175]:
def bar():
    """
    Description: This function ....
    """
    pass

In [176]:
bar()

### 返回多个值

In [177]:
def foo(n):
    if n < 10:
        return n
    else:
        return -n, -n+1

In [178]:
foo(21)

(-21, -20)

注意这里返回的是一个 tuple。
可以这样赋值：

In [179]:
a, b = foo(21)

In [180]:
a

-21

In [181]:
b

-20

如果没有 `return`, 则函数返回 `None`

In [182]:
def foo(n):
    if n > 10:
        print(n)

In [183]:
a = foo(20)

20


In [184]:
a

## 参数

### 默认参数

In [185]:
def my_power(x):
    return x*x

In [186]:
# 按照位置传入参数
my_power(2)

4

In [187]:
# 按照名称传入参数
my_power(x=3)

9

In [188]:
my_power(y=3)

TypeError: my_power() got an unexpected keyword argument 'y'

若要计算3次方，可以另写一个。但更好的方式是增加一个参数，可以随意输入想要计算的指数。

In [189]:
def my_power(x, n):
    return x**n

In [190]:
my_power(2, 3)

8

In [191]:
my_power(2)
# 此时原有的代码失效了，参数个数不对。

TypeError: my_power() missing 1 required positional argument: 'n'

更好的方法是设置一个默认的参数值。

In [192]:
def my_power(x, n=2):
    return x**n

In [193]:
my_power(2)

4

注意：
- 必选参数在前，默认参数在后（因为按照位置传入时，可能会产生不必要的歧义）
- 如果有多个默认参数，那么不常变化的默认参数放后面

In [194]:
def enroll(name, gender, city='Tianjin', nation='China'):
    print('name: ', name)
    print('gender: ', gender)
    print('city: ', city)
    print('nation: ', nation)

In [195]:
enroll('Michael','Male')

name:  Michael
gender:  Male
city:  Tianjin
nation:  China


In [196]:
enroll('Michell', 'Female', 'Beijing')

name:  Michell
gender:  Female
city:  Beijing
nation:  China


默认参数有个坑：
- 默认参数必须指向不变的对象

In [197]:
def my_append(lst=[]):
    lst.append('asd')
    return lst

In [198]:
my_append([1,2,3])

[1, 2, 3, 'asd']

In [199]:
my_append(['a','b','c'])

['a', 'b', 'c', 'asd']

In [200]:
my_append()

['asd']

In [201]:
my_append()

['asd', 'asd']

In [202]:
my_append()

['asd', 'asd', 'asd']

函数在定义的时候，默认参数`lst`的值就指向了`[]`。因为`lst`指向的是一个变量`[]`，每次调用时如果`lst`的值被改变，下一次就会指向这个改变了的变量。

In [203]:
def my_append(lst=None):
    if lst == None:
        lst = []
    lst.append('asd')
    return lst

In [204]:
my_append()

['asd']

In [205]:
my_append()

['asd']

In [206]:
my_append([1,2,3])

[1, 2, 3, 'asd']

为了避开这样的坑，编程时：
- 能用不变对象时就用不变对象（能用tuple就不要用list）

### 可变数目的参数

如果输入参数的数目不确定，可以怎么定义？

In [207]:
def my_sum(lst):
    sum = 0
    for n in lst:
        sum = sum + n
    return sum

In [208]:
my_sum([1,2,3,4,5,])

15

args: arguments

In [209]:
def my_sum(*args): # 参数args接收到了一个tuple
    sum = 0
    for n in args:
        sum = sum + n
    return sum

In [210]:
my_sum(1,2,3,4,5,6)

21

In [211]:
my_sum()

0

In [212]:
# 如果已经有一个list，要传入一个可变参数的函数
a = [1,2,3]
my_sum(a[0],a[1],a[2])

6

In [213]:
my_sum(*a)

6

### 可变数目的关键字参数

kwargs: key word arguments

In [214]:
def person(name, age, **kwargs):
    print('name: ', name, 'age: ', age, 'other: ', kwargs)

In [215]:
person('asd',13, city='Tianjin', nation='China', adasd='asdsad')

name:  asd age:  13 other:  {'city': 'Tianjin', 'nation': 'China', 'adasd': 'asdsad'}


In [216]:
date_info = {'year': "2021", 'month': '01', 'day': '03'}
author_info = {'author': 'Ronald Coase', 'article': 'The Nature of Firms'}
filename = '{year}-{month}-{day}: {author}, {article}'.format(**date_info,**author_info)

In [217]:
filename

'2021-01-03: Ronald Coase, The Nature of Firms'

如果要限制传入的关键字参数的名称, 则使用分隔符 `*` (命名关键字参数)

In [218]:
def person(name, age, *, city, nation): # 只接受city, nation作为关键字参数
    print('name: ', name, 'age: ', age, 
          'city: ', city, 'nation: ', nation)

In [219]:
person('michael',16, city='Tianjin', nation='China')

name:  michael age:  16 city:  Tianjin nation:  China


In [220]:
person('michael',16, city='Tianjin', Nation='China')

TypeError: person() got an unexpected keyword argument 'Nation'

若已有一个可变参数，则后面的参数不需要分隔符`*`。同时，后面的参数赋值时必须要有名称，
不可以是位置

In [221]:
def person(name, age, *args, city, nation):
    print('name: ', name, 'age: ', age, 
           *args,
          'city: ', city, 'nation: ', nation)

In [222]:
person('Jack', 15, 'Earth', 'Sun','universe', city='Beijing', nation='China',asdasd='asdasda')

TypeError: person() got an unexpected keyword argument 'asdasd'

In [223]:
person('Jack', 15, 'Earth', 'Sun','Beijing','China')

TypeError: person() missing 2 required keyword-only arguments: 'city' and 'nation'

In [224]:
person('Jack', 15, 'Earth', 'Sun','Beijing','China',city='Beijing', nation='China')

name:  Jack age:  15 Earth Sun Beijing China city:  Beijing nation:  China


In [225]:
def foo(*, city, nation):
    print(city)
    print(nation)

In [226]:
foo('Beijing','China')

TypeError: foo() takes 0 positional arguments but 2 were given

In [227]:
foo(city='Beijing',nation='China')

Beijing
China


In [228]:
def foo(city, nation):
    print(city)
    print(nation)

In [229]:
foo('Beijing','China')

Beijing
China


在Python中定义函数，可以用必选参数、默认参数、可变参数、关键字参数和命名关键字参数，这5种参数都可以组合使用。但是请注意，参数定义的顺序必须是：必选参数、默认参数、可变参数、命名关键字参数和关键字参数。

In [230]:
def f1(a, b, c=0, *args, **kw):
    pass

## 递归函数

在函数定义时调用函数本身，就是递归函数

In [231]:
def fact(n):
    if n == 1: 
        return 1
    return n * fact(n-1)

In [232]:
fact(1)

1

In [233]:
fact(5)

120

# List Comprehension, Iterable, Iterator, Lazy Iterable, Generator

- 可以迭代的东西叫做`iterable`
    - 比如 list, tuple, string, generator
- 实际执行迭代的那个东西叫做 `iterator`
    - iterator 可以用 `iter()`作用于任何一个 `iterable` 来获得
    - `next()`作用于 iterator 会得到下一个元素
    - iterator 迭代时，随用随取，用后即弃（数据流）: lazy iterable
    - iterator 本身也是个 iterable. 用 iter() 作用时会给出它自身。 
- generator 是 iterator 的一种。generator 也是 lazy iterable。
- generator 最大的好处就是随用随取，用后即弃。这样可以节省空间

## Iterable

Python 中的迭代很方便，list, tuple, dict, string...很多都可以直接进入 `for ... in`

In [234]:
for letter in 'asbdasdas':
    print(letter)

a
s
b
d
a
s
d
a
s


In [235]:
d = {'a':1, 'b':123, 'c':'asd'}

In [236]:
for i in d:
    print(i)

a
b
c


In [237]:
for value in d.values():
    print(value)

1
123
asd


In [238]:
d.items()

dict_items([('a', 1), ('b', 123), ('c', 'asd')])

In [239]:
for key, value in d.items():
    print(key, value)

a 1
b 123
c asd


In [240]:
list_ = [1,2,3,4,1,23,]

In [241]:
for e in list_:
    print(e)

1
2
3
4
1
23


`enumerate`也很常用

In [242]:
list(enumerate(list_))

[(0, 1), (1, 2), (2, 3), (3, 4), (4, 1), (5, 23)]

In [243]:
for i, value in enumerate(list_):
    print(i, value)

0 1
1 2
2 3
3 4
4 1
5 23


## Iterator

In [244]:
l = iter(list_)

In [245]:
next(l)

1

In [246]:
next(l)

2

In [247]:
for e in l:
    print(e)

3
4
1
23


注意：上面的l已经被`next()`取用过2次了，因此`for e in l:`时从3开始

In [248]:
next(l)

StopIteration: 

In [249]:
l = iter(list_)

In [250]:
iter(l) # iter(iterator) 返回自身

<list_iterator at 0x7fbac5cb4610>

In [251]:
l

<list_iterator at 0x7fbac5cb4610>

## List comprehension

In [252]:
l = []
for x in range(10):
    l.append(x**2)
l

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [253]:
[x**2 for x in range(10)]

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [254]:
[x**2 for x in range(10) if x%2==0]

[0, 4, 16, 36, 64]

熟练掌握这种语法以后，会在很多时候发现语法变得简单，例如：

In [255]:
ss = ['a','b','c']

In [256]:
[0,1,2]

[0, 1, 2]

In [257]:
'a'+'b'

'ab'

In [258]:
[s+f'_{n}' for s in ss for n in range(3)]

['a_0', 'a_1', 'a_2', 'b_0', 'b_1', 'b_2', 'c_0', 'c_1', 'c_2']

In [259]:
# 等价于
l_ = []
for s in ss:
    for n in range(3):
        l_.append(s+f'_{n}')

In [260]:
l_

['a_0', 'a_1', 'a_2', 'b_0', 'b_1', 'b_2', 'c_0', 'c_1', 'c_2']

In [261]:
[s+f'_{n+1}' for n,s in enumerate(ss)]

['a_1', 'b_2', 'c_3']

### `zip` 函数

In [262]:
ss

['a', 'b', 'c']

In [263]:
?zip

[0;31mInit signature:[0m [0mzip[0m[0;34m([0m[0mself[0m[0;34m,[0m [0;34m/[0m[0;34m,[0m [0;34m*[0m[0margs[0m[0;34m,[0m [0;34m**[0m[0mkwargs[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m     
zip(*iterables) --> A zip object yielding tuples until an input is exhausted.

   >>> list(zip('abcdefg', range(3), range(4)))
   [('a', 0, 0), ('b', 1, 1), ('c', 2, 2)]

The zip object yields n-length tuples, where n is the number of iterables
passed as positional arguments to zip().  The i-th element in every tuple
comes from the i-th iterable argument to zip().  This continues until the
shortest argument is exhausted.
[0;31mType:[0m           type
[0;31mSubclasses:[0m     


In [264]:
zip(ss,range(3))

<zip at 0x7fbab9c23f40>

In [265]:
list(zip(ss,range(3)))

[('a', 0), ('b', 1), ('c', 2)]

In [266]:
list(zip(('a', 0), ('b', 1), ('c', 2)))

[('a', 'b', 'c'), (0, 1, 2)]

In [267]:
list(zip(*zip(ss,range(3))))

[('a', 'b', 'c'), (0, 1, 2)]

上述实现了zip的反向操作。\*的作为函数的参数，作用是把list或tuple中的元素拆开。所以`zip(ss,range(3))`的结果`[('a', 0), ('b', 1), ('c', 2)]`被拆解成了`('a', 0), ('b', 1), ('c', 2)`

## Generator

`generator`的作用：不一次过把所有数据都生产出来，根据算法，随用随生成。

In [268]:
(x for x in range(10))

<generator object <genexpr> at 0x7fbab9c295f0>

In [269]:
g = (x for x in range(10))

In [270]:
g[0]

TypeError: 'generator' object is not subscriptable

In [271]:
next(g)

0

In [272]:
next(g)

1

In [273]:
next(g)

2

In [274]:
for x in g:
    print(x)

3
4
5
6
7
8
9


很多时候，生成序列的算法是很清晰的，但想要全部一次都生成却有困难。例如Fibonacci数列。

用 `yield` 来制作一个 generator

In [275]:
def fib(max):
    n, a, b = 0, 0, 1
    while n < max:
        print(b)
        a, b = b, a+b # 等价于 a, b = (b, a+b)
                      # 或者 t = (b, a+b)
                      #     a = t[0]
                      #     b = t[1]
        n = n + 1
    return 'done'

In [276]:
fib(10)

1
1
2
3
5
8
13
21
34
55


'done'

改成 generator:

In [277]:
def fib(max):
    n, a, b = 0, 0, 1
    while n < max:
        yield b
        a, b = b, a+b 
        n = n + 1
    return 'done'

In [278]:
f = fib(10)

In [279]:
next(f)

1

In [280]:
next(f)

1

In [281]:
for num in f:
    print(num)

2
3
5
8
13
21
34
55


和函数不一样的地方：
- 函数从上往下执行，遇到 `return` 或者最后一行，把值输出
- generator 每次调用 `next` 时执行，遇到 `yield` 就输出并且暂停；下一次再调用`next`时，从上一次暂停的地方继续往下

`range`函数也是lazy iterable，但它本身不是一个 `iterator`

In [282]:
next(range(10))

TypeError: 'range' object is not an iterator

# 和函数相关的一些其他用法

## map,reduce,filter

- 变量可以指向函数
- 函数本身可以作为参数传入另外的函数，
- 也可以作为另一函数的返回值
- 函数名称也可以改变

In [283]:
abs(-2)

2

In [284]:
abs

<function abs(x, /)>

In [285]:
display(abs)

<function abs(x, /)>

In [286]:
print(abs)

<built-in function abs>


In [287]:
foo = abs

In [288]:
foo(-2)

2

In [289]:
# abs = 'abs' # 可以但最好不要这么做

In [290]:
abs(2)

2

In [291]:
def foo(x1,x2,func):
    return func(x1) + func(x2)

In [292]:
foo(1,2,abs)

3

In [293]:
foo(-1,4,abs)

5

In [294]:
import numpy as np

In [295]:
foo(123,14,np.log)

7.451241684987675

### map

map有两个参数：
- arg1: function
- arg2: iterable
作用：
- 把 function 依次作用于 iterable上

In [296]:
map(abs, [1,2,-3,-5])

<map at 0x7fbab9c03400>

In [297]:
m = map(abs, [1,2,-3,-5])

In [298]:
list(m)

[1, 2, 3, 5]

In [299]:
from collections.abc import Iterable

In [300]:
isinstance(m, Iterable)

True

In [301]:
list(m)

[]

### reduce

reduce 也把一个func作用在一个序列上。
- 这个func必须接收两个参数。
-func依次把结果和下一个元素进行作用。

```python
reduce(f,[1,2,3,4]) = f(f(f(1,2),3),4)
```

In [302]:
from functools import reduce

In [303]:
def foo(x,y):
    return x + y

In [304]:
reduce(foo,[1,2,3,4,5])

15

### filter

filter也接收一个func和一个序列。
- 把func依次作用在序列上
- 根据结果是 True 或 False 决定是否保留

In [305]:
def is_odd(x):
    return x % 2 == 1

In [306]:
filter(is_odd, [1,2,3,4,5,6,7,9])

<filter at 0x7fbac5cb4130>

In [307]:
list(filter(is_odd, [1,2,3,4,5,6,7,9]))

[1, 3, 5, 7, 9]

## lambda 函数

lambda 函数无需给出函数名称。可用于一些较复杂操作时，需要一个自定义的简单函数作为中间步骤的情况。例如，做数据操作时，可能需要先分组然后进行一个四则运算，此时可用lambda定义这个四则运算。
- 函数体中只能有一个表达式
- 不用写return，表达式的结果就是返回值

In [308]:
lambda x: x**3

<function __main__.<lambda>(x)>

In [309]:
f = lambda x: x**3
f(2)

8

In [310]:
f = lambda x,y: x*10-y
f(3,1)

29

In [311]:
d = [('a', 100), ('b', 23), ('c', 1890)]


In [312]:
?sorted

[0;31mSignature:[0m [0msorted[0m[0;34m([0m[0miterable[0m[0;34m,[0m [0;34m/[0m[0;34m,[0m [0;34m*[0m[0;34m,[0m [0mkey[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mreverse[0m[0;34m=[0m[0;32mFalse[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Return a new list containing all items from the iterable in ascending order.

A custom key function can be supplied to customize the sort order, and the
reverse flag can be set to request the result in descending order.
[0;31mType:[0m      builtin_function_or_method


In [313]:
sorted(d, key=lambda x: x[1]) #按照dict里面的value进行排序

[('b', 23), ('a', 100), ('c', 1890)]

`lambda`实际可看作是最小单元的函数。复杂的函数可以分解成一个一个的lambda

In [314]:
my_add = lambda x: lambda y: x+y

In [315]:
my_add(4)(5)

9

## decorator

用途：有的时候我们需要改变一些已有的函数，比如添加一些功能，但又不想修改这个函数本身，此时可以给这个函数加一点“装饰”
- decorator 的返回值是想添加功能的函数
- decorator 就是一个返回函数的高阶函数

In [316]:
def log(func):
    def wrapper(*args, **kw):
        print('call %s():' % func.__name__)
        return func(*args, **kw)
    return wrapper

- wrapper的参数设定为可以接受任意参数
- log的作用：打印调用的函数的名称，再返回这个函数进行原来的操作

In [317]:
log(print)

<function __main__.log.<locals>.wrapper(*args, **kw)>

wrapper 👆

In [318]:
wrapper()

NameError: name 'wrapper' is not defined

In [319]:
log(print)('hello')

call print():
hello


In [320]:
def cat_miao():
    print('miao miao')

In [321]:
log(cat_miao)()

call cat_miao():
miao miao


In [322]:
@log
def cat_miao():
    print('miao miao')

In [323]:
cat_miao()

call cat_miao():
miao miao


@log 放在 cat_miao()的定义处，相当于：
```python
cat_miao = log(cat_miao)
```

此时的`cat_miao`已被改变为用log装饰过的新的`cat_miao`

#### 多个 decorator 的顺序

In [324]:
def print_func_name(func):
    def wrap_1():
        print("Now use function '{}'".format(func.__name__))
        func()
    return wrap_1


def print_time(func):
    import time
    def wrap_2():
        print("Now the time is {}".format(int(time.time())))
        func()
    return wrap_2


@print_func_name
@print_time
def dog_bark():
    print("Bark !!!")


In [325]:
dog_bark()

Now use function 'wrap_2'
Now the time is 1644892343
Bark !!!


dog_bark --> 

    `dog_bark` with `print time` (wrap_2) --> 
    
        `print func name` with (dog_bark` with `print time`)

#### 若 decorator 本身需要参数

In [326]:
def log(text):
    def decorator(func):
        def wrapper(*args, **kwargs):
            print('{} {}(): '.format(text, func.__name__))
            return func(*args, **kwargs)
        return wrapper
    return decorator

In [327]:
@log('execute')
def cat_miao():
    print('miao miao')

In [328]:
cat_miao()

execute cat_miao(): 
miao miao


有一个问题：`cat_miao`的名称在decorator中被改变了

In [329]:
cat_miao.__name__

'wrapper'

要在wrapper中保留func的原名，可以这样写：

In [330]:
import functools

def log(text):
    def decorator(func):
        @functools.wraps(func)
        def wrapper(*args, **kwargs):
            print('{} {}(): '.format(text, func.__name__))
            return func(*args, **kwargs)
        return wrapper
    return decorator

In [331]:
@log('execute')
def cat_miao():
    print('miao miao')

In [332]:
cat_miao.__name__

'cat_miao'

## closure

In [333]:
def log(text):
    def decorator(func):
        def wrapper(*args, **kwargs):
            print('{} {}(): '.format(text, func.__name__))
            return func(*args, **kwargs)
        return wrapper
    return decorator

- 注意：这里返回的函数同时还包含了上层函数内部的变量`text`，这种结构叫做 closure (闭包)。
- 闭包的诡异之处：一般的函数内部的变量(local variable)在函数运行完之后就消失。但闭包会让这个变量保留下来

闭包：


In [334]:
def my_height():
    height = 10
    def print_height():
        print("The height is: %d" % height)
    return print_height

In [335]:
h = my_height()

In [336]:
h

<function __main__.my_height.<locals>.print_height()>

In [337]:
h()

The height is: 10


闭包的设计在很多语言中都有，在程序设计中比较重要。但我们在数据操作时一般不太常用到。

## Partial function

有时我们希望把已有的函数拿过来用，但同时觉得原来函数的参数过多，有些参数想直接设好默认值，定义为一个新的函数

In [338]:
int('12314')

12314

In [339]:
int('0101010101111', base=2)

2735

In [340]:
import functools
int2 = functools.partial(int, base=2)

In [341]:
int2('100001101001')

2153

In [342]:
int2('100001101001', base=8)

8590230017

# 模块 Module

- 一个 `.py` 文件就是一个 module
- module 的好处是把一个相对完整的功能封装起来
- 另一个好处是不同的模块中，名字相同的函数和变量彼此可以区分，只要模块名不一样(但命名时不要和python内置的函数名或模块名冲突)
- 如果模块名也相同，可以按目录来组织模块，成为包, package

相当于把模块又封装了一层。这样模块的名称就变成了某个包下的模块，my_package.xyz

`__init__.py`告诉python这个是一个package，可以为空，也可以有代码。

模块下也可以有多级的结构

In [343]:
import my_package

In [344]:
my_package.xyz.my_print()

 Roses are red,
 Violets are blue,
 Whatever you say,
 is always true.


原因是 sub-modules 不会自动被导入

In [345]:
import my_package.xyz as xyz

In [346]:
xyz.my_print()

 Roses are red,
 Violets are blue,
 Whatever you say,
 is always true.


如果要自动在导入 my_package 时就导入 xyz，可以在 `__init__.py` 中加入：

`import my_package.xyz`

注意到这个语句：
```python
if __name__=='__main__':
    my_print()
```
作用是：
- 当单独运行这个`.py`文件时，python解释器把特殊变量`__name__`设为`__main__`。此时`if`下的语句就会被运行。
- 而`.py`文件在其他地方被导入时，`if`判断为False，里面的语句就不会运行。
- 这个判断语句可以帮助进行代码测试

如果对module做了改动，结果不会发生变化：

In [347]:
xyz.my_print()

 Roses are red,
 Violets are blue,
 Whatever you say,
 is always true.


如果要重新导入：

In [348]:
from importlib import reload

In [349]:
reload(my_package)

<module 'my_package' from '/Users/Bert/Google Drive/03-Learning/teaching/quant/lec_notes/lec1/2022/my_package/__init__.py'>

In [350]:
my_package.xyz.my_print()

 Roses are red,
 Violets are blue,
 Whatever you say,
 is always true.


In [351]:
reload(my_package.xyz)

<module 'my_package.xyz' from '/Users/Bert/Google Drive/03-Learning/teaching/quant/lec_notes/lec1/2022/my_package/xyz.py'>

In [352]:
xyz.my_print()

 Roses are red,
 Violets are blue,
 Whatever you say,
 is always true.


## 作用域

- 一般的函数和变量名不要用下划线开头
- 类似`__xxx__`是特殊变量，可以被引用，但通常有特别的含义。
- `_xxx`或`__xxx`是非公开的，不应该被外面直接引用

In [353]:
def _print1(x):
    return print(f'{x}')

def _print2(x):
    return print(f'{x} + {x}')

def hello(num):
    if num > 3:
        return _print1(num)
    else:
        return _print2(num)

把内部的逻辑隐藏起来，这样就进行了一种有益的抽象和封装

# Object Oriented Programming (OOP) 面向对象编程

面向过程的程序设计：
- 要完成什么任务，第一步、第二步……
- 一组函数的顺序执行
- 把函数分块，每块完成一个小功能，降低整体的复杂度

面向对象：
- 程序是一组对象的集合
- 每个对象可以接收其他对象发来的消息，处理消息
- 程序的执行是消息在各个对象之间的传递



- class, 类: 一个模版
- instance, 实例: 根据类创建出来的具体“对象”
- attribute: 性质，数据
- method: 方法
- 每个对象拥有相同的功能，但各自的数据可能不同

In [354]:
class Student(object):
    pass
# class Student():
#     pass
# class Student:
#     pass

object表示Student是从object这个类里面“继承”而来的（也即自动拥有了object的一些性质或功能）

In [355]:
Student

__main__.Student

In [356]:
print(Student)

<class '__main__.Student'>


In [357]:
xiaoming = Student()

In [358]:
xiaoming

<__main__.Student at 0x7fbac5cb40a0>

In [359]:
xiaoming.name = 'xiaoming'

In [360]:
xiaoming.sex = 'male'

In [361]:
xiaoming.name

'xiaoming'

类是一个模版，所以，创建时，可以把一些必须有的属性放进去

In [362]:
class Student(object):
    class_attr = 'class 8'
    
    def __init__(self, name, score):
        self.name = name
        self.score = score

- `__init__`的第一个参数一定是`self`，表示创建的实例
- `self`在内部创建新的属性，就绑定到实例本身上去
- `__init__`括号中剩下的参数表示创建实例时就要输入的
- `class_attr` 是“类”的 attribute，由所有的 instance 共享。注意：不要把类属性和实例属性用同样的名称命名。
- `__init__`里面定义的 attribute是 instance的 attribute，每个instance有自己的数据

In [363]:
xm = Student()

TypeError: __init__() missing 2 required positional arguments: 'name' and 'score'

In [364]:
xm = Student(name='xiaoming',score=70)

In [365]:
xm.name

'xiaoming'

In [366]:
xm.score

70

In [367]:
xm.class_attr

'class 8'

In [368]:
xf = Student(name='xiaofang',score=90)

In [369]:
xf.class_attr

'class 8'

In [370]:
xm.name = 'xiaomingming'

In [371]:
xm.name

'xiaomingming'

## 封装

可以从外部访问实例的数据：

In [372]:
print(xm.score)

70


但是，`score`本身存在于xm内部，没有必要从外面访问。另外，除非知道`score`的定义方式，用外面的函数来访问，可能出错。对于一般的使用者来讲，没有必要搞清楚实例内部的数据的完整定义，只需了解如何去取用数据就好。这种封装类似于一个黑匣子。使用者只需要知道：
- 创建时需要给出name, score
- 可以打印出name和score
这种函数只在类的内部和数据关联，称作类的方法(method)

In [373]:
class Student(object):

    def __init__(self, name, score):
        self.name = name
        self.score = score

    def print_score(self):
        print('%s: %s' % (self.name, self.score))

In [374]:
xm = Student('xiaoming',70)

In [375]:
xm.print_score()

xiaoming: 70


可以给类增加很多方法

In [376]:
class Student(object):

    def __init__(self, name, score):
        self.name = name
        self.score = score

    def print_score(self):
        print('%s: %s' % (self.name, self.score))
    
    def get_grade(self):
        if self.score >= 90:
            return 'A'
        elif self.score >= 60:
            return 'B'
        else:
            return 'C'

In [377]:
xm = Student('xiaoming',70)

In [378]:
xm.get_grade()

'B'

## 访问限制

为了避免外部函数访问内部的数据，可以进行限制。
- 把属性的名称前加两个下划线
- python中，实例的变量名如果以两个下划线开头，就变成了一个private变量
- 一个下划线开头的变量，外部可以访问，但最好不要随意访问

In [379]:
class Student(object):

    def __init__(self, name, score):
        self.__name = name
        self.__score = score

    def print_score(self):
        print('%s: %s' % (self.__name, self.__score))
    
    def get_grade(self):
        if self.__score >= 90:
            return 'A'
        elif self.__score >= 60:
            return 'B'
        else:
            return 'C'

In [380]:
xm = Student('xiaoming', 80)

In [381]:
xm.__name

AttributeError: 'Student' object has no attribute '__name'

In [382]:
xm.get_grade()

'B'

In [383]:
class Student(object):

    def __init__(self, name, score):
        self.__name = name
        self.__score = score

    def print_score(self):
        print('%s: %s' % (self.__name, self.__score))
    
    def get_grade(self):
        if self.__score >= 90:
            return 'A'
        elif self.__score >= 60:
            return 'B'
        else:
            return 'C'
    def get_name(self):
        return self.__name
    
    def get_score(self):
        return self.__score

In [384]:
xm = Student('xiaoming',70)

In [385]:
xm.__name

AttributeError: 'Student' object has no attribute '__name'

In [386]:
xm.get_name()

'xiaoming'

此时虽然可以拿到name和score，但没法从外面改动了。如果希望score可以改动，则再定义一个方法

In [387]:
class Student(object):

    def __init__(self, name, score):
        self.__name = name
        self.__score = score

    def print_score(self):
        print('%s: %s' % (self.__name, self.__score))
    
    def get_grade(self):
        if self.__score >= 90:
            return 'A'
        elif self.__score >= 60:
            return 'B'
        else:
            return 'C'
    def get_name(self):
        return self.__name
    
    def get_score(self):
        return self.__score
    
    def set_score(self, score):
        self.__score = score

在内部定义数据的方法有两个好处：
- 外部不容易改动
- 改动时，可以定制。比如，限制score必须是[0,100]中的数

In [388]:
class Student(object):

    def __init__(self, name, score):
        self.__name = name
        self.__score = score

    def print_score(self):
        print('%s: %s' % (self.__name, self.__score))
    
    def get_grade(self):
        if self.__score >= 90:
            return 'A'
        elif self.__score >= 60:
            return 'B'
        else:
            return 'C'
    def get_name(self):
        return self.__name
    
    def get_score(self):
        return self.__score
    
    def set_score(self, score):
        if 0 <= score <= 100:
            self.__score = score
        else:
            raise ValueError('score must be between 0 and 100.')

In [389]:
xm = Student('xm', 70)

In [390]:
xm.set_score(199)

ValueError: score must be between 0 and 100.

双下划线的变量实际上由python解释器改了名字，改为了`_class__attribute`的格式

In [391]:
xm._Student__name

'xm'

In [392]:
xm._Student__name = 'haha' # 实际上可以改

In [393]:
xm.get_name()

'haha'

In [394]:
del xm._Student__name # 甚至删除

In [395]:
xm._Student__name

AttributeError: 'Student' object has no attribute '_Student__name'

**但最好不要这样做！**

类似的，如果这样写：

In [396]:
xm.__name = 'heyhey'

实际上只是给xm增加了一个 attribute

In [397]:
xm.get_name()

AttributeError: 'Student' object has no attribute '_Student__name'

## 继承和多态, inheritance and ploymorphism

定义class时可以从现成的class中继承
- 新定义的class叫做 subclass
- 被继承的叫做 base class 或者 super class

In [398]:
class Animal(object):
    
    def __init__(self, legs=4, fur=True):
        self.legs = legs
        self.fur = fur
    
    def run(self):
        print('Animal is running...')

In [399]:
class Dog(Animal):

    pass

class Cat(Animal):
    pass

In [400]:
dog = Dog()
cat = Cat()

In [401]:
dog.run()

Animal is running...


In [402]:
dog.legs

4

In [403]:
cat.fur

True

给子类增加一些方法：

In [404]:
class Dog(Animal):
    def eat(self):
        print('Eating meat...')

In [405]:
dog = Dog()
dog.eat()

Eating meat...


### 多态

子类和父类有同样的方法时，子类的方法会覆盖父类的

In [406]:
class Dog(Animal):
    def eat(self):
        print('Eating meat...')
    def run(self):
        print('dog is running...')

In [407]:
class Cat(Animal):

    def run(self):
        print('cat is running...')

In [408]:
dog = Dog()
dog.run()

dog is running...


python中的数据类型都是一种对象。例如，str, list, tuple, 等等，都有自己对应的attribute和method。Animal也一样

In [409]:
a = list()
b = Animal()
c = Dog()
isinstance(a, list)

True

In [410]:
isinstance(b, Animal)

True

In [411]:
isinstance(c, Dog)

True

In [412]:
isinstance(c, Animal)

True

c既是Dog, 也是 Animal

In [413]:
isinstance(b, Dog)

False

但b不是Dog

- 继承的时候，子类的数据类型可以看成是父类的一种
- 反之不行

多态的好处:

In [414]:
def run_twice(animal):
    animal.run()
    animal.run()

In [415]:
run_twice(Animal())

Animal is running...
Animal is running...


In [416]:
run_twice(Dog())

dog is running...
dog is running...


In [417]:
run_twice(Cat())

cat is running...
cat is running...


In [418]:
a = [1,2,3]
a.__len__()

3

- 调用方法是从父类的method里取用的，子类可以方便的同时运行

In [419]:
# 定义一个新的子类
class Tortoise(Animal):
    def run(self):
        print('Tortoise is running slowly...')

In [420]:
run_twice(Tortoise())

Tortoise is running slowly...
Tortoise is running slowly...


因此，完全可以写一个新的instance，只要保证子类的`run`的写法正确，原来的代码是怎么去调用父类方法，我们完全不管：
- 对扩展开放：允许新增子类
- 对修改封闭：不需要改依赖于父类的函数

#### duck typing

python 另一个很方便的地方是 duck typing
- 一个对象只要“看起来像鸭子，走起路来像鸭子，叫起来像鸭子”，那么它就可以被看作鸭子
- 不管它是不是真的从基因上是鸭子

也就是说，完全可以自己定义一个类，这个类不从Animal继承而来，而只要有Animal的方法或者性质，那么在调用时，这个类就可以看作是Animal

In [421]:
class DuckTyping(object):
    def run(self):
        print('This is a duck typing')

In [422]:
run_twice(DuckTyping())

This is a duck typing
This is a duck typing


这是python这种“动态语言”的特点，而其他一些语言对此是严格要求的。

## 获取对象信息

### type()

In [423]:
print(type(10))

<class 'int'>


In [424]:
print(type('str'))

<class 'str'>


In [425]:
print(type(Animal()))

<class '__main__.Animal'>


In [426]:
print(type(Dog()))

<class '__main__.Dog'>


In [427]:
print(type(abs))

<class 'builtin_function_or_method'>


In [428]:
import types

In [429]:
type(run_twice) == types.FunctionType

True

In [430]:
type(abs) == types.BuiltinFunctionType

True

In [431]:
type(abs) == types.FunctionType

False

In [432]:
type(lambda x:x) == types.LambdaType

True

In [433]:
type((x for x in range(10))) == types.GeneratorType

True

### isinstance()

In [434]:
isinstance(c, Animal)

True

In [435]:
isinstance(c, Dog)

True

In [436]:
isinstance(c, (Dog, str))

True

In [437]:
isinstance(123, int)

True

### dir()

In [438]:
dir(types)

['AsyncGeneratorType',
 'BuiltinFunctionType',
 'BuiltinMethodType',
 'CellType',
 'ClassMethodDescriptorType',
 'CodeType',
 'CoroutineType',
 'DynamicClassAttribute',
 'FrameType',
 'FunctionType',
 'GeneratorType',
 'GenericAlias',
 'GetSetDescriptorType',
 'LambdaType',
 'MappingProxyType',
 'MemberDescriptorType',
 'MethodDescriptorType',
 'MethodType',
 'MethodWrapperType',
 'ModuleType',
 'SimpleNamespace',
 'TracebackType',
 'WrapperDescriptorType',
 '_GeneratorWrapper',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '_calculate_meta',
 '_cell_factory',
 'coroutine',
 'new_class',
 'prepare_class',
 'resolve_bases']

In [439]:
dir(Animal)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 'run']

In [440]:
'a' + 'b'

'ab'

In [441]:
'a'.__add__('b')

'ab'

In [442]:
dir('abv')

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isascii',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'removeprefix',
 'removesuffix',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'strip',
 'swapcase',


python的很多函数可通用于不同的类型的数据，比如`len`，返回长度
- `len`作用于一个对象时，自动取用这个对象的`__len__`方法

In [443]:
len('abc')

3

In [444]:
df = pd.DataFrame([[1,2,3,4,5],[5,4,3,2,1]])
df

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,5
1,5,4,3,2,1


In [445]:
len(df)

2

In [446]:
class MyHair(object):
    def __len__(self):
        return 100

In [447]:
len(MyHair())

100

`getattr()`, `setattr()`, `hasattr()`

In [448]:
dog = Dog()
hasattr(dog, 'legs')

True

In [449]:
hasattr(dog, 'tail')

False

In [450]:
setattr(dog, 'fur', 'yes')

In [451]:
dog.fur

'yes'

In [452]:
getattr(dog, 'fur')

'yes'

In [453]:
getattr(dog, 'tail', 'No tail')

'No tail'

In [454]:
hasattr(dog, 'run')

True

In [455]:
foo = getattr(dog, 'run')

In [456]:
foo

<bound method Dog.run of <__main__.Dog object at 0x7fbab9c7bfd0>>

In [457]:
foo() # 等价于 dog.run()

dog is running...


# 错误处理

高级语言一般都内置了一套错误处理方法，来帮助我们编程

## try...except...finally

In [458]:
try:
    print('try...')
    r = 10 / 0
    print('result:', r)
except ZeroDivisionError as e:
    print('except:', e)
finally:
    print('finally...')
print('END')

try...
except: division by zero
finally...
END


In [459]:
try:
    print('try...')
    r = 10 / 3
    print('result:', r)
except ZeroDivisionError as e:
    print('except:', e)
finally:
    print('finally...')
print('END')

try...
result: 3.3333333333333335
finally...
END


`finally`不管有没有错，最终都会运行

错误的种类有很多，都继承自 `BaseException`。捕获错误时要注意，捕获时会把子类也一起算上：

In [460]:
import math

def my_sqrt(x):
    print(math.sqrt(x))

try:
    my_sqrt(-2)
except ValueError as e:
    print('ValueError')
except UnicodeError as e:
    print('UnicodeError')

ValueError


`UnicodeError`是`ValueError`的子类，因此不能被捕获

错误类型和继承关系：https://docs.python.org/3/library/exceptions.html#exception-hierarchy

如果没有出错的情况下要继续运行一些其他的功能，可以加`else`

In [461]:
try:
    print('try...')
    r = 10 / int('2')
    print('result:', r)
except ValueError as e:
    print('ValueError:', e)
except ZeroDivisionError as e:
    print('ZeroDivisionError:', e)
else:
    print('no error!')
finally:
    print('finally...')
print('END')

try...
result: 5.0
no error!
finally...
END


错误信息栈

In [462]:
def foo(s):
    return 10 / int(s)

def bar(s):
    return foo(s) * 2

def main():
    bar('0')

main()

ZeroDivisionError: division by zero

# 参考资料

- 廖雪峰的Python教程。地址：https://www.liaoxuefeng.com/wiki/1016959663602400
