工具-numpy

numpy是使用Python进行数据科学的基础库。numpy以一个强大的N维数组对象为中心，它还包含有用的线性代数，傅里叶变换和随机数函数。

一维ndarray

导入numpy

import numpy as np

一维ndarray的访问和常规的Python数组类似。

a = np.array([1, 5, 3, 19, 13, 7, 3])
a[3]

输出：

a[2:5]

输出：

array([ 3, 19, 13])

a[2:-1]

输出：

array([ 3, 19, 13,  7])

a[:2]

输出：

array([1, 5])

a[2::2]

输出：

array([ 3, 13,  3])

a[::-1]

输出：

array([ 3,  7, 13, 19,  3,  5,  1])

当然，也可以修改ndarray的元素。

a[3] = 999
a

输出：

array([  1,   5,   3, 999,  13,   7,   3])

也可以修改一个ndarray的切片。

a[2:5] = [997, 998, 999]
a

输出：

array([  1,   5, 997, 998, 999,   7,   3])

与常规数组的区别

与常规Python数组相反，如果将一个值赋给一个ndarray切片，则整个切片里的元素都会被赋值为这个值，这是由于广播机制。

a[2:5] = -1
a

输出：

array([ 1,  5, -1, -1, -1,  7,  3])

另外，不能以这种方式增加或缩小ndarray。

try:
    a[2:5] = [1, 2, 3, 4, 5, 6]
except ValueError as e:
    print(e)

输出：

cannot copy sequence with size 6 to array axis with dimension 3

也不能删除元素。

try:
    del a[2:5] 
except ValueError as e:
    print(e)

输出：

cannot delete array elements

值得注意的是，ndarray切片实际上是同一数据缓冲区上的视图。这就意味着，如果创建一个切片并对其进行修改，也将会修改原始的ndarray。

a_slice = a[2:6]
a_slice[1] = 1000
a   # 原始ndarray也被修改！

输出：

array([   1,    5,   -1, 1000,   -1,    7,    3])

a[3] = 2000
a_slice  # 修改切片也会修改原始ndarray！

输出：

array([  -1, 2000,   -1,    7])

如果想复制ndarray的数据，需要使用copy方法。

another_slice = a[2:6].copy()
another_slice[1] = 3000
a     # 原始ndarray不变

输出：

array([   1,    5,   -1, 2000,   -1,    7,    3])

a[3] = 4000
another_slice    # 修改原始ndarray不会影响切片的副本

输出：

array([  -1, 3000,   -1,    7])

多维ndarray

多维ndarray的访问也是类似的方式，通过为每个轴提供索引或切片的形式，不同轴之间的索引或切片用逗号分隔。

b = np.arange(48).reshape(4, 12)
b

输出：

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47]])

b[1, 2]   # 第1行 第2列

输出：

b[1, :]  # 第1行的所有列元素

输出：

array([12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23])

b[:, 1]   # 第1列的所有行元素

输出：

array([ 1, 13, 25, 37])

注意！注意下面两个结果间的细微差别。

b[1, :]

输出：

array([12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23])

b[1:2, :]

输出：

array([[12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23]])

第一个结果是将第1行作为一个形状为（12，）的一维数组返回，第二个结果是将第1行作为形状为（1，12）的二维数组返回。

花式索引

还可以指定感兴趣的索引列表，被称为花式索引。

b[(0, 2), 2:5]

输出：

array([[ 2,  3,  4],
       [26, 27, 28]])

b[:, (-1, 2, -1)]

输出：

array([[11,  2, 11],
       [23, 14, 23],
       [35, 26, 35],
       [47, 38, 47]])

如果提供多个索引数组，将会得到一个一维ndarray，其中包含指定坐标处元素的值。

b[(-1, 2, -1, 2), (5, 9, 1, 9)]   # 返回由b[-1, 5] b[2, 9] b[-1, 1] b[2, 9]组成的一维数组

输出：

array([41, 33, 37, 33])

更高维数组

对于更高维数组，上面的索引方式也满足。

c = b.reshape(4, 2, 6)
c

输出：

array([[[ 0,  1,  2,  3,  4,  5],
        [ 6,  7,  8,  9, 10, 11]],

       [[12, 13, 14, 15, 16, 17],
        [18, 19, 20, 21, 22, 23]],

       [[24, 25, 26, 27, 28, 29],
        [30, 31, 32, 33, 34, 35]],

       [[36, 37, 38, 39, 40, 41],
        [42, 43, 44, 45, 46, 47]]])

c[2, 1, 4]

输出：

c[2, :, 3]

输出：

array([27, 33])

如果省略某些轴的坐标，则会返回这些轴中的所有元素。

c[2, 1]

输出：

array([30, 31, 32, 33, 34, 35])

省略号

也可以使用一个省略号...，表示将所有未指定的轴的元素全部包含在内。

c[2, ...]   # 相当于c[2, :, :]

输出：

array([[24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

c[2, 1, ...]   # 相当于c[2, 1, :]

输出：

array([30, 31, 32, 33, 34, 35])

c[2, ..., 3]    # 相当于c[2, :, 3]

输出：

array([27, 33])

c[..., 3]   # 相当于c[:, :, 3]

输出：

array([[ 3,  9],
       [15, 21],
       [27, 33],
       [39, 45]])

布尔索引

还可以在一个轴上提供一系列布尔值，来指定要访问的索引。

d = np.arange(48).reshape(4, 12)
d

输出：

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47]])

rows_on = np.array([True, False, True, False])
b[rows_on, :]   # 相当于b[(0, 2), :]

输出：

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35]])

cols_on = np.array([False, True, False] * 4)
b[:, cols_on]   # 相当于b[:, (1, 4, 7, 10)]

输出：

array([[ 1,  4,  7, 10],
       [13, 16, 19, 22],
       [25, 28, 31, 34],
       [37, 40, 43, 46]])

np.ix_

不能以上面那种方式在多个轴上使用布尔索引，但是可以使用np.ix_函数来解决。

d[np.ix_(rows_on, cols_on)]

输出：

array([[ 1,  4,  7, 10],
       [25, 28, 31, 34]])

np.ix_(rows_on, cols_on)

输出：

(array([[0],
        [2]], dtype=int64), array([[ 1,  4,  7, 10]], dtype=int64))

如果使用与ndarray形状相同的布尔数组，会得到一个一维数组，该数组包含所有坐标为True的元素值，通常与条件运算符一起使用。

b[b % 3 == 1]

输出：

array([ 1,  4,  7, 10, 13, 16, 19, 22, 25, 28, 31, 34, 37, 40, 43, 46])