最早接触特征值和特征向量的概念是在《线性代数》中,当时的定义简直就是简单粗暴,上来直接告诉你,满足如下公式的\(\lambda\)和\(v\)分别称为特征值和特征向量,然后告诉你一大堆特征值和特征向量的性质。
可是,这是为什么?为什么会出现这个定义?虽然大家都知道特征值和特征向量的概念在整个线性代数中是非常重要的,但是一般的教科书上基本都不给出相应的解释,上来就告诉你定义。(这貌似是所有国内教科书的通病)
这个问题困扰了我很长一段时间,直到后来上矩阵论课的时候,看了一本老外写的《Linear Algebra Done Right》,顿时觉得豁然开朗,所以觉得有必要好好记录一下。
《Linear Algebra Done Right》中是通过一维不变子空间而引出特征值和特征向量的概念的,所以我们要先从不变子空间开始。
假设\(V\)是一个线性空间,而\(U\)是\(V\)的一个子空间,且\(T\)是作用在\(V\)上的一个线性算子(operator),如果对于所有的\(\forall u\in U\)都满足\(Tu\in U\),则我们称\(U\)是\(V\)的一个不变子空间。
而特征值和特征向量的定义就从\(V\)的一维不变子空间开始的。
假设\(U\)是\(V\)的一个一维子空间,且存在一个非零向量\(u\in U\),那么\(U\)就可以写成:
任意一个一维子空间都可以写成如上的形式。
假设\(U\)是\(V\)上关于\(T\)的一个一维不变子空间,那么根据上述一维子空间的定义,我们能够得到\(Tu \in U\),根据\(U\)的表示方式,则必存在一个\(\lambda \in F\)满足:
而上面这个公式正好就是特征值和特征向量的定义!
这样从线性空间的不变子空间出发,我们自然而然的就得出了特征向量和特征值的概念。
上面的推导说明,\(T\)有一维不变子空间的充分必要条件是:\(T\)有一个特征值。
从这个角度看,其实特征向量就是\(V\)的一维不变子空间\(U\)中的一个向量,这也就说明了为什么一个特征值对应的特征向量往往有无穷个,且都是线性相关的。
换一个角度来看问题,往往能得到意想不到的新收获。
参考资料
- wiki:特征向量
- 《Linear Algebra Done Right》第五章