最早接触特征值和特征向量的概念是在《线性代数》中,当时的定义简直就是简单粗暴,上来直接告诉你,满足如下公式的λ和v分别称为特征值和特征向量,然后告诉你一大堆特征值和特征向量的性质。
可是,这是为什么?为什么会出现这个定义?虽然大家都知道特征值和特征向量的概念在整个线性代数中是非常重要的,但是一般的教科书上基本都不给出相应的解释,上来就告诉你定义。(这貌似是所有国内教科书的通病)
这个问题困扰了我很长一段时间,直到后来上矩阵论课的时候,看了一本老外写的《Linear Algebra Done Right》,顿时觉得豁然开朗,所以觉得有必要好好记录一下。
《Linear Algebra Done Right》中是通过一维不变子空间而引出特征值和特征向量的概念的,所以我们要先从不变子空间开始。
假设V是一个线性空间,而U是V的一个子空间,且T是作用在V上的一个线性算子(operator),如果对于所有的∀u∈U都满足Tu∈U,则我们称U是V的一个不变子空间。
而特征值和特征向量的定义就从V的一维不变子空间开始的。
假设U是V的一个一维子空间,且存在一个非零向量u∈U,那么U就可以写成:
任意一个一维子空间都可以写成如上的形式。
假设U是V上关于T的一个一维不变子空间,那么根据上述一维子空间的定义,我们能够得到Tu∈U,根据U的表示方式,则必存在一个λ∈F满足:
而上面这个公式正好就是特征值和特征向量的定义!
这样从线性空间的不变子空间出发,我们自然而然的就得出了特征向量和特征值的概念。
上面的推导说明,T有一维不变子空间的充分必要条件是:T有一个特征值。
从这个角度看,其实特征向量就是V的一维不变子空间U中的一个向量,这也就说明了为什么一个特征值对应的特征向量往往有无穷个,且都是线性相关的。
换一个角度来看问题,往往能得到意想不到的新收获。
参考资料
- wiki:特征向量
- 《Linear Algebra Done Right》第五章