Paul Dirac abordó el problema de construir una ecuación de onda que tuviera una interpretación probabilística aceptable. Se dio cuenta de que el
problema de la ecuación de KG era que contenía una segunda derivada temporal $\partial^2/\partial t^2$, y la densidad de probabilidad que se deducía
contenía una primera derivada $\partial/\partial t$ de la que surgían las probabilidades
negativas.
Además, como se requería invariancia relativista, la ecuación debería contener también términos lineales en las primeras derivadas espaciales. La forma
más general que debía tener la ecuación era por tanto
\begin{equation}
\begin{split}
i\hbar \frac{\partial \psi(\vec x,t)}{\partial
t}&=\left[-ic\hbar\left(\mathbf{\alpha}^1\frac{\partial}{\partial
x^1}+\mathbf{\alpha}^2\frac{\partial}{\partial
x^2}+\mathbf{\alpha}^3\frac{\partial}{\partial
x^3}\right)+\mathbf{\beta}mc^2\right]\psi(\vec x,t)=\\
&=[-ic\hbar\mathbf{\alpha}^i\partial_i+\mathbf{\beta}mc^2]\psi(\vec
x,t)
\end{split}
\label{eq-dirac1}
\end{equation}
en donde los parámetros $\mathbf{\alpha}^i$ y $\mathbf{\beta}$ que cumplan los requerimientos exigidos tendrán que ser matrices, y la ecuación
anterior será una ecuación matricial para las componentes de un vector columna $\psi=\psi^\alpha$ denominado espinor.
Las propiedades que debe satisfacer la ecuación serán las siguientes:
i) Cada componente $\psi^\alpha$ del espinor debe cumplir la ecuación de Klein-Gordon que implementa la correcta relación relativista
\[
E^2=|\vec p|^2c^2+m^2c^4
\]
ii) Debe ser posible construir una corriente conservada cuya componente 0 sea definida positiva y pueda interpretarse como una densidad de
probabilidad.
iii) La ecuación debe ser covariante bajo transformaciones Lorentz.
Para que se cumpla la primera de las anteriores condiciones, si aplicamos $i\hbar\partial/\partial t$ a los dos miembros de \eqref{eq-dirac1}:
\[
\begin{split}
-\hbar^2\frac{\partial^2\psi}{\partial
t^2}&=(-ic\hbar\mathbf{\alpha}^i\partial_i+\mathbf{\beta}mc^2)(-ic\hbar\mathbf{\alpha}^j\partial_j+\mathbf{\beta}mc^2)\psi=\\
&=[-c^2\hbar^2\mathbf{\alpha}^i\mathbf{\alpha}^j\partial_i\partial_j-i\{\mathbf{\alpha}^i,\mathbf{\beta}\}c^3\hbar m
\partial_i+\mathbf{\beta}^2m^2c^4]\psi
\end{split}
\]
en donde $\{A,B\}=AB+BA$ indica el anticonmutador. Teniendo en cuenta la simetría de $\partial_i\partial_j$ se puede poner
\[
\mathbf{\alpha}^i\mathbf{\alpha}^j\partial_i\partial_j=\frac{1}{2}[\mathbf{\alpha}^i\mathbf{\alpha}^j+\mathbf{\alpha}^j\mathbf{\alpha}^i]\partial_i\partial_j=\frac{1}{2}\{\mathbf{\alpha}^i,\mathbf{\alpha}^j\}\partial_i\partial_j
\]
\[
\hbar^2\frac{\partial^2\psi}{\partial \hbar^2}=\left[c^2\hbar^2\frac{1}{2}\{\mathbf{\alpha}^i,\mathbf{\alpha}^j\}\partial_i\partial_j+\
i\{\mathbf{\alpha}^i,\mathbf{\beta}\}c^3\hbar m\partial_i-\mathbf{\beta}^2m^2c^4\right]\psi
\]
que comparada con la ecuación de KG
\[
\hbar^2\frac{\partial^2\phi}{\partial t^2}=(\hbar^2c^2\partial^2_i-m^2c^4)\phi
\]
\begin{equation}
\boxed{
\begin{split}
\{\mathbf{\alpha}^i,\mathbf{\alpha}^j\}&=2\delta_{ij}\mathbb{1}(\Rightarrow (\mathbf{\alpha}^i)^2=\mathbb{1})\\
\{\mathbf{\alpha}^i,\mathbf{\beta}\}&=\mathbf{0}\\
\mathbf{\beta}^2&=\mathbb{1}
\end{split} }
\label{eq-condalfas}
\end{equation}
con lo que la ecuación que cumplen las componentes de $\psi$ es la de KG:
\[
\hbar^2\frac{\partial^2\psi^\alpha}{\partial t^2}=(\hbar^2c^2\nabla^2-m^2c^4)\psi^\alpha
\]
Como ya se ha adelantado con la notación, las condiciones \eqref{eq-condalfas} no las pueden satisfacer simples números sino matrices. La ecuación de
Dirac quedaría en unidades naturales como
\begin{equation}
\boxed{ \displaystyle
i\frac{\partial \psi}{\partial t}=(-i\mathbf{\alpha}\cdot\vec{\nabla}+\mathbf{\beta}m)\psi }
\label{eq-dirac2}
\end{equation}
y la dimensión matricial más pequeña en la que se pueden satisfacer las condiciones \eqref{eq-condalfas} es 4, obteniéndose:
\[
\mathbf{\alpha}^i=\begin{pmatrix}\mathbf{0}&\mathbf{\sigma}^i\\\mathbf{\sigma}^i&\mathbf{0}\end{pmatrix}\,,\,\mathbf{\beta}=\begin{pmatrix}\mathbb{1}&\mathbf{0}\\\mathbf{0}&-\mathbb{1}\end{pmatrix}
\]
en donde se usan las identidades 2x2 y las matrices $\mathbf{\sigma}^i$ son las de Pauli:
\[
\mathbf{\sigma}^1=\begin{pmatrix}0&1\\1&0\end{pmatrix}\,,\,
\mathbf{\sigma}^2=\begin{pmatrix}0&-i\\i&0\end{pmatrix}\,,\,\mathbf{\sigma}^3=\begin{pmatrix}1&0\\0&-1\end{pmatrix}
\]
y el campo en este caso es el espinor de 4 componentes
\[
\psi(x)=\begin{pmatrix}\psi^1(x)\\\psi^2(x)\\\psi^3(x)\\\psi^4(x)\end{pmatrix}
\]
cuya interpretación se verá más adelante.
Si introducimos las llamadas matrices de Dirac definidas por
\[
\gamma^0\equiv\beta\quad\gamma^i\equiv\beta\alpha^i
\]
las condiciones \eqref{eq-condalfas} se pueden poner en la forma compacta
\[
\boxed{
\{\gamma^\mu,\gamma^\nu\}=2\eta^{\mu\nu}\mathbf{1}}
\]
y la ecuación de Dirac en función de estas nuevas matrices es
\begin{equation}
\boxed{
(i\hbar\gamma^\mu\partial_\mu-mc\mathbf{1})\psi(x)=0 }
\label{eq-dirac5}
\end{equation}
que en la literatura a veces aparece con unidades naturales en la forma todavía más compacta
\[
\boxed{
(i{\not}\partial-m)\psi=0 }
\]
donde se ha usado el llamado slash de Feynman, ${\not}a\equiv \gamma^\mu a_\mu(\Rightarrow{\not}\partial\equiv \gamma^\mu\partial_\mu)$.
Recordemos que la covariancia Lorentz significa que si se satisface la ecuación en un sistema de referencia y se hace un cambio a otro por medio de una
transformación Lorentz, las nuevas variables deben cumplir la misma forma de la ecuación, es decir,
\[
\begin{array}{l}
(i\hbar\gamma^\mu\partial_\mu-mc\mathbf{1})\psi(x)=0\\
(i\hbar\gamma^\mu\partial^\prime_\mu-mc\mathbf{1})\psi^\prime(x^\prime)=0
\end{array}
\]
en donde $\partial^\prime_\mu\equiv \frac{\partial}{\partial x^{\prime\mu}}$ y la transformación viene dada por
\[
\begin{array}{l}
x\longrightarrow x^\prime=\Lambda x\\
x^\mu\longrightarrow x^{\prime\mu}=\left.\Lambda^\mu\right._\nu x^\nu
\end{array}
\]
La acción de esta transformación sobre el espinor se denota como $S(\Lambda)$ y toma la forma
\[
\psi^\prime_\alpha(x^\prime)=\left.S^\alpha\right._\beta\psi^\beta(x)
\]
\[
\frac{\partial}{\partial x^{\prime\mu}}=\frac{\partial x^\nu}{\partial x^{\prime \mu}}\frac{\partial}{\partial
x^\nu}=\left.(\Lambda^{-1})^\nu\right._\mu\partial_\nu
\]
se tiene, olvidándonos ya de la matriz identidad
\[
(i\hbar\gamma^\mu\partial^\prime_\mu-mc)\psi^\prime(x^\prime)=\left(i\hbar\gamma^\mu\left.(\Lambda^{-1})^\nu\right._\mu\partial_\nu-mc\right)S\psi(x)=0
\]
y multiplicando la ecuación por $S^{-1}$ queda
\[
\left[i\hbar\left.(\Lambda^{-1})^\nu\right._\mu\left(S^{-1}\gamma^\mu S\right)\partial_\nu-mc\right]\psi(x)=0
\]
\[
\left.(\Lambda^{-1})^\nu\right._\mu S^{-1}\gamma^\mu S=\gamma^\nu\Rightarrow (i\hbar\gamma^\nu\partial_\nu-mc)\psi(x)=0
\]
es decir, obtendríamos la covariancia requerida. Más adelante veremos a qué nos lleva esta condición de covariancia, que reescrita se puede poner como
\begin{equation}
\boxed{ S^{-1}\gamma^\nu S=\left.\Lambda^\nu\right._\mu\gamma^\mu} \label{eq-covarianciadirac}
\end{equation}
Si tomamos la conjugada hermítica de la ecuación de Dirac \eqref{eq-dirac5} se tiene
\[
-i\hbar\partial_\mu\psi^\dagger\gamma^{\mu \dagger}-mc\psi^\dagger=0
\]
y teniendo en cuenta la propiedad de las matrices de Dirac siguiente
\[
\gamma^{\mu \dagger}=\gamma^0\gamma^\mu\gamma^0\,(\Rightarrow \gamma^{\mu \dagger}\gamma^0=\gamma^0\gamma^\mu)
\]
y multiplicando a la derecha por $\gamma^0$ la anterior ecuación
\[
-i\hbar\partial_\mu\psi^\dagger\gamma^0\gamma^\mu-mc\psi^\dagger\gamma^0=0
\]
Definiendo el espinor conjugado de Dirac $\bar \psi$ como
\[
\bar\psi(x)\equiv\psi^\dagger (x)\gamma^0
\]
\[
-i\hbar\partial_\mu\bar\psi\gamma^\mu-mc\bar\psi=0
\]
que se suele escribir como
\begin{equation}
\boxed{
\bar\psi(x)(i\hbar\overleftarrow\partial_\mu\gamma^\mu+mc)=0 }
\label{eq-dirac3}
\end{equation}
en donde $\bar\psi\overleftarrow\partial_\mu\equiv\partial_\mu\bar\psi$, para compararla con la ecuación original
\[
(i\hbar\gamma^\mu\partial_\mu-mc)\psi(x)=0
\]
Más conciso suele ser expresarla en unidades naturales y usar también el slash de Feynman para compararla con su hermítica, quedando
\begin{eqnarray}
\boxed{
(i\not\partial-m)\psi=0} \nonumber\\
\boxed{\bar\psi(i\overleftarrow{\not\partial}+m)=0 }\label{eq-dirac4}
\end{eqnarray}
\[
\bar\psi(i\overleftarrow{\not\partial}+m)\psi+\bar\psi(i\not\partial-m)\psi =0
\]
\[
\bar\psi\overleftarrow{\not\partial}\psi+\bar\psi\not\partial\psi=0
\]
y recordando que $\not\partial=\partial_\mu\gamma^\mu$
\[
\partial_\mu\bar\psi\gamma^\mu\psi+\bar\psi\gamma^\mu\partial_\mu\psi=\partial_\mu(\bar\psi\gamma^\mu\psi)=0
\]
Con esto efectivamente encontramos la corriente conservada que buscábamos
\begin{equation}
\boxed{J^\mu=(\rho,\vec j)=\bar\psi\gamma^\mu\psi}
\label{eq-corrientedirac}
\end{equation}
cuya ecuación de continuidad es
\begin{equation}
\frac{\partial \rho}{\partial t}+\vec\nabla\cdot\vec j=0 \label{eq-continuidaddirac}
\end{equation}
\[
\vec j=\bar\psi\gamma^i\psi=\psi^\dagger\mathbf{\alpha}\psi
\]
\[
\rho(x)=\bar\psi (x)\gamma^0\psi(x)=\psi^\dagger
(x)\psi(x)=\begin{pmatrix}\psi^*_1,\psi^*_2,\psi^*_3,\psi^*_4\end{pmatrix}\begin{pmatrix}\psi_1\\\psi_2\\\psi_3\\\psi_4\end{pmatrix}
\]
\[
\rho=\sum_{\alpha=1}^4\left|\psi^\alpha\right|^2>0
\]
expresión que es explícitamente definida positiva. Además, si normalizamos $\psi$ de forma que tenga dimensión $[L]^{-3/2}$, $\rho$ tendrá dimensiones de
inversa de un volumen y podrá interpretarse como una verdadera densidad de probabilidad. Con esto por tanto está salvada una de las pegas iniciales de la
ecuación de Klein-Gordon, veamos si persiste el problema de las soluciones de energía negativa.