Ludwig Boltzmanns und Andrej Karpathys KI-Story | Omtec KI-Blog | OMTEC: Industrie PC Lösungen vom Profi kaufen

Teil 17, 30.04.2021 - Ludwig Boltzmanns und Andrej Karpathys KI-Story (Lesezeit: ca. 3 Minuten)

Ludwig Boltzmann war – was uns kaum bewusst ist – einer der einflussreichsten Physiker aller Zeiten. Wissenschaftshistoriker nennen ihn in einem Atemzug mit Newton und Einstein. Unser Blog bietet keinen Raum, seine Verdienste auf den verschiedensten Gebieten aufzuzählen. Wir zeichnen hier seinen visionären Einfluss auf die Künstliche Intelligenz nach und konkret seine Wirkung auf Andrej Karpathy, den Leiter der Abteilung „Artificial Intelligence and Autopilot Vision“ bei Tesla. Am Ende dieses Beitrags erzählt uns Karpathy selbst den Anfang seiner persönlichen KI-Geschichte.

Boltzmann_Karpathy Ludwig Boltzmann (Fotografie von 1898) und Andrej Karpathy (2019)

Der in Wien geborene Ludwig Boltzmann (1844-1906) war – damals selbst unter Physikern keine Selbstverständlichkeit – leidenschaftlicher Verfechter von Darwins Evolutionstheorie. Boltzmann zeigte, dass der Begriff der Entropie, den er aus der Thermodynamik mitbrachte, der entscheidende Punkt ist für die Erklärung der Entstehung erster Lebensformen, ihrer Entwicklung zu Pflanzen und Tieren und endlich die Abstammung des Menschen. In diesen Komplex gehört die Entwicklung von Nervenzellen, die sich spezialisieren, sich zu einem Netzwerk verknüpfen, ein Denkorgan bilden, ein Gehirn, das sich schließlich seiner selbst bewusst wird.

Boltzmann ging noch einen Schritt weiter. In seinem Buch „Populäre Schriften“ beschreibt er 1905 die Möglichkeit von Maschinen, die äußere Einflüsse (Schall, Licht usw.) empfangen und verarbeiten können, genau wie Menschen Schmerzen empfinden und letzten Endes wie sie ein Selbstbewusstsein entwickeln. Wir nennen das heute: „Starke KI“.

Boltzmann_Populaere-Schriften Textauszug über menschengleiche Maschinen aus: Ludwig Boltzmann, Populäre Schriften, Johann Ambrosius Barth Verlag, Leipzig, 1905. https://archive.org/details/populreschrifte00boltgoog/page/n192/mode/2up

Ob die Informatiker David Hackley und Geoffrey Hinton von der Carnegie-Mellon University in Pittsburgh und der Biophysiker Terrence Sejnowski von der Johns-Hopkins University in Baltimore genau diese Textstelle im Kopf hatten oder eher die statistische, Energie-abhängige Boltzmann-Zustandsverteilung, als sie in den 1980er Jahren die „Boltzmann-Maschine“ entwickelten, sei dahingestellt. Ludwig Boltzmann war auf jeden Fall geistig als Ideengeber anwesend, als „spin doctor“.

Die Boltzmann-Maschine ist ein elementares, trainierbares, lernfähiges neuronales Netzwerk. Es besteht aus wenigen „Nervenzellen“ („Neuronen“), die aktiviert oder nicht aktiviert sind. Das sind die beiden möglichen „Energie“-Zustände, oder wie Hinton es umschrieb: ein Neuron „schläft“ oder ist „wach“. Aus dem Neuronen-Haufen entsteht durch gegenseitige Kommunikation über „Synapsen“ das neuronale Netzwerk. Die Wissenschaftler hatten begonnen, Ludwig Boltzmanns Vorstellung intelligenter Maschinen zu realisieren. (D. Ackley, G. Hinton, T. Sejnowski: A Learning Algorithm for Boltzmann Machines, Cognitive Science, 1985).

Andrej Karpathy wurde 1986, ein Jahr nach der Veröffentlichung des Cognitive Science Artikels über die Boltzmann-Maschine, in Kosice geboren, im Osten der heutigen Slowakei. Als er 15 war, wanderte seine Familie nach Kanada aus. Von 2007 bis 2009 studierte er an der University of Toronto Informatik und Physik und traf dort Geoffrey Hinton, der bereits 1987 von Pittsburgh nach Toronto gewechselt war. Hinton hielt eine Vorlesung über sein Spezialgebiet, die Boltzmann-Maschine.

Den Eindruck, den dieser erste Kontakt mit der künstlichen Intelligenz der Boltzmann-Maschine auf den Studenten Karpathy hinterließ, schilderte er selbst 2019 auf der Video-Plattform bilibili.com in einem Gespräch mit Andrew Ng, britisch-amerikanischer Professor für KI in Stanford und Mitgründer der Lernplattformen Coursera und deeplearning.ai. Eine Mitschrift der ersten Minuten dieses Interviews steht weiter unten.

Nach seinem Bachelor-Abschluss in Toronto führte Karpathys akademische Karriere zur University of British Columbia und später zur Stanford University, wo er 2016 mit dem Thema „Connecting Images and Natural Language“ promovierte. Als Experte für Bildverarbeitung ging er 2017 zu Tesla, wo er, wie eingangs erwähnt, heute die Abteilung AI und Autonomes Fahren leitet.

Ludwig Boltzmann und Andrej Karpathy und Geoffrey Hinton und Andrew Ng inspirieren Sie? Starten Sie mit einem Industrie PC von Omtec! Am Anfang alles Großen steht

“A flavor of something magical”

Andrew Ng: So welcome Andrej, I'm really glad you could join me today.
Andrej Karpathy: Yeah, thank you for having me.
Ng: So, a lot of people already know your work in deep learning, but not everybody knows your personal story. So, let us start telling us, how did you end up doing all these work in deep learning?
Karpathy: Yeah, absolutely. So I think my first exposure to deep learning once when I was an undergraduate at the University of Toronto. And so, Geoff Hinton was there, and he was teaching a class on deep learning. And at that time, it was restricted Boltzmann machines trained on MNIST digits.* And I just really like the way Geoff talked about training the network, like the mind of the network, and he was using these terms. And I just thought there was a flavor of something magical happening when this was training on those digits. And so that's my first exposure to it, although I didn't get into it in a lot of detail at that time.
And then when I was doing my master's degree at University of British Columbia, I took a class [Anm.: akustisch unverständlich] and that was again on machine learning. And that's the first time I delved deeper into these networks and so on. And what was interesting is that I was very interested in artificial intelligence, and so I took classes in artificial intelligence. But lot of what I was seeing there was just very not satisfying. It was a lot of depth-first search, breadth-first search, alpha-beta pruning, and all these things. And I was not understanding how, I was not satisfied. And so, when I was seeing neural networks for the first time in machine learning, which is this term that I think is more technical and not well known in kind of a most people talk about Artificial Intelligence. Machine learning was more kind of a technical term I would almost say. And so I was dissatisfied with Artificial Intelligence.
When I saw machine learning, I was like, this is the AI that I want to kind of spend time on, this is what's really interesting. And that's what took me down those directions is that is almost a new computing paradigm, I would say. Because normally, humans write code, but here in this case, the optimization writes code. And so, you're creating the input/output specification and then you have lots of examples of it, and the optimization writes code, and sometimes it can write code better than you. And so, I thought that was just a very new way of thinking about programming, and that's what intrigued me about it.

*60.000 Trainings- und 10.000 Testbeispiele für handgeschriebene Ziffern, größennormalisiert und Bild-zentriert bereitgestellt vom US-amerikanischen National Institute of Standards and Technology (NIST) als Datensatz für die Entwicklung von OCR-Zeichenerkennung und Dokumentenverwaltung.