«Wir haben sehr viel Zulauf»
Mathematik ist die Basis für all die neuen M?glichkeiten, die sich durch die ?Digitalisierung? er?ffnen. Statistikprofessor Nicolai Meinshausen über die zunehmende Bedeutung seines Fachgebiets und wo die Herausforderungen liegen.
Künstliche Intelligenz und maschinelles Lernen: Zurzeit sind diese Themen in der ?ffentlichkeit en vogue. Mathematiker besch?ftigen sich aber bestimmt schon l?nger damit?
Nicolai Meinshausen: Grunds?tzlich ja. Es h?ngt aber immer davon ab, wie man die Begriffe definiert. Maschinelles Lernen als solches gibt es eigentlich schon seit einigen Jahrzehnten. Heute sind einfach ganz andere Anwendungen m?glich, weil die Rechenleistung der Computer gestiegen ist und die verarbeiteten Datenmengen qualitativ und quantitativ ganz neue Dimensionen erreichen.
Wo er?ffnen sich neue Anwendungsm?glichkeiten?
Zum Beispiel bei der Bilderkennung, also in einem Bereich, in dem der Mensch sehr gut ist und dem Computer lange überlegen war. Auf einem Bild Fussg?nger erkennen oder ein Auto von einem Baum unterscheiden: Was lange Zeit bei Computern sehr schlecht funktionierte, ist heute dank gr?sserer Rechenleistungen m?glich. Die zu Grunde liegenden Fragen sind aber schon sehr alt.
Welche Themen interessieren Sie als Statistiker besonders?
Anwendungen, bei denen es nicht darum geht, Menschen zu ersetzen, sondern ganz neue Felder zu ?ffnen: Datenmengen von biologischen Studien oder von Klimamodellen zum Beispiel. Diese k?nnen nur im Zusammenspiel von Mensch und Computer verstanden werden.
Und welche Aspekte stehen da im Zentrum?
Der Zusammenhang zwischen maschinellem Lernen und Kausalit?t. Bei vielen Fragen geht es darum, Vorhersagen zu machen. Was passiert beispielsweise mit der Gesundheit der Menschen, wenn sich Stickstoffemissionen ver?ndern? Kann ich meine Lebenszeit verl?ngern, wenn ich mehr Grüntee trinke? Das sind kausale Fragen. Nun stelle ich vielleicht fest, dass Menschen, die Grüntee trinken, l?nger leben als jene, die andere Getr?nke bevorzugen. Das beweist aber noch keinen kausalen Zusammenhang. So k?nnte es auch sein, dass der allgemeine Lebensstil, zu dem Grüntee geh?rt, dazu führt, dass ich l?nger lebe, der Teegenuss selbst aber keinen Einfluss auf die Lebenserwartung hat.
Beispielsweise, weil Nichtraucher eher Grüntee trinken?
Ja, genau. Früher hatte Kaffee einen sehr schlechten Ruf, weil man nicht herausgerechnet hatte, dass Raucher tendenziell mehr Kaffee trinken. Heute zeigen Studien, die diese Faktoren herausrechnen, dass Kaffee tendenziell eher einen positiven Einfluss auf die Gesundheit hat.
Arbeiten Sie bei solchen Fragen mit Wissenschaftlern anderer Fachrichtungen zusammen?
Das ist das Spannende bei uns. Ich arbeite zum Beispiel mit Physikern in einem Projekt zusammen, bei dem es um den Klimawandel geht und die Frage, bis zu welchem Grad Ereignisse und Ver?nderungen menschengemacht sind. In früheren Projekten untersuchten wir zusammen mit Biologen das Zusammenspiel von genetischen Netzwerken; und mit Astronomen hatten wir ein Projekt, bei dem wir das ?ussere Sonnensystem erforschten. So erhalte ich Einblicke in viele Anwendungsgebiete.
Wie muss man sich die Zusammenarbeit konkret vorstellen? Kommen die Forschenden mit einer bestimmten Frage und einem Satz Daten auf Sie zu?
Das ist sehr unterschiedlich. Meine eigenen Projekte entstehen eher über langfristige pers?nliche Kontakte. Wir haben allerdings auch eine Beratungsstelle, an die sich viele Leute wenden. Zum Teil haben sie elementare Fragen, zum Teil aber auch recht komplexe Anliegen. Daraus k?nnen sich Kooperationen ergeben, manche entstehen über l?ngere Zeit hinweg.
Wer kann sich an die Beratungsstelle wenden?
Grunds?tzlich alle. Für ETH- und UZH-Angeh?rige ist die Beratung gratis, Externe müssen dafür bezahlen. Manchmal kommen auch Firmen und Institutionen zu uns. So hat sich beispielsweise die FIFA dafür interessiert, wie man anhand einer Analyse von Wettquoten entdecken kann, dass hinter einem Spielergebnis ein Betrug steckt.
Und wer bearbeitet solche Anfragen?
Wir haben ein festes Team von zwei Personen, die gerade ihr Masterstudium abgeschlossen haben, sowie ein bis zwei Senior Scientists. Manche Anfragen lassen sich sehr schnell beantworten. Aus anderen werden auch Studierendenprojekte, Semester- oder Masterarbeiten.
Wie weit müssen sich Statistiker thematisch einarbeiten, um eine Frage bearbeiten zu k?nnen?
Auch wenn man manchmal recht schnell eine erste Antwort liefern kann, lohnt es sich oft, etwas tiefer in die Thematik einzusteigen. Gerade in der Biologie erscheinen die Fragen oft simpel, aber sie werden immer komplexer, je genauer man sich mit ihnen besch?ftigt. In der Physik ist es für mich leichter, weil ich selbst aus diesem Gebiet komme.
Heute werden immer mehr Daten gesammelt. Erhalten Sie deshalb auch mehr Anfragen für Auswertungen?
Wir spüren einen Trend, dass es immer mehr Anknüpfungspunkte gibt. Allerdings arbeiten heute fast alle Wissenschaftszweige datenbasiert und statistisch. Dadurch hat auch das Wissen stark zugenommen. Viele Wissenschaftler k?nnen ihre Daten sehr gut alleine bearbeiten.
Womit wir bei der Ausbildung w?ren. Wie sieht das Angebot in der Lehre aus?
Wir bieten haupts?chlich Kurse auf Masterniveau an, so etwa Vorlesungen zur Kausalit?t oder über neue Methoden zur Multivariantenstatistik. Diese Vorlesungen besuchen ganz unterschiedliche Studierende. Neben Mathematikern kommen auch Studierende und Doktorierende aus der Biologie, der Chemie oder der Physik, die gemerkt haben, dass sie für ihre Forschung statistisches Wissen ben?tigen. Und dann sind wir auch am neuen Masterstudiengang ?Data Science? beteiligt, der im Herbst gestartet ist.
Hat Statistik als Studienfach an Beliebtheit gewonnen?
Ja, wir haben sehr viel Zulauf für unseren Master, sowohl innerhalb der Mathematik als auch von externen Studierenden, die beispielsweise mit einem Bachelor in Biologie zu uns kommen. Wir hatten gedacht, dass mit der Einführung des Masters in Data Science die Anmeldungen für den bestehenden Statistikmaster zurückgehen. Doch das Gegenteil ist der Fall: Die Zahl der Anmeldungen ist sogar noch gestiegen.
Und wie sch?tzen Sie die Statistikkenntnisse in der breiten Bev?lkerung ein? Mit Statistiken l?sst sich ja auch Schindluderei treiben…
H?ufig wird der Begriff Statistik missverstanden als ein blosses Zusammenfassen von Daten; uns geht es hingegen meistens um gute Vorhersagen. Also um die Frage ?Was würde passieren, wenn...??. Bei Schindluderei muss man unterscheiden, ob bewusst geschummelt wird oder nicht. Es gibt Fragen, bei denen es um komplexe Zusammenh?nge geht und es nicht eine einzige richtige Antwort gibt, sondern unterschiedliche Blickwinkel, die mit Daten gestützt werden k?nnen.
Zum Beispiel?
Ist das Aufnahmeverfahren an Universit?ten gerecht? Werden Frauen benachteiligt? Sind Verfahren zur Kreditvergabe gerecht? Werden bestimmte Bev?lkerungsgruppen benachteiligt? Das sind alles sehr heikle Fragen. Je nach Blickwinkel k?nnen unterschiedliche Aussagen durch die gleichen Daten gestützt werden. Da werden im Prinzip verschiedene Fragen beantwortet. Diese Differenziertheit ist spannend, weil ich herausfinden muss, welche Frage ich eigentlich beantworten will. Oft wird das alles dann aber unter einer groben Schlagzeile zusammengefasst.
Es gibt aber auch Leute, die Statistik für eigene Zwecke verwenden.
Statistik wird natürlich auch gebraucht, um Positionen zu verteidigen. Gerade wenn es um kausale Zusammenh?nge geht, ist es für jemanden ohne Ausbildung sehr schwer, die Aussagekraft statistischer Daten zu beurteilen. Wir sehen in den Zeitungen t?glich Beispiele, in denen Fragen mit Daten beantwortet werden, die eigentlich gar keine sinnvollen Aussagen zulassen.
Weil sie nicht signifikant sind?
Das ist das eine, dass man zum Beispiel nicht genügend Personen befragt hat. Das andere ist, dass die Art, wie die Daten erhoben werden, zu einer Verf?lschung der Daten führen kann. Dass die Methodik also eine falsche Aussage liefert, egal wie viele Personen man anschaut.
Haben Sie dafür ein Beispiel?
Oft drehen sich die Fragen um die Gesundheit, ob zum Beispiel gewisse Lebensmittel gesundheitsf?rdernd oder sch?dlich sind. Oder nehmen Sie die Frage, ob es gesünder ist, in der Stadt oder auf dem Land zu wohnen. Diese kann man nicht beantworten, indem man einfach die Gesundheit der Leute in der Stadt und auf dem Land vergleicht. Auch der Einfluss von Bildung auf sp?tere berufliche Erfolge ist schwierig zu eruieren, weil da ganz verschiedene Faktoren hineinspielen. Oder der Einfluss von Einwanderung auf das Lohnniveau der einheimischen Bev?lkerung. Es gibt unz?hlige solcher Beispiele, man begegnet ihnen t?glich.
Welches w?re denn die richtige Methode?
Die Goldstandard-Methode sind randomisierte Studien, wie man sie für Medikamente verwendet. Allerdings kann man solche Studien nicht überall durchführen. Man kann Leute nicht über Jahre zwingen, sich schlechter Luft auszusetzen oder mehr Kaffee zu trinken. Wir arbeiten gerade an Methoden, wie man aus Daten kausale Fragestellungen ohne randomisierte Studien beantworten kann. Es ist schwierig, doch wir machen gewisse Fortschritte.
Zur Person
Nicolai Meinshausen ist seit 2013 Professor für Statistik an der ETH Zürich, wo er das Seminar für Statistik leitet. Seine Forschung dreht sich um Kausalit?t, hochdimensionale Daten und maschinelles Lernen. 2016 erhielt er vom ?Committee of Presidents of Statistical Societies? den COPSS Presidents' Award; dieser gilt neben dem ?International Prize in Statistics? als h?chste Auszeichnung für Statistiker.
Schwerpunktthema Daten
Daten spielen in unserer Gesellschaft eine immer wichtigere Rolle. Die ETH Zürich wird sich deshalb in den kommenden Jahren vertieft mit diesem Themenschwerpunkt befassen. ETH News zeigt in einer Serie von Interviews exemplarisch auf, mit welchen Themen sich Forschende der ETH Zürich konkret befassen und wie sie die gesellschaftliche Entwicklung in ihrem Bereich einsch?tzen.
Bisherige Beitr?ge in dieser Serie:
- Lino Guzzella: ?Diese Chance müssen wir packen? (ETH-News 20.06.2017)
- Srdjan Capkun: ?Es ist immer ein Kompromiss? (ETH-News 19.07.2017)
- Joachim Buhmann ?Die Medizin wird modellgetrieben? (ETH-News 28.08.2017)
- Roger Wattenhofer ?Blockchain ist ein Hype? (ETH-News 29.09.2017)