Von Data Mining bis Big Data - Handbuch für die industrielle Praxis
von: Ralf Otte, Boris Wippermann, Viktor Otte
Carl Hanser Fachbuchverlag, 2020
ISBN: 9783446457171
Sprache: Deutsch
495 Seiten, Download: 36552 KB
Format: PDF, auch als Online-Lesen
Vorwort | 6 | ||
Inhalt | 12 | ||
1 Einführung | 18 | ||
2 Warum Data Mining? Wozu Big Data? | 20 | ||
2.1 Definition und Einordnung der Begriffe | 23 | ||
2.1.1 Was ist Data Mining? | 23 | ||
2.1.2 Was ist Big Data? | 31 | ||
2.1.3 Data Mining im Kontext anderer Datenanalyseverfahren | 32 | ||
2.2 Spezielle Anforderungen der Industrie an die Datenanalyse | 39 | ||
2.3 Gibt es einen Handlungsbedarf für die Industrie? | 46 | ||
3 Das theoretische und mathematische Konzept der technischen Datenauswertung | 50 | ||
3.1 Einführung | 50 | ||
3.2 Datenselektion und Datenzusammenführung | 52 | ||
3.2.1 Aufbau einer Datentabelle | 52 | ||
3.2.2 Denormalisierung von Datentabellen | 53 | ||
3.2.3 Synchronisierung von Datentabellen | 54 | ||
3.3 Datenvorverarbeitung | 56 | ||
3.3.1 Festlegung der Datentypen | 56 | ||
3.3.2 Diskretisierung von metrischen Daten | 58 | ||
3.3.3 Statistiken und Tests für metrische Daten | 60 | ||
3.3.4 Das Problem ungenauer Messungen | 65 | ||
3.3.5 Behandlung von Datenlücken | 68 | ||
3.3.6 Behandlung von Ausreißern | 70 | ||
3.3.7 Behandlung von Mehrdeutigkeiten | 72 | ||
3.4 Datentransformation | 77 | ||
3.5 Datenanalyse | 81 | ||
3.5.1 Visuelle explorative Analysen | 81 | ||
3.5.2 Überblick über multivariate Verfahren zur Datenanalyse | 84 | ||
3.5.2.1 Regressionsanalysen | 84 | ||
3.5.2.2 Varianzanalyse | 90 | ||
3.5.2.3 Diskriminanzanalyse | 93 | ||
3.5.2.4 Korrelationsanalyse | 96 | ||
3.5.2.5 Faktoranalyse | 100 | ||
3.5.2.6 Clusteranalyse | 103 | ||
3.5.3 Einführung in Data-Mining-Methoden | 110 | ||
3.5.4 Data Mining zum Auffinden von Zusammenhängen | 114 | ||
3.5.4.1 Neuronale Netze | 116 | ||
3.5.4.2 Support-Vektor-Maschinen | 131 | ||
3.5.4.3 Gütemaße für Modelle und Klassifikatoren | 136 | ||
3.5.5 Data Mining zum Auffinden von Strukturen | 144 | ||
3.5.5.1 Fuzzy-Clusterverfahren | 145 | ||
3.5.5.2 Demographisches Clustern | 147 | ||
3.5.5.3 Selbstorganisierende Merkmalskarten | 148 | ||
3.5.5.4 Gütemaße für Clusterverfahren | 160 | ||
3.5.6 Data Mining zum Generieren von Regeln | 162 | ||
3.5.6.1 Bayessche Netze | 163 | ||
3.5.6.2 Entscheidungsbäume | 169 | ||
3.5.6.3 Assoziationsregeln | 179 | ||
3.5.6.4 Gütemaße für Regeln | 182 | ||
3.5.7 Data Mining zum Visualisieren hochdimensionaler Datenräume | 183 | ||
3.5.7.1 Selbstorganisierende Merkmalskarten für topologieerhaltende Projektionen | 183 | ||
3.5.7.2 Gütemaße für Projektionen | 190 | ||
3.5.8 Zusammenfassung der Data-Mining-Verfahren | 194 | ||
3.6 Interpretation der Ergebnisse | 197 | ||
3.6.1 Fehlinterpretationen | 198 | ||
3.6.2 Strittige Interpretationen | 204 | ||
3.6.3 Konsequenzen | 206 | ||
4 Hilfreiche Auswertemöglichkeiten für praktische Anwendungsfälle | 208 | ||
4.1 Text Mining – das Auswerten unstrukturierter Daten | 208 | ||
4.2 Versuchsplanungen zur Erzeugung von Prozessdaten | 214 | ||
4.3 Automatische Diskretisierungen | 219 | ||
4.4 Güte und Sicherheit von Regressionsschätzungen | 221 | ||
4.5 Auffinden der sensitiven Einflussgrößen | 225 | ||
4.6 Ausschluss von zufälligen Zusammenhängen | 229 | ||
4.7 Datenbasierte Optimierungen | 233 | ||
5 Big Data – die Datenhaltungs- und Verarbeitungskonzepte der Gegenwart | 246 | ||
5.1 Digitale Transformation und Big Data | 247 | ||
5.2 Grundprinzipien eines Paradigmenwandels | 249 | ||
5.2.1 Die drei Vs – und der Wert | 249 | ||
5.2.2 Scale-up und Scale-out | 249 | ||
5.2.3 Unabhängige Verarbeitung direkt auf den Daten | 250 | ||
5.2.4 Schema on Read versus Schema on Write | 251 | ||
5.2.5 Hardwarevirtualisierung und Containermanagement | 251 | ||
5.2.6 Datenvirtualisierung | 252 | ||
5.2.7 Entkoppelte Systeme | 253 | ||
6 Technische Big-Data-Lösungen zur industriellen und kommerziellen Datenanalyse | 254 | ||
6.1 Datenmanagement im Big-Data-Umfeld | 254 | ||
6.1.1 Hadoop machte den Anfang | 254 | ||
6.1.2 Apache Spark – die nächste Evolutionsstufe | 257 | ||
6.1.3 Abstrahierte Datenverarbeitung und -speicherung | 258 | ||
6.1.4 Komplexe Eventverarbeitung mit Kafka & Co. | 262 | ||
6.1.5 Das beste beider Welten – von Lambda und Kappa | 263 | ||
6.1.6 Big-Data-Plattformen | 264 | ||
6.1.7 NoSQL-Datenbanken | 265 | ||
6.1.8 Anwendungsfälle für NoSQL-Datenbanken | 266 | ||
6.1.9 Technologiestacks | 267 | ||
6.2 Datenzentrische Architekturen | 268 | ||
6.2.1 AI-basierte Systeme brauchen IA-basierte Plattformen | 268 | ||
6.2.2 Die logische Architektur | 269 | ||
6.2.3 Die Softwarearchitektur | 269 | ||
6.2.4 Die technische Architektur | 269 | ||
6.3 Der Supervised Data Lake (SDL) | 270 | ||
6.3.1 Ein Data Lake braucht ein Konzept, damit der See nicht zum Sumpf wird | 270 | ||
6.3.2 Die unterschiedlichen Bereiche eines SDL | 272 | ||
6.3.3 Quellen und Ladearten | 272 | ||
6.3.4 Raw Zone | 273 | ||
6.3.5 Ingestion Zone | 273 | ||
6.3.6 Discovery und Sandbox | 273 | ||
6.3.7 Integration | 274 | ||
6.3.8 Serving | 275 | ||
6.3.9 Associated Processes | 275 | ||
6.3.10 Access und Application | 276 | ||
6.4 Aufbau eines Data Lakes | 276 | ||
6.4.1 Think Big – Start Small – Act Now | 276 | ||
6.4.2 Vision, Ziele und Standortbestimmung | 277 | ||
6.4.3 Konzeption des Data Lakes | 277 | ||
6.4.4 Implementierung der Basisumgebung | 278 | ||
6.4.5 Data Lake Ramp-up – Use Case Driven | 278 | ||
6.4.6 Industrialisierung – die betriebsfokussierte Datenfabrik | 279 | ||
6.5 Cloud-Computing und Services | 280 | ||
6.5.1 Die Cloud-Ausbaustufen – Everything as a Service | 281 | ||
6.5.2 Offene Ökosysteme | 282 | ||
6.5.3 Der Data Lake in der Cloud | 283 | ||
6.6 Big Data, Data Mining und Artificial Intelligence | 285 | ||
6.6.1 Analytic Data Hub | 286 | ||
6.6.2 Data-Science- und Data-Mining-Plattformen | 287 | ||
7 Die Anwendersicht – Systematik für industrielle Anwendungen | 296 | ||
7.1 Aufgabenstellung und Zielsetzung | 296 | ||
7.1.1 Datengetriebene Identifikation von Aufgabenstellungen | 296 | ||
7.1.2 „Produktgetriebene“ Identifikation | 297 | ||
7.1.3 Geschäftsorientierte Identifikation von Aufgabenstellungen | 297 | ||
7.1.3.1 Reduktion von Kosten, Verlusten, Verschwendungen | 300 | ||
7.1.3.2 Erhöhung operativer Performance | 301 | ||
7.1.3.3 Ergebnisverbesserung funktionaler Prozesse | 302 | ||
7.2 Vorgehensmethodik | 303 | ||
7.2.1 Workshop zur Ideenfindung und Datenanalyse | 306 | ||
7.2.1.1 Design-Thinking-Workshop | 306 | ||
7.2.1.2 Wertschöpfungsschritte | 307 | ||
7.2.1.3 Perspektiven | 308 | ||
7.2.1.4 Schmerzpunkte und Mehrwerte | 309 | ||
7.2.1.5 Erzeugen des Mehrwertes | 309 | ||
7.2.1.6 Geschäftsmodell | 311 | ||
7.2.1.7 Anwendungen und Lösungsansätze identifizieren | 313 | ||
7.2.2 Hackathons als alternative Möglichkeit der Lösungsfindung und Pilotierung | 314 | ||
7.2.3 Aufsetzen konkreter Aufgabenstellungen | 316 | ||
7.2.3.1 Definition der Aufgabenstellung | 316 | ||
7.2.3.2 Modellauswahl | 317 | ||
7.2.3.3 Beauftragung von Dienstleistern | 318 | ||
7.2.4 Explorations- und Umsetzungsphase eines Use Case | 319 | ||
7.2.4.1 Sichtung der Daten | 319 | ||
7.2.4.2 Bestimmung der sensitiven Eingangsgrößen | 325 | ||
7.2.4.3 Modellierung und Ergebnisbewertung | 332 | ||
7.2.4.4 Die Königsklasse: Vektorielle Optimierung eines Use Case | 333 | ||
7.2.5 Auswertung und Detailkonzept, Applikationserstellung und Implementierung | 338 | ||
8 Die Anwendersicht – typische Anwendungsfelder am konkreten Beispiel | 344 | ||
8.1 Anwendungen in den Geschäftsfunktionen | 347 | ||
8.1.1 Forschung und Entwicklung | 347 | ||
8.1.2 Engineering | 350 | ||
8.1.3 Produktmanagement | 351 | ||
8.1.4 Einkauf, Supply Chain Management, Logistik | 353 | ||
8.1.5 Fertigung und Produktion | 355 | ||
8.1.6 Qualitätsmanagement | 357 | ||
8.1.7 Service und Instandhaltung | 359 | ||
8.1.8 Service und After Market | 361 | ||
8.1.9 Marketing und Vertrieb | 364 | ||
8.2 Ausgewählte Data-Mining- und Big-Data-Beispiele | 367 | ||
8.2.1 Forschung, Entwicklung und Engineering | 368 | ||
8.2.1.1 Beschleunigung einer Produktentwicklung | 368 | ||
8.2.2 Einkauf | 375 | ||
8.2.2.1 Spend Cube | 377 | ||
8.2.2.2 Bündelung | 380 | ||
8.2.2.3 Spezifikations- und Kostenhebel | 383 | ||
8.2.3 Produktion, Fertigung und Service | 387 | ||
8.2.3.1 Störungsanalysen | 387 | ||
8.2.3.2 Instabilitätsanalysen in einem Klärwerk | 389 | ||
8.2.3.3 Fehlerdetektion in einem Kraftwerk | 398 | ||
8.2.3.4 Analyse der Dynamik von chemischen Batchprozessen | 407 | ||
8.2.4 Instandhaltung und Service | 411 | ||
8.2.4.1 Aufbau einer Datenbasis für erweiterte Analysen und Monitoring von Industrieanlagen | 411 | ||
8.2.4.2 Erweiterung eines digitalen Zwillings um Maschinendaten und Strompreisdaten im Bereich Windenergie | 413 | ||
8.2.5 Marketing und Vertrieb | 415 | ||
8.2.5.1 Cross-Selling-Effekte mit Data Mining finden | 415 | ||
8.2.5.2 Cross-Selling-Analysen mit Big-Data-Technologien beschleunigen | 422 | ||
8.2.5.3 Optimale Preisschwellen mit Data Mining aufspüren | 424 | ||
8.2.6 Data Mining für die strategische Unternehmensführung | 429 | ||
9 Small Data gehört die Zukunft | 438 | ||
9.1 Einführung in die Thematik | 438 | ||
9.2 Charakteristik von Small Data | 440 | ||
9.3 Machine Learning versus menschlicher Geist – die Mind-Data-Hypothese | 445 | ||
9.4 Bewusstsein als übergeordnete Ordnungsstruktur neuronaler Systeme | 448 | ||
9.5 Mind-Data-Auswertungen mit maschinellem Bewusstsein | 459 | ||
10 Ausblick und mögliche Weiterentwicklungen von Data Mining und Big Data | 468 | ||
11 Liste der häufig verwendeten Formelzeichen und Symbole | 474 | ||
12 Literaturverzeichnis | 478 | ||
13 Autoren | 488 | ||
Index | 490 |