Mit durchdachtem Feature-Engineering steht und fällt ein jeder KI-Anwendungsfall. Logisch, da eine KI-Software nur so gut arbeiten kann wie die Daten, auf der Sie trainiert wurde. In meiner Bachelorarbeit habe ich mich bereits damit verfasst, wie man die essenziellen (Wissens-)Features als Rohdaten einsammelt und in Trainingsdaten überträgt.
Feature-Engineering bezeichnet dabei eben diese Extrahierung von relevanten Fakten aus den Rohdaten.
Die Ziele des Feature-Engineering sind dabei sehr projektspezifisch, einige Empfehlungen gibt es allerdings trotzdem:
1. Der Datensatz soll so gut es geht den Anwendungsfall widerspiegeln:
Es nutzt nichts, wenn der Datensatz das gesamte Wissen der Belegschaft enthält, jedoch in seiner Anwendung nur einen Bruchteil davon sicher benötigt.
Meine Faustregel zur Vorgehensweise bei der Datensatzerstellung ist deshalb:
„Nicht die Daten, die man hat, sondern die Daten, die man braucht, fließen in den Datensatz!“
Mit diesem Vorgehen vermeidet man ein unnötig komplett trainiertes Netz, was wiederum längere Einschätzzeiten sowie unsichere Ergebnisse zur Folge hätte.
2. Verschiedene Mitarbeiter machen die Mischung
Ein Datensatz ist immer ein Spiegel der Mitarbeiter – es ist daher nicht ratsam nur den vermeintlich erfahrensten Mitarbeiter den Datensatz erstellen zu lassen, sondern eine gewisse Varianz an Mitarbeitern bei der Erstellung hinzuzuziehen. So werden etwaige Unsicherheiten bei Einschätzungen (z.B. subjektive iO/niO Merkmale) besprochen und nicht hierarchisch festgelegt.
Ein weiterer Vorteil ist, dass die Mitarbeiter nach der Einführung der KI-Anwendung sich sicher sein können, dass auch Ihr Wissen verwendet wird. Dadurch fühlen sie sich wertgeschätzt und das Thema „KI“ wird für den Laien begreifbarer. Wenn Sie zusätzlich dazu ihre Mitarbeiter zum Thema KI schulen möchten, sprechen Sie uns an, wir sind Ihnen hierbei sehr gerne behilflich und unterstützen Sie via Videocall oder vor Ort mit individuell auf Ihr Unternehmen zugeschnittenen Schulungen rund ums Thema KI und Automatisierung.
3. Vorhandene Daten bestmöglich nutzen
Die Punkte 2&3 beziehen sich vorwiegend auf das Erstellen eines neuen Datensatzes mit einem (teilweise) manuellen Labelingprozess. Selbstverständlich gibt es aber auch KI-Projekte, die auf bereits gelabelten Datensätzen basieren. Diese müssen dann auf den neuen Anwendungsfall mindestens genauso penibel geprüft und validiert werden wie komplett von neu auf erstellte Datensätze. Das bedeutet, dass die Arbeit der Erstellung zwar (fast) wegfällt, die der Validierung allerdings nicht.
Eine Variante dazu ist es, bereits vorhandene Datensätze abzuändern und zu ergänzen. Auch hier müssen alle genannten Punkte berücksichtigt werden.
Insofern wünsche ich Ihnen viel Spaß bei der Umsetzung, wir helfen natürlich jederzeit gerne und maßgeschneidert auf Ihr Problem! Aber bleiben Sie cool: Feature-Engineering ist für Sie jetzt keine Magie mehr, solange Sie sich an den drei einfachen Leitregeln von mir festhalten.