Wie man einen Datensatz für die visuelle Qualitätskontrolle mit KI erstellt (Teil 2)

deevio
18. Jan. 2022
6 Min. Lesezeit

Der Labelling Prozess

Beziehen Sie einen erfahrenen Mitarbeiter aus der Qualitätskontrolle in den Labelling Prozess ein

Stellen Sie sicher, dass die Aufgabe von einem Menschen eindeutig gelöst werden kann

Erstellen und führen Sie einen Defektkatalog

Stellen Sie sicher, dass die Labels der verschiedenen Labeller miteinander übereinstimmen

Stellen Sie sicher, dass alle wichtigen Fälle gut vertreten sind

Einmalige Erfassung von Daten für einen Proof-of-Concept, aber weitere Kennzeichnung einiger Daten in der Produktion

Wenn Sie einen Hold-Out-Datensatz zum Test erstellen möchten, halten Sie ihn mit den übrigen Daten konsistent

Vermeiden Sie systematische Fehler

Vermeiden Sie Duplikate

Vergewissern Sie sich, dass die Daten sauber sind, bevor Sie weitere Daten aufnehmen

Seien Sie bereit, an der Verbesserung Ihres Datensatzes zu arbeiten, während Sie mit unseren Data Scientists in Kontakt bleiben

Der Labelling Prozess

Beziehen Sie einen erfahrenen Mitarbeiter aus der Qualitätskontrolle in den Labelling Prozess ein

Wir haben mehrere Fälle erlebt, in denen die Qualitätsexperten einer Produktionslinie nicht am Labelling Prozess beteiligt waren. Stattdessen wurde diese Aufgabe oft an weniger erfahrene Mitarbeiter, z. B. Werkstudenten, delegiert. Die Labeller befolgten aufgrund mangelnder Schulung oft falsche Labelling Regeln, und das Modell lernte diese falschen Regeln aus den Daten.

Eine ungeschulte Person war beispielsweise nicht in der Lage, zwischen "noch OK" und "bereits NOK" so genau zu unterscheiden wie berufserfahrene Mitarbeiter und neigte dazu, jeden Grenzfall als Mangel zu kennzeichnen. Infolgedessen wiederholte das auf diesen Daten trainierte Modell denselben Fehler genau so.

Wir empfehlen daher dringend, erfahrene Sichtprüfer aus der Qualitätskontrolle oder der Produktion in den Labelling Prozess einzubeziehen.

Stellen Sie sicher, dass die Aufgabe von einem Menschen eindeutig gelöst werden kann

Kann eine erfahrene Person das Vorhandensein oder Nichtvorhandensein eines Defekts, seine Art und seinen Ort eindeutig erkennen, wenn sie nur die aufgenommenen Bilder betrachtet? Wenn dies der Fall ist, können wir die Erkennung mit unserer Deep-Learning-Software automatisieren.

Wenn dies nicht der Fall ist, ist es sehr wahrscheinlich, dass die Deep-Learning-Software dies auch nicht kann. Wenn es für einen Menschen schwer oder unmöglich ist, eine Entscheidung zu treffen (selbst wenn er eine Entscheidung treffen kann, aber nicht nur auf das Bild, sondern zusätzlich auf das Teil selbst schaut), bedeutet dies, dass die Daten mehrdeutig sind. Die Gründe für die Mehrdeutigkeit können von einer geringen Bildauflösung bis hin zur Ungewissheit bei den Kriterien, was ein Defekt ist, reichen.

Das Trainieren eines Modells auf solchen Daten schadet der Gesamtleistung, und es gibt keine zuverlässige Möglichkeit, die Leistung des Modells zu bewerten, ohne zu wissen, wie die korrekte Bezeichnung lauten sollte.

Erstellen und führen Sie einen Defektkatalog

Eine gute Möglichkeit, Sicherheit bei den Ausschlusskriterien zu erlangen, besteht darin, alle Fehlerarten in schriftlicher Form zusammen mit Beispielbildern für jede Fehlerart in einem Defektkatalog zusammenzustellen.

Der Defektkatalog muss regelmäßig aktualisiert werden, wenn neue Fehler- oder neue Produkttypen eingeführt werden oder wenn ein unsicherer Fall entdeckt wird.

Ein solches Dokument macht auch den Wissenstransfer schneller und zuverlässiger und ermöglicht es Ihnen, bei Bedarf mehr Labeller einzubeziehen.

Stellen Sie sicher, dass die Labels der verschiedenen Labeller miteinander übereinstimmen

In Fällen, in denen mehr als eine Person an dem Labeling Prozess der Daten beteiligt ist, ist es wichtig, dass sie genau die gleichen Regeln anwenden.

Ein praktischer Weg, dies zu gewährleisten, besteht darin, jeden Labeller zu bitten, unabhängig voneinander eine kleine Stichprobe der Daten zu labeln und dann etwaige Diskrepanzen zwischen ihren Labels zu vergleichen. Wenn solche Diskrepanzen bestehen, ist es sehr wichtig, einen Konsens zu erzielen, diesen durch unabhängige Labels einer weiteren Probe zu überprüfen, den Fehlerkatalog zu aktualisieren und die Daten entsprechend neu zu kennzeichnen.

Selbst wenn eine einzelne Person den gesamten Datensatz gelabelt hat, ist es eine gute Idee, eine weitere Person auf die oben beschriebene Weise um eine Überprüfung zu bitten, da dies dazu beiträgt, zu überprüfen, ob die Labelling Regeln erklärbar und eindeutig sind.

Stellen Sie sicher, dass alle wichtigen Fälle gut vertreten sind

Wenn die Daten trotz der begrenzten Menge immer noch in mehrere Kategorien fallen, sollten diese gleichmäßig vertreten sein. Andernfalls wird das Modell bei unterrepräsentierten Fällen wahrscheinlich eine geringe Genauigkeit aufweisen.

Die häufigste Ursache für eine Unterrepräsentation ist, dass in der Regel nur ein kleiner Teil der Produkte fehlerhaft ist. Bei der Erstellung eines Datensatzes ist es aber sinnvoll, das Verhältnis nahe bei 1:1 zu halten.

Andere Kategorien, die gleichmäßig vertreten sein sollten, sind:

verschiedene Produkttypen
unterschiedliche Fehlerarten
unterschiedliche Kameraperspektiven, z. B. Oberseite eines Produkts vs. Unterseite eines Produkts

Einmalige Erfassung von Daten für einen Proof-of-Concept, aber weitere Kennzeichnung einiger Daten in der Produktion

Daten aus der realen Welt ändern sich in der Regel im Laufe der Zeit, was oft zu einer Verschlechterung der Modellgenauigkeit führt.

Data Drift bezieht sich auf Änderungen in den Eingabedaten, z. B. Änderungen in der Beleuchtung.
Concept Drift dagegen bezieht sich auf Änderungen in der Beziehung zwischen Eingabedaten und Ziel, z. B. die Anforderungen wurden strenger und die Produkte mit winzigen Kratzern, die früher als gut galten, werden jetzt als fehlerhaft angesehen.

Dieses Problem kann erkannt werden, indem regelmäßig eine kleine Menge von Daten gelabelt wird, während das System in Produktion ist, um seine Genauigkeit zu überwachen und das Modell gegebenenfalls neu zu trainieren. Wenn ein Datensatz für ein Proof-of-Concept-System nicht an einem Tag erfasst wird, sollten verschiedene Daten von den verschiedenen Tagen gleichmäßig vertreten sein.

Wenn Sie einen Hold-Out-Datensatz zum Test erstellen möchten, halten Sie ihn mit den übrigen Daten konsistent

Hold-out-Datensätze enthalten Bilder von Produkten, die von einem Modell während des Trainings nicht gesehen wurden, und können zur Einschätzung der Modellgenauigkeit bei zukünftigen Produktionsdaten verwendet werden.

Wenn ein Kunde einen einzigen Datensatz zur Verfügung stellt, kann dieser von uns in einen Trainings- und einen Hold-out-Teil aufgeteilt werden.

Wenn ein Kunde in der Lage ist, einen eigenen Hold-out-Datensatz zu erstellen, muss dieser den Trainingsdaten ähnlich sein, d. h. dass er dasselbe Erfassungsdatum, dieselben Produkte, dieselben Fehlerarten usw. aufweist. Andernfalls wird die Modellgenauigkeit erheblich unter-oder überschätzt.

Vermeiden Sie systematische Fehler

Ein Modell kann verzerrt werden, d. h. es lernt falsche Annahmen über die Daten, wenn es einen systematischen Unterschied zwischen irrelevanten Eigenschaften der Bilder von fehlerhaften und guten Produkten gibt.

Wenn zum Beispiel ein Kunde mit einem roten Marker Kreise um Defekte zeichnet, wird ein Modell wahrscheinlich lernen, nach roten Kreisen statt nach tatsächlichen Defekten zu suchen. Wenn der Hold-out-Datensatz dieselbe Verzerrung aufweist, wird das Problem möglicherweise erst beim Testen mit Produktionsdaten aufgedeckt. Der Kunde könnte dies vermeiden, indem er die Defekte nicht auf echten Teilen, sondern auf Kopien seiner Fotos einkreist, oder noch besser, indem er eine spezielle Labelling Software und keinen allgemeinen grafischen Editor verwendet.

Das Beispiel mit der roten Markierung scheint offensichtlich zu sein, aber es könnte noch subtilere, irrelevante Unterschiede in Bildern von fehlerhaften und guten Produkten geben. Zum Beispiel könnte einer der beiden Produkttypen eine viel höhere Fehlerquote aufweisen, oder es könnten unterschiedliche Lichtverhältnisse bei der Aufnahme von Bildern von fehlerhaften und guten Produkten herrschen. Insbesondere bei einem kleinen Datensatz ist es daher sinnvoll, Bilder von defekten und guten Teilen gleichzeitig und in gemischter Reihenfolge aufzunehmen. Versuchen Sie, alles außer dem Vorhandensein oder Nichtvorhanden sein von Mängeln identisch zu halten.

Qualitätskontrolle — Eine Verzerrung würde entstehen, wenn Bilder mit eingekreisten Defekten in das Training einbezogen würden.

Vermeiden Sie Duplikate

Es darf keine doppelten Bilder geben, da sie sowohl im Trainings- als auch im Hold-out-Teil eines Datensatzes auftauchen und so zu einer Überschätzung der Modellgenauigkeit in der Produktion führen könnten.

Ein fast unmerkliches Problem, das schwieriger zu erkennen ist, sind wiederholte Fotos eines einzigen Produkts im Datensatz. Sie können ebenfalls zu einer Überschätzung der Modellgenauigkeit führen.

Um das zweite Problem zu vermeiden, empfiehlt es sich, eindeutige Produktkennungen in die Dateinamen der Fotos aufzunehmen, insbesondere wenn es mehrere Fotos pro Produkt gibt. Es empfiehlt sich auch, aussagekräftige Attribute wie Produkttypen, Kameraperspektiven usw. entweder in den Datei- oder Ordnernamen oder in einer zugehörigen Tabelle anzugeben.

Vergewissern Sie sich, dass die Daten sauber sind, bevor Sie weitere Daten aufnehmen

Die Modellgenauigkeit nimmt in der Regel mit der Datenmenge zu. Wenn eine sehr hohe Genauigkeit gewünscht wird, muss die Datenmenge entsprechend groß sein.

Bevor jedoch mehr Daten erfasst werden, ist es sinnvoll, sich zu vergewissern, dass die vorhandenen Daten bereits genau und konsistent sind, da sich bestehende Probleme in der Zukunft wahrscheinlich wiederholen werden, was die Bemühungen um eine Vergrößerung des Datensatzes weniger effizient macht.

Auch wenn die Datenmenge begrenzt ist, lässt sich das Verhältnis zwischen der Datenmenge und der Modellgenauigkeit abschätzen und vorhersagen, ob das Hinzufügen weiterer Daten die Genauigkeit eines Modells deutlich erhöht oder ob der Sättigungspunkt bereits erreicht ist.

Seien Sie bereit, an der Verbesserung Ihres Datensatzes zu arbeiten, während Sie mit unseren Data Scientists in Kontakt bleiben

Wie Sie sehen, gibt es viele potenzielle Probleme bei der Erfassung und Kennzeichnung von Datensätzen für die visuelle Inspektion, und jedes dieser Probleme kann die Einschätzungen der Modellgenauigkeit unzuverlässig machen. Viele dieser Probleme können nur von einem Kunden oder mit seiner Hilfe gelöst werden, da die Regeln zur Unterscheidung zwischen fehlerhaften und guten Produkten oft bereichs- und kundenspezifisch sind.

Obwohl wir versucht haben, diesen Beitrag so umfassend wie möglich zu gestalten, ist es unmöglich, alle Möglichkeiten abzudecken. Bitte bleiben Sie während der gesamten Laufzeit eines Projekts mit unseren Data Scientists in Kontakt, und zwar schon vor der Datenerfassung, dass wir Sie unterstützen und gemeinsam eine Lösung finden können.

Stellen Sie im Voraus Mitarbeiter und Ressourcen bereit, um Ihren Datensatz neu zu erfassen, neu zu labeln oder zu erweitern, damit Sie Ihr Geschäftsziel mit Hilfe eines automatisierten Inspektionssystems erreichen können.

Wie man einen Datensatz für die visuelle Qualitätskontrolle mit KI erstellt (Teil 2)

Der Labelling Prozess

Aktuelle Beiträge

Comments