Dieses Modell ist ein benutzerdefiniertes Convolutional Neural Network (CNN), das mit PyTorch von Grund auf neu auf einem beschrifteten Datensatz von Obst- und Gemüsebilern trainiert wurde. Es kann Bilder in 35 Kategorien einteilen, die gängige Früchte, Gemüse und Wurzelkulturen umfassen.
Architektur
Das Netzwerk verwendet ein BiggerVGG-Design – vier gestapelte Faltungsblöcke (jeder mit zwei Conv2d+ReLU-Schichten gefolgt von MaxPool2d), abgeschlossen von einem vollständig verbundenen Klassifikator. Die Eingabebilder werden auf 224×224 Pixel skaliert und auf [0, 1] normalisiert, bevor sie in das Netzwerk eingespeist werden.
Training
Das Modell wurde mit dem Adam-Optimierer mit einer Lernrate von 0,001 und Cross-Entropy-Verlust trainiert. TrivialAugmentWide-Augmentierung wurde während des Trainings angewendet, um die Generalisierung zu verbessern. Das Modell erzielte eine Genauigkeit von 84 % auf dem ausgelagerten Testsplit.
Einschränkungen
Der Trainingssatz ist relativ klein – etwa 70 Bilder pro Kategorie – daher kann die Leistung bei ungewöhnlichen oder mehrdeutigen Exemplaren geringer sein als bei einem großmaßstäblichen Modell. Der Quell-Datensatz wurde auch nicht intensiv bereinigt: Er enthält für einige Kategorien Cartoon- und Illustrationsbilder, die das Modell verwirren können, wenn diese Trainingsbeispiele mit echten Fotos in Konflikt stehen. Das Modell ist auf seine 35 Kategorien beschränkt: Jedes Eingabebild wird immer einer davon zugeordnet, unabhängig davon, ob das Motiv tatsächlich dazugehört. Die Konfidenzwerte sind rohe Softmax-Ausgaben und können überoptimistisch sein – ein niedriger Top-1-Wert ist ein Hinweis darauf, dass die Eingabe möglicherweise außerhalb der bekannten Kategorien des Modells liegt.