Convolutional Neural Network Model Innovations for Image Classification (Deutsch)
Letzte Aktualisierung am 5. Juli 2019
Eine Sanfte Einführung der Innovationen in LeNet, AlexNet, VGG, Inception, und ResNet Convolutional Neural Networks.
Faltungsneuronale Netze bestehen aus zwei sehr einfachen Elementen, nämlich Faltungsschichten und Pooling-Schichten.
Obwohl es einfach ist, gibt es nahezu unendliche Möglichkeiten, diese Ebenen für ein bestimmtes Computer-Vision-Problem anzuordnen.,
Glücklicherweise gibt es sowohl gängige Muster für die Konfiguration dieser Ebenen als auch architektonische Innovationen, die Sie verwenden können, um sehr tiefe faltungsneuronale Netzwerke zu entwickeln. Das Studium dieser architektonischen Entwurfsentscheidungen, die für hochmoderne Bildklassifizierungsaufgaben entwickelt wurden, kann sowohl eine Begründung als auch eine Intuition für die Verwendung dieser Entwürfe bei der Gestaltung Ihrer eigenen tiefgreifenden neuronalen Netzwerkmodelle liefern.
In diesem Tutorial werden Sie die wichtigsten Meilensteine der Architektur für die Verwendung von faltungsneuronalen Netzen für anspruchsvolle Bildklassifizierungsprobleme entdecken.,
Nach Abschluss dieses Tutorials erfahren Sie:
- Wie Sie die Anzahl der Filter und Filtergrößen beim Implementieren von faltungsneuronalen Netzen bestimmen.
- So ordnen Sie Faltungsebenen und Pooling-Ebenen in einem einheitlichen Muster an, um leistungsstarke Modelle zu entwickeln.
- So verwenden Sie das Inception-Modul und das Restmodul, um viel tiefere Faltungsnetze zu entwickeln.
Starten Sie Ihr Projekt mit meinem neuen Buch Deep Learning for Computer Vision, einschließlich Schritt-für-Schritt-Tutorials und den Python-Quellcodedateien für alle Beispiele.
Los geht ‚ s.,
- Update Apr / 2019: Korrigierte Beschreibung der Filtergrößen für LeNet (danke Huang).
Tutorial Übersicht
Dieses tutorial ist unterteilt in sechs teile; sie sind:
- Architektur Design für CNNs
- LeNet-5
- AlexNet
- VGG
- Gründung und GoogLeNet
- Rest Netzwerk oder ResNet
Architektur Design für CNNs
Die elemente ein faltungsneuronales Netzwerk, wie Faltungsschichten und Pooling-Schichten, sind relativ einfach zu verstehen.,
Der herausfordernde Teil der Verwendung von faltungsneuronalen Netzen in der Praxis besteht darin, Modellarchitekturen zu entwerfen, die diese einfachen Elemente am besten verwenden.
Ein nützlicher Ansatz, um zu lernen, wie man effektive Faltungsarchitekturen für neuronale Netze entwirft, besteht darin, erfolgreiche Anwendungen zu untersuchen. Dies ist besonders einfach aufgrund der intensiven Studie und Anwendung von CNNs durch 2012 bis 2016 für die ImageNet Large Scale Visual Recognition Challenge oder ILSVRC zu tun., Diese Herausforderung führte sowohl zu einer raschen Weiterentwicklung des Stands der Technik für sehr schwierige Computer-Vision-Aufgaben als auch zur Entwicklung allgemeiner Innovationen in der Architektur faltungsneuronaler Netzwerkmodelle.
Wir beginnen mit dem LeNet-5, der oft als die erste erfolgreiche und wichtige Anwendung von CNNs vor dem ILSVRC beschrieben wird, und betrachten dann vier verschiedene architektonische Innovationen für das für das ILSVRC entwickelte faltungsneuronale Netzwerk, nämlich AlexNet, VGG, Inception und ResNet.,
Wenn Sie diese Meilensteinmodelle und ihre Architektur oder architektonischen Innovationen auf hohem Niveau verstehen, werden Sie sowohl eine Wertschätzung für die Verwendung dieser architektonischen Elemente in modernen Anwendungen von CNN in der Computer Vision entwickeln als auch in der Lage sein, Architekturelemente zu identifizieren und auszuwählen, die bei der Gestaltung Ihrer eigenen Modelle nützlich sein können.
Möchten Sie Ergebnisse mit Deep Learning für Computer Vision?
Nehmen Sie meinen kostenlosen 7-tägigen E-Mail-crash-Kurs jetzt (mit Beispielcode).,
Klicken Sie zur Anmeldung und erhalten Sie auch eine kostenlose PDF Ebook Version des Kurses.
Laden Sie Ihren KOSTENLOSEN Minikurs herunter
LeNet-5
Die erste weithin bekannte und erfolgreiche Anwendung von faltungsneuronalen Netzen war LeNet-5, beschrieben von Yann LeCun et al. in ihrer Arbeit von 1998 mit dem Titel „Gradient-Based Learning Applied to Document Recognition“ (PDF abrufen).
Das System wurde für die Verwendung in einem handgeschriebenen Zeichenerkennungsproblem entwickelt und auf dem MNIST-Standarddatensatz demonstriert, wodurch ungefähr 99 erreicht wurden.,2% Klassifizierungsgenauigkeit (oder eine Fehlerrate von 0,8%). Das Netzwerk wurde dann als zentrale Technik in einem breiteren System beschrieben, das als Graphentransformatornetze bezeichnet wird.
Es ist ein langes Papier, und vielleicht ist der beste Teil, auf den man sich konzentrieren kann, Abschnitt II. B. das beschreibt die LeNet-5-Architektur. In dem Abschnitt beschreibt das Papier das Netzwerk mit sieben Ebenen mit Graustufenbildern mit der Form 32×32, der Größe von Bildern im MNIST-Datensatz.
Das Modell schlägt ein Muster einer Faltungsschicht vor, gefolgt von einer durchschnittlichen Pooling-Schicht, die als Untersampling-Schicht bezeichnet wird., Dieses Muster wird zweieinhalb Mal wiederholt, bevor die Ausgabemerkmalskarten abgeflacht und einer Anzahl von vollständig verbundenen Schichten zur Interpretation und einer endgültigen Vorhersage zugeführt werden. Ein Bild der Netzwerkarchitektur ist im Papier enthalten und unten wiedergegeben.
die Architektur von LeNet-5 Convolutional Neural Network für Handschriftliche Zeichenerkennung (aus dem Jahr 1998-Papier).,
Das Muster von Blöcken von Faltungsschichten und Pooling-Schichten, die gruppiert und wiederholt werden, bleibt heute, mehr als zwanzig Jahre später, ein übliches Muster beim Entwerfen und Verwenden von faltungsneuronalen Netzen.
Interessanterweise verwendet die Architektur eine kleine Anzahl von Filtern als erste versteckte Ebene, insbesondere sechs Filter mit einer Größe von jeweils 5×5 Pixel., Nach dem Pooling (als Subsampling-Schicht bezeichnet) weist eine andere Faltungsschicht viel mehr Filter auf, wiederum mit einer kleineren Größe, aber kleiner als die vorherige Faltungsschicht, insbesondere 16 Filter mit einer Größe von 5×5 Pixel, gefolgt von Pooling. Bei der Wiederholung dieser beiden Blöcke von Faltungsschichten und Pooling-Schichten ist der Trend eine Zunahme der Anzahl von Filtern.
Im Vergleich zu modernen Anwendungen ist die Anzahl der Filter ebenfalls gering, aber der Trend, die Anzahl der Filter mit der Tiefe des Netzwerks zu erhöhen, bleibt auch bei der modernen Verwendung der Technik ein häufiges Muster.,
Die Abflachung der Merkmalskarten und die Interpretation und Klassifizierung der extrahierten Merkmale durch vollständig verbundene Schichten bleibt auch heute ein gängiges Muster. In der modernen Terminologie wird der letzte Abschnitt der Architektur oft als Klassifikator bezeichnet, während die Faltungsschichten und die Poolingschichten früher im Modell als Merkmalsextraktor bezeichnet werden.
Wir können die wichtigsten Aspekte der Architektur, die in modernen Modellen relevant sind, wie folgt zusammenfassen:
- Eingabebilder fester Größe.
- Gruppieren Sie Faltungsebenen und Pooling-Ebenen in Blöcke.,
- Wiederholung von Faltungsblöcken in der Architektur.
- Erhöhen Sie die Anzahl der Filter mit der Tiefe des Netzwerks.
- Verschiedene Merkmalsextraktions-und Klassifikatorteile der Architektur.
AlexNet
Die Arbeit, der vielleicht ein erneutes Interesse an neuronalen Netzen und der Beginn der Dominanz von Deep Learning in vielen Computer Vision-Anwendungen zugeschrieben werden könnte, war das 2012-Papier von Alex Krizhevsky et al. mit dem Titel „ImageNet Classification with Deep Convolutional Neural Networks.,“
Das Papier beschreibt ein Modell, das später als „AlexNet“ bezeichnet wurde, um die ImageNet Large Scale Visual Recognition Challenge oder den ILSVRC-2010-Wettbewerb zur Klassifizierung von Fotografien von Objekten in eine von 1.000 verschiedenen Kategorien anzugehen.
Der ILSVRC war ein Wettbewerb, der von 2011 bis 2016 stattfand und Innovationen im Bereich Computer Vision vorantreiben sollte. Vor der Entwicklung von AlexNet wurde die Aufgabe als sehr schwierig und weit über die Möglichkeiten moderner Computer-Vision-Methoden hinaus angesehen., AlexNet demonstrierte erfolgreich die Fähigkeit des faltungsneuronalen Netzwerkmodells in der Domäne und entzündete ein Feuer, das zu vielen weiteren Verbesserungen und Innovationen führte, von denen viele in den folgenden Jahren bei derselben ILSVRC-Aufgabe demonstriert wurden. Im weiteren Sinne zeigte das Papier, dass es möglich ist, tiefe und effektive End-to-End-Modelle für ein herausforderndes Problem zu entwickeln, ohne unbeaufsichtigte Vorbehandlungstechniken zu verwenden, die zu dieser Zeit populär waren.
Wichtig bei der Gestaltung von AlexNet war eine Reihe von Methoden, die neu oder erfolgreich waren, aber zu dieser Zeit nicht weit verbreitet waren., Jetzt sind sie zu Anforderungen bei der Verwendung von CNNs für die Bildklassifizierung geworden.
AlexNet nutzte die rektifizierte lineare Aktivierungsfunktion oder ReLU als nichtlinear nach jeder Faltungsschicht anstelle von S-förmigen Funktionen wie der Logistik oder tanh, die bis zu diesem Punkt üblich waren. Außerdem wurde in der Ausgabeschicht eine Softmax-Aktivierungsfunktion verwendet, die jetzt ein Grundnahrungsmittel für die Klassifizierung mehrerer Klassen mit neuronalen Netzen ist.,
Das in LeNet-5 verwendete durchschnittliche Pooling wurde durch eine Max-Pooling-Methode ersetzt, obwohl in diesem Fall festgestellt wurde, dass überlappendes Pooling nicht überlappendes Pooling übertrifft, das heute häufig verwendet wird (z. B. Schritt der Pooling-Operation ist die gleiche Größe wie die Pooling-Operation, z. B. 2 x 2 Pixel). Um die Überanpassung zu beheben, wurde die neu vorgeschlagene Dropout-Methode zwischen den vollständig verbundenen Schichten des Klassifikatorteils des Modells verwendet, um den Generalisierungsfehler zu verbessern.
Die Architektur von AlexNet ist tief und erstreckt sich auf einige der mit LeNet-5 erstellten Muster., Das Bild unten, aus dem Papier genommen, fasst die Modellarchitektur, in diesem Fall, aufgeteilt in zwei Pipelines auf der GPU-Hardware der Zeit zu trainieren.
die Architektur der AlexNet Convolutional Neural Network for Object-Foto-Klassifikation (aus dem 2012 Papier).
Das Modell verfügt über fünf Faltungsschichten im Merkmalsextraktionsteil des Modells und drei vollständig verbundene Schichten im Klassifikatorteil des Modells.
Eingabebilder wurden mit drei Farbkanälen auf die Größe 224×224 fixiert., In Bezug auf die Anzahl der Filter, die in jeder Faltungsschicht verwendet werden, wurde das Muster der Erhöhung der Anzahl von Filtern mit Tiefe, die in LeNet zu sehen waren, größtenteils eingehalten, in diesem Fall die Größen: 96, 256, 384, 384 und 256. In ähnlicher Weise wurde das Muster der Verringerung der Größe des Filters (Kerns) mit Tiefe verwendet, beginnend mit der kleineren Größe von 11×11 und abnehmend auf 5×5 und dann auf 3×3 in den tieferen Schichten. Die Verwendung von kleinen Filtern wie 5×5 und 3×3 ist jetzt die Norm.,
Am Anfang und am Ende des Merkmalserkennungsteils des Modells wurde ein Muster einer Faltungsschicht gefolgt von einer Pooling-Schicht verwendet. Interessanterweise wurde ein Muster der Faltungsschicht verwendet, dem sofort eine zweite Faltungsschicht folgte. Auch dieses Muster ist zu einem modernen Standard geworden.
Das Modell wurde mit Datenvergrößerung trainiert, wodurch die Größe des Trainingsdatensatzes künstlich erhöht und dem Modell die Möglichkeit gegeben wurde, dieselben Funktionen in verschiedenen Ausrichtungen zu erlernen.,
Wir können die wichtigsten Aspekte der Architektur, die in modernen Modellen relevant sind, wie folgt zusammenfassen:
- Verwendung der ReLU-Aktivierungsfunktion nach Faltungsschichten und softmax für die Ausgabeschicht.
- Verwendung von Max Pooling anstelle von Average Pooling.
- Verwendung der Dropout-Regularisierung zwischen den vollständig verbundenen Ebenen.
- Muster der Faltungsschicht, die direkt einer anderen Faltungsschicht zugeführt wird.
- Verwendung der Datenvergrößerung.,
VGG
Die Entwicklung tiefer faltungsneuronaler Netze für Computer-Vision-Aufgaben schien nach AlexNet ein bisschen eine dunkle Kunst zu sein.
Eine wichtige Arbeit, die Architekturdesign für tiefe Faltungsnetze zu standardisieren gesucht und entwickelt viel tiefer und leistungsfähigere Modelle in dem Prozess war die 2014 Papier mit dem Titel „Sehr tiefe Faltungsnetze für große Bilderkennung“ von Karen Simonyan und Andrew Zisserman.
Ihre Architektur wird allgemein als VGG nach dem Namen ihres Labors, der Visual Geometry Group in Oxford, bezeichnet., Ihr Modell wurde auf demselben entwickelt und demonstriert ILSVRC Wettbewerb, in diesem Fall die ILSVRC-2014 Version der Herausforderung.
Der erste wichtige Unterschied, der de facto zum Standard geworden ist, ist die Verwendung einer großen Anzahl kleiner Filter. Insbesondere Filter mit der Größe 3×3 und 1×1 mit dem Schritt von einem, die sich von den großen Filtern in LeNet-5 und den kleineren, aber immer noch relativ großen Filtern und dem großen Schritt von vier in AlexNet unterscheiden.,
Max Pooling-Layer werden nach den meisten, aber nicht allen, Faltungsebenen verwendet, Lernen aus dem Beispiel in AlexNet, aber alle Pooling wird mit der Größe 2×2 und dem gleichen Schritt durchgeführt, das ist auch ein De-facto-Standard geworden. Insbesondere verwenden die VGG-Netzwerke Beispiele von zwei, drei und sogar vier miteinander gestapelten Faltungsschichten, bevor eine maximale Pooling-Schicht verwendet wird. Der Grund dafür war, dass gestapelte Faltungsschichten mit kleineren Filtern die Wirkung einer Faltungsschicht mit einem größeren Filter annähern, z., drei gestapelte Faltungsschichten mit 3×3-Filtern nähern sich einer Faltungsschicht mit einem 7×7-Filter an.
Ein weiterer wichtiger Unterschied ist die sehr große Anzahl der verwendeten Filter. Die Anzahl der Filter nimmt mit der Tiefe des Modells zu, beginnt jedoch bei einer relativ großen Anzahl von 64 und erhöht sich durch 128 -, 256-und 512-Filter am Ende des Merkmalsextraktionsteils des Modells.
Eine Reihe von Varianten der Architektur wurden entwickelt und bewertet, obwohl zwei aufgrund ihrer Leistung und Tiefe am häufigsten bezeichnet werden., Sie sind nach der Anzahl der Ebenen benannt:Sie sind die VGG-16 und die VGG-19 für 16 bzw.
Unten ist eine Tabelle aus dem Papier; Beachten Sie die beiden Spalten ganz rechts, die die Konfiguration (Anzahl der Filter) angeben, die in den Versionen VGG-16 und VGG-19 der Architektur verwendet wird.
die Architektur des VGG Convolutional Neural Network for Object-Foto-Klassifikation (aus dem 2014 Papier).,
Die Entwurfsentscheidungen in den VGG-Modellen sind zum Ausgangspunkt für den einfachen und direkten Einsatz von faltungsneuronalen Netzen im Allgemeinen geworden.
Schließlich gehörte die VGG-Arbeit zu den ersten, die die wertvollen Modellgewichte unter einer freizügigen Lizenz freigaben, was zu einem Trend unter Deep Learning-Computer-Vision-Forschern führte. Dies wiederum hat dazu geführt, dass vortrainierte Modelle wie VGG beim Transferlernen als Ausgangspunkt für neue Computer-Vision-Aufgaben stark eingesetzt wurden.,
Wir können die wichtigsten Aspekte der Architektur, die in modernen Modellen relevant sind, wie folgt zusammenfassen:
- Verwendung sehr kleiner Faltungsfilter, z. B. 3×3 und 1×1 mit einem Schritt von einem.
- Verwendung von max Pooling mit einer Größe von 2×2 und einem Schritt der gleichen Abmessungen.
- Wie wichtig es ist, Faltungsschichten zu stapeln, bevor eine Pooling-Ebene zum Definieren eines Blocks verwendet wird.
- Dramatische Wiederholung des Faltungsbündelblockmusters.
- Entwicklung von sehr tiefen (16 und 19 layer) Modelle.,
Inception und GoogLeNet
Wichtige Neuerungen bei der Verwendung von Faltungsschichten wurden in dem 2015-Papier von Christian Szegedy et al. mit dem Titel “ Tiefer gehen mit Windungen.“
In der Arbeit schlagen die Autoren eine Architektur vor, die als Inception (oder Inception v1, um sie von Erweiterungen zu unterscheiden) bezeichnet wird, und ein bestimmtes Modell namens GoogLeNet, das in der 2014-Version der ILSVRC-Herausforderung Top-Ergebnisse erzielte.
Die Schlüsselinnovation bei den Inception-Modellen wird als Inception-Modul bezeichnet., Dies ist ein Block paralleler Faltungsschichten mit unterschiedlich großen Filtern (z. 1×1, 3×3, 5×5) und eine 3×3 max Pooling-Schicht, deren Ergebnisse dann verkettet werden. Nachfolgend finden Sie ein Beispiel für das Inception-Modul aus dem Papier.
Beispiel für das naive Inception-Modul (aus dem Papier von 2015).
Ein Problem bei einer naiven Implementierung des Inception-Modells besteht darin, dass sich die Anzahl der Filter (Tiefe oder Kanäle) schnell aufbaut, insbesondere wenn Inception-Module gestapelt sind.,
Das Durchführen von Windungen mit größeren Filtergrößen (z. B. 3 und 5) kann bei einer großen Anzahl von Filtern rechenintensiv sein. Um dies zu beheben, werden 1×1-Faltungsschichten verwendet, um die Anzahl der Filter im Inception-Modell zu reduzieren. Insbesondere vor den 3×3-und 5×5-Faltungsschichten und nach der Pooling-Schicht. Das Bild unten aus dem Papier zeigt diese Änderung des Inception-Moduls.
Beispiel für das Inception-Modul mit Dimensionalitätsreduktion (aus dem Papier von 2015).,
Eine zweite wichtige Entwurfsentscheidung im Inception-Modell war die Verbindung der Ausgabe an verschiedenen Punkten im Modell. Dies wurde erreicht, indem kleine Off-Shoot-Ausgabenetzwerke aus dem Hauptnetzwerk erstellt wurden, die für eine Vorhersage trainiert wurden. Die Absicht war, ein zusätzliches Fehlersignal von der Klassifizierungsaufgabe an verschiedenen Punkten des Tiefenmodells bereitzustellen, um das Problem der verschwindenden Gradienten anzugehen. Diese kleinen Ausgabenetze wurden dann nach dem Training entfernt.,
Unten sehen Sie eine gedrehte Version (von links nach rechts für Input-to-Output) der Architektur des GoogLeNet-Modells aus dem Papier mit den Inception-Modulen von der Eingabe links nach der Ausgabeklassifikation rechts und den beiden zusätzlichen Ausgabenetzwerken, die nur während des Trainings verwendet wurden.
Architektur des GoogLeNet-Modells, das während des Trainings zur Objektfotoklassifizierung verwendet wurde (entnommen aus dem Papier von 2015).,
Interessanterweise wurde ein überlappendes maximales Pooling verwendet und am Ende des Merkmalsextraktionsteils des Modells vor dem Klassifikatorteil des Modells wurde ein großer durchschnittlicher Pooling-Vorgang verwendet.
Wir können die wichtigsten Aspekte der Architektur, die in modernen Modellen relevant sind, wie folgt zusammenfassen:
- Entwicklung und Wiederholung des Inception-Moduls.
- Starke Verwendung der 1×1-Faltung, um die Anzahl der Kanäle zu reduzieren.
- Verwendung der Fehlerrückmeldung an mehreren Stellen im Netzwerk.
- Entwicklung sehr tiefer (22-lagiger) Modelle.,
- Verwendung von Global Average Pooling für die Ausgabe des Modells.
Restnetz oder ResNet
Eine letzte wichtige Innovation in Faltungsnetzen, die wir überprüfen werden, wurde von Kaiming He et al. in ihrem 2016-Artikel mit dem Titel “ Deep Learning für die Bilderkennung.“
In dem Papier schlugen die Autoren ein sehr tiefes Modell vor, das als Restnetzwerk oder kurz ResNet bezeichnet wird und bei der 2015-Version der ILSVRC Challenge erfolgreich war.
Ihr Modell hatte beeindruckende 152 Schichten., Der Schlüssel zum Modelldesign ist die Idee von Restblöcken, die Verknüpfungsverbindungen verwenden. Dies sind einfach Verbindungen in der Netzwerkarchitektur, bei denen die Eingabe unverändert (nicht gewichtet) gehalten und an eine tiefere Ebene weitergegeben wird, z. B. Überspringen der nächsten Ebene.
Ein Restblock ist ein Muster aus zwei Faltungsschichten mit ReLU-Aktivierung, bei dem der Ausgang des Blocks mit dem Eingang zum Block kombiniert wird, z. B. die Verknüpfungsverbindung. Eine projizierte Version des Eingangs wird über 1×1 verwendet, wenn die Form des Eingangs zum Block anders ist als der Ausgang des Blocks, sogenannte 1×1-Windungen., Diese werden als projizierte Verknüpfungsverbindungen bezeichnet, verglichen mit den nicht gewichteten oder Identitätsverknüpfungsverbindungen.
Die Autoren beginnen mit dem, was sie als einfaches Netzwerk bezeichnen, einem VGG-inspirierten tiefen faltungsneuronalen Netzwerk mit kleinen Filtern (3×3), gruppierten Faltungsschichten ohne Pooling dazwischen und einem durchschnittlichen Pooling am Ende des Feature-Detektor-Teils des Modells vor der vollständig verbundenen Ausgabeschicht mit einer Softmax-Aktivierungsfunktion.,
Das einfache Netzwerk wird geändert, um ein Restnetzwerk zu werden, indem Verknüpfungsverbindungen hinzugefügt werden, um Restblöcke zu definieren. Typischerweise hat die Form der Eingabe für die Shortcut-Verbindung die gleiche Größe wie die Ausgabe des Restblocks.
Das Bild unten wurde aus dem Papier entnommen und vergleicht von links nach rechts die Architektur eines VGG-Modells, eines einfachen Faltungsmodells und einer Version des einfachen Faltungsmodells mit Restmodulen, die als Restnetzwerk bezeichnet werden.,
Architektur des Restnetzwerks für die Objektfotoklassifizierung (entnommen aus dem 2016-Papier).
Wir können die wichtigsten Aspekte der Architektur, die in modernen Modellen relevant sind, wie folgt zusammenfassen:
- Verwendung von Verknüpfungsverbindungen.
- Entwicklung und Wiederholung der Restblöcke.
- Entwicklung von sehr tiefen (152-layer) Modelle.
Weiterlesen
Dieser Abschnitt enthält weitere Ressourcen zum Thema, wenn Sie tiefer gehen möchten.,
Papers
- Gradient-based learning applied to document recognition, (PDF) 1998.
- ImageNet Classification with Deep Convolutional Neural Networks, 2012.
- Very Deep Convolutional Networks for Large-Scale Image Recognition, 2014.
- Tiefer Gehen mit Windungen, 2015.
- Deep Residual Learning for Image Recognition, 2016
API
- Keras API-Anwendungen
Artikel
- Die 9 Deep Learning Papers, die Sie Kennen Müssen
- Eine Einfache Anleitung, um die Versionen der Gründung Network, 2018.,
- CNN-Architekturen: LeNet, AlexNet, VGG, GoogLeNet, ResNet und mehr., 2017.
Zusammenfassung
In diesem Tutorial haben Sie die wichtigsten Meilensteine der Architektur für die Verwendung von faltungsneuronalen Netzen für eine herausfordernde Bildklassifizierung entdeckt.
Insbesondere haben Sie gelernt:
- Wie man die Anzahl der Filter und Filtergrößen beim Implementieren von faltungsneuronalen Netzen bestimmt.
- So ordnen Sie Faltungsebenen und Pooling-Ebenen in einem einheitlichen Muster an, um leistungsstarke Modelle zu entwickeln.,
- So verwenden Sie das Inception-Modul und das Restmodul, um viel tiefere Faltungsnetze zu entwickeln.
haben Sie Fragen?
stellen Sie Ihre Fragen in den Kommentaren unten und ich werde mein bestes tun zu beantworten.
Entwickeln Sie noch heute Deep-Learning-Modelle für Vision!
Entwickeln Sie Ihre eigenen Vision Modelle in Minuten
…,mit nur ein paar Zeilen Python-Code
Entdecken Sie, wie in meinem neuen Ebook:
Deep Learning für Computer Vision
Es bietet Selbststudium Tutorials zu Themen wie:
Klassifizierung, Objekterkennung (yolo und rcnn), Gesichtserkennung (vggface und facenet), Datenaufbereitung und vieles mehr…
Bringen Sie endlich tiefes Lernen in Ihre Vision-Projekte
Überspringen Sie die Akademiker. Nur Ergebnisse.
Sehen Sie, Was im Inneren