A central theme in the field of photogrammetry is the improvement of geo-spatial accuracy. However, the accurate geo-localization for low-lost UAV systems that are equipped with cheap and light GNSS/INS remains an open problem. In contrast, aerial imagery acquired by manned aircrafts usually has much higher geo-referencing accuracy of up to centimeter level. Additionally, aerial imagery provides complimentary scene representations from a larger scale and a different perspective compared to UAV imagery. Thus, the combination of the data acquired by UAVs and manned aircrafts could contribute to more comprehensive representations of the scenes of interest. To enhance utilization of such information, the implicit image semantic information needs to be jointly interpreted and analyzed. The primary goal of this thesis is to jointly exploit UAV and aerial imagery to enhance visual and spatial understanding of the scene, more concretely, to extract meaningful image semantics that have high geo-spatial accuracy. Thesis describes the efforts we have made towards this goal, and our contributions are mainly in three areas: 1.To improve the geo-spatial accuracy of UAV imagery by a pixel-level co-registration of UAV imagery and aerial imagery, a novel image feature matching algorithm for UAV and aerial image pairs is proposed, which is also applicable for heterogeneous images that have large differences in scale, rotation and appearance. 2. Since supervised learning-based semantic image segmentation tasks require large amount of training data, which often costs intensive manual labor, we propose a pipeline that helps create image dataset with semantic level annotations using label transfer. 3. We leverage the image semantic information, particularly building segments such as roofs and facades, to generate true building footprints (excluding roof overhangs) with decimeter-level accuracy as well as 3D building models of LoD1. ; Ein zentrales Thema im Bereich der Photogrammetrie ist die Verbesserung der räumlich-geometrische Genauigkeit. Die genaue Geolokalisierung von preisgünstigen UAV-Systeme, die mit einfachen und leichten GNSS/INS Systemen ausgestattet sind, ist ein noch nicht vollständig gelöstes Problem. Im Gegensatz dazu haben Luftbilder, die von bemannten Flugzeugen aufgenommen wurden, in der Regel eine wesentlich höhere Georeferenzierungsgenauigkeit im Zentimeterbereich. Zusätzlich bieten Luftbildaufnahmen im Vergleich zu UAV-Bildern ergänzende Szenendarstellungen im kleineren Maßstab und aus einer unterschiedlichen Perspektive. So kann die Kombination der von UAVs und bemannten Flugzeugen gewonnenen Aufnahmen zu einer umfassenderen Darstellung einer Szene beitragen. Für eine bessere Nutzung dieser Informationen, müssen die impliziten semantischen Bildinformationen gemeinsam automatisch interpretiert und analysiert werden. Das Hauptziel dieser Arbeit ist die Kombination von UAV und Luftbildern, um das visuelle und räumliche Verständnis für die abgebildete Szene zu verbessern, genauer gesagt, um aussagekräftige Semantik mit hoher räumlicher Genauigkeit aus den Bildern zu extrahieren. In dieser Arbeit werden Beiträge beschrieben, die notwendig sind, um dieses Ziel zu erreichen. Dabei beschränken sich die Beiträge hauptsächlich auf die drei folgenden Bereiche: 1. Eine automatisierte Verbesserung der Georeferenzierungsgenauigkeit von UAV-Bildern wird durch eine pixelgenaue Koregistrierung von UAV- und Luftbildern erreicht. Dazu wurde ein neuartiger Algorithmus zur Anpassung von Bildeigenschaften für UAV- und Luftbildpaare entwickelt, der auch für heterogene Bilder mit großen Unterschieden in Maßstab, Rotation und Aussehen geeignet ist. 2. Überwacht lernende, semantische Bildsegmentierungsaufgaben erfordern eine große Menge an Trainingsdaten, die oft nur mit zeitaufwändiger manueller Arbeit gewonnen werden können. In diesem Zusammenhang wird ein Arbeitsablauf entwickelt, welcher die Erstellung von Trainingsdatensätzen mit semantischen Annotationen mittels automatisiertem „Label-Transfer“ unterstützt. 3. Bildinformationen, insbesondere von Gebäudeteile wie Dächer und Fassaden, können verwendet werden, um echte Gebäudeumrisse (ohne Dachüberstände) automatisiert mit Dezimetergenauigkeit und 3D-Gebäudemodelle basierend auf LoD1 zu erzeugen.