Leider teilst Du uns nicht mit, mit welcher Software Du arbeitest - ich gehe jetzt mal von VDL oder ProX aus!
Das ist prinzipiell gar nicht so schwierig:
Auf Spur 1 liegt der Hintergrund (in Deinem Beispiel ist es eine Bitmap, da kann man aber ebenfalls ein Video nutzen.
Spur 2 und 3 die beiden kleinen Videos, mit "Effekte - Bewegungseffekte - Position/Größe" werden sie auf die passende Größe (hier etwa 35%) gebracht und wie gewünscht positioniert.
In Spur 4 eine png-Graphik mit den beiden Rahmen vor transparentem Hintergrund.
Spur 5 Musik.
Spur 6 und folgende weitere Elemente, die sichtbar sein sollen (Logos etc.)