Araştırma makalesine nazaran Apple ReALM ismi verilen sistem, ekrandaki görsel öğelere yapılan atıfları (“bu” yahut “şu” gibi) anlamak da dahil olmak üzere karmaşık referansları saf bir lisan modelleme sorununa dönüştürmek için büyük lisan modellerinden yararlanıyor. Bu da ReALM’in mevcut prosedürlere kıyasla kıymetli performans kazanımları elde etmesini sağlıyor.
Yine de araştırmacılar, ekranların otomatik ayrıştırılmasına güvenmenin sınırlamaları olduğu konusunda uyarıyor. Birden fazla imaj ortasında ayrım yapmak üzere daha karmaşık görsel referansların ele alınması, muhtemelen bilgisayarla görü ve çok modlu tekniklerin dahil edilmesini gerektirecek.