Timing analysis for the separate processing steps, also GPU -> CPU transfer

PyTorch experiments
For AI embedding model timing checks
2025-12-14 11:02:12 +01:00 · 2025-12-13 22:50:19 +01:00 · 2025-12-13 22:28:55 +01:00
2 changed files with 255 additions and 0 deletions
--- a/python/experiments_tomoro-colqwen3-embed-4b.py
+++ b/python/experiments_tomoro-colqwen3-embed-4b.py
@@ -0,0 +1,160 @@
+import torch
+from transformers import AutoModel, AutoProcessor
+from PIL import Image, UnidentifiedImageError
+import requests
+from io import BytesIO
+import time
+
+# Configuration
+MODEL_ID = "TomoroAI/tomoro-colqwen3-embed-4b"
+DTYPE = torch.bfloat16
+# DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+# DEVICE = "cpu"
+DEVICE = "cuda"
+print(f"DEVICE: {DEVICE}")
+
+# Load Model & Processor
+start_ts = time.perf_counter_ns()
+processor = AutoProcessor.from_pretrained(
+    MODEL_ID,
+    trust_remote_code=True,
+    max_num_visual_tokens=1280,
+)
+duration_ns = time.perf_counter_ns() - start_ts
+print(f"Duration Load Processor: {duration_ns:,} ns")
+
+start_ts = time.perf_counter_ns()
+model = AutoModel.from_pretrained(
+    MODEL_ID,
+    dtype=DTYPE,
+    attn_implementation="flash_attention_2",
+    # attn_implementation="sdpa",
+    trust_remote_code=True,
+    device_map=DEVICE,
+).eval()
+duration_ns = time.perf_counter_ns() - start_ts
+print(f"Duration Load Model: {duration_ns:,} ns")
+total_params = sum(p.numel() for p in model.parameters())
+print(f"Model total_params: {total_params:,}")
+
+# Sample Data
+queries = [
+    "Retrieve a city of Singapore picture",
+    "Retrieve a city of Beijing picture",
+    "Retrieve a city of London picture",
+    "Retrieve a city of Frankfurt am Main picture",
+    "Retrieve a city of Berlin picture",
+
+    # "Retrieve a city of Madrid picture",
+    # "Retrieve a city of Budapest picture",
+    # "Retrieve a city of Dresden picture",
+    # "Retrieve a city of New York picture",
+    # "Retrieve a city of Sydney picture",
+    # "Retrieve a city of Toronto picture",
+    # "Retrieve a city of Asunción picture",
+]
+docs = [
+    "https://upload.wikimedia.org/wikipedia/commons/2/27/Singapore_skyline_2022.jpg",
+    "https://upload.wikimedia.org/wikipedia/commons/6/61/Beijing_skyline_at_night.JPG",
+    "https://upload.wikimedia.org/wikipedia/commons/4/49/London_skyline.jpg",
+    "https://upload.wikimedia.org/wikipedia/commons/d/d7/Skyline_Frankfurt_am_Main_2015.jpg",
+    "https://upload.wikimedia.org/wikipedia/commons/8/83/Cityscape_Berlin.jpg",
+
+    # Decoding errors:
+    # "https://commons.wikimedia.org/wiki/File:Sydney_skyline_at_dusk_-_Dec_2008.jpg",
+    # "https://commons.wikimedia.org/wiki/File:Toronto_-_ON_-_Toronto_Skyline8.jpg",
+    # "https://commons.wikimedia.org/wiki/File:Asunci%C3%B3n_Paraguay.jpg",
+    # "https://commons.wikimedia.org/wiki/File:Madrid_ciudad.jpg",
+    # "https://commons.wikimedia.org/wiki/File:Budapest,_Hungary_(explored)_(14995308504).jpg",
+    # "https://commons.wikimedia.org/wiki/File:DD-canaletto-blick.jpg",
+    # "https://commons.wikimedia.org/wiki/File:Long_Island_City_New_York_May_2015_panorama_3.jpg",
+
+]
+
+def load_image(url: str) -> Image.Image:
+    # Some CDNs (e.g., Wikimedia) expect a browser-like UA to avoid 403s.
+    for headers in ({}, {"User-Agent": "Mozilla/5.0 (compatible; ColQwen3-demo/1.0)"}):
+        resp = requests.get(url, headers=headers, timeout=10)
+        if resp.status_code == 403:
+            continue
+        resp.raise_for_status()
+        try:
+            return Image.open(BytesIO(resp.content)).convert("RGB")
+        except UnidentifiedImageError as e:
+            raise RuntimeError(f"Failed to decode image from {url}") from e
+    raise RuntimeError(f"Could not fetch image (HTTP 403) from {url}; try downloading locally and loading from file path.")
+
+# Helper Functions
+def encode_queries(texts, batch_size=8):
+    outputs = []
+    for start in range(0, len(texts), batch_size):
+        batch = processor.process_texts(texts=texts[start : start + batch_size])
+        batch = {k: v.to(DEVICE) for k, v in batch.items()}
+        with torch.inference_mode():
+            out = model(**batch)
+            vecs = out.embeddings.to(torch.bfloat16).cpu()
+        outputs.extend(vecs)
+    return outputs
+
+def encode_docs(urls, batch_size=4):
+    pil_images = [load_image(url) for url in urls]
+    outputs = []
+    for start in range(0, len(pil_images), batch_size):
+        batch_imgs = pil_images[start : start + batch_size]
+
+        start_ts = time.perf_counter_ns()
+        features = processor.process_images(images=batch_imgs)
+        features = {
+            k: v.to(DEVICE) if isinstance(v, torch.Tensor) else v
+            for k, v in features.items()
+        }
+        duration_ns = time.perf_counter_ns() - start_ts
+        print(f"Duration process_images: {duration_ns:,} ns")
+
+        with torch.inference_mode():
+
+            start_ts = time.perf_counter_ns()
+            out = model(**features)
+            vecs = out.embeddings.to(torch.bfloat16).cpu()
+            duration_ns = time.perf_counter_ns() - start_ts
+            print(f"Duration vecs generation (no .cpu): {duration_ns:,} ns")
+
+            start_ts = time.perf_counter_ns()
+            vecs = vecs.cpu()
+            duration_ns = time.perf_counter_ns() - start_ts
+            print(f"Duration vecs.cpu()): {duration_ns:,} ns")
+
+            if False:
+                print(f"type(out.embeddings) = {type(out.embeddings)}")
+                print(f"out.embeddings.shape = {out.embeddings.shape}")
+                print(f"out.embeddings.ndim = {out.embeddings.ndim}")
+                print(f"out.embeddings.device = {out.embeddings.device}")
+                print(f"out.embeddings.numel() = {out.embeddings.numel()}")
+                print("out.embeddings.element_size() = "
+                    f"{out.embeddings.element_size()}")
+                print("out.embeddings.numel() * out.embeddings.element_size() = "
+                    f"{out.embeddings.numel() * out.embeddings.element_size()}")
+
+        outputs.extend(vecs)
+    return outputs
+
+# Execution
+
+start_ts = time.perf_counter_ns()
+query_embeddings = encode_queries(queries)
+duration_ns = time.perf_counter_ns() - start_ts
+print(f"Duration encode_queries: {duration_ns:,} ns")
+
+start_ts = time.perf_counter_ns()
+doc_embeddings = encode_docs(docs)
+duration_ns = time.perf_counter_ns() - start_ts
+print(f"Duration encode_docs: {duration_ns:,} ns")
+
+# MaxSim Scoring
+
+start_ts = time.perf_counter_ns()
+scores = processor.score_multi_vector(query_embeddings, doc_embeddings)
+duration_ns = time.perf_counter_ns() - start_ts
+print(f"Duration score_multi_vector: {duration_ns:,} ns")
+
+print(scores)
--- a/python/timing_tomoro-colqwen3-embed-4b.py
+++ b/python/timing_tomoro-colqwen3-embed-4b.py
@@ -0,0 +1,95 @@
+import torch
+from transformers import AutoModel, AutoProcessor
+from PIL import Image, UnidentifiedImageError
+import requests
+from io import BytesIO
+import time
+
+# Configuration
+MODEL_ID = "TomoroAI/tomoro-colqwen3-embed-4b"
+DTYPE = torch.bfloat16
+# DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+# DEVICE = "cuda"
+DEVICE = "cpu"
+
+# Load Model & Processor
+processor = AutoProcessor.from_pretrained(
+    MODEL_ID,
+    trust_remote_code=True,
+    max_num_visual_tokens=1280,
+)
+model = AutoModel.from_pretrained(
+    MODEL_ID,
+    dtype=DTYPE,
+    attn_implementation="flash_attention_2",
+    trust_remote_code=True,
+    device_map=DEVICE,
+).eval()
+
+# Sample Data
+queries = [
+    "Retrieve the city of Singapore",
+    "Retrieve the city of Beijing",
+    "Retrieve the city of London",
+]
+docs = [
+    "https://upload.wikimedia.org/wikipedia/commons/2/27/Singapore_skyline_2022.jpg",
+    "https://upload.wikimedia.org/wikipedia/commons/6/61/Beijing_skyline_at_night.JPG",
+    "https://upload.wikimedia.org/wikipedia/commons/4/49/London_skyline.jpg",
+]
+
+def load_image(url: str) -> Image.Image:
+    # Some CDNs (e.g., Wikimedia) expect a browser-like UA to avoid 403s.
+    for headers in ({}, {"User-Agent": "Mozilla/5.0 (compatible; ColQwen3-demo/1.0)"}):
+        resp = requests.get(url, headers=headers, timeout=10)
+        if resp.status_code == 403:
+            continue
+        resp.raise_for_status()
+        try:
+            return Image.open(BytesIO(resp.content)).convert("RGB")
+        except UnidentifiedImageError as e:
+            raise RuntimeError(f"Failed to decode image from {url}") from e
+    raise RuntimeError(f"Could not fetch image (HTTP 403) from {url}; try downloading locally and loading from file path.")
+
+# Helper Functions
+def encode_queries(texts, batch_size=8):
+    outputs = []
+    for start in range(0, len(texts), batch_size):
+        batch = processor.process_texts(texts=texts[start : start + batch_size])
+        batch = {k: v.to(DEVICE) for k, v in batch.items()}
+        with torch.inference_mode():
+            out = model(**batch)
+            vecs = out.embeddings.to(torch.bfloat16).cpu()
+        outputs.extend(vecs)
+    return outputs
+
+def encode_docs(urls):
+    outputs = []
+    for idx, url in enumerate(urls):
+        img = load_image(url)
+        features = processor.process_images(images=[img])
+        features = {k: v.to(DEVICE) if isinstance(v, torch.Tensor) else v for k, v in features.items()}
+        # Warm up on the first image, measure only 2nd and 3rd embeddings generation
+        if idx in (1, 2):
+            start_ns = time.perf_counter_ns()
+            with torch.inference_mode():
+                out = model(**features)
+                vecs = out.embeddings.to(torch.bfloat16).cpu()
+            end_ns = time.perf_counter_ns()
+            duration_ns = end_ns - start_ns
+            print(f"Duration encode_docs image {idx + 1}: {duration_ns:,} ns")
+        else:
+            with torch.inference_mode():
+                out = model(**features)
+                vecs = out.embeddings.to(torch.bfloat16).cpu()
+        outputs.extend(vecs)
+    return outputs
+
+# Execution
+query_embeddings = encode_queries(queries)
+
+doc_embeddings = encode_docs(docs)
+
+# MaxSim Scoring
+scores = processor.score_multi_vector(query_embeddings, doc_embeddings)
+print(scores)
Author	SHA1	Message	Date
llm	0a10f926c1	Timing analysis for the separate processing steps, also GPU -> CPU transfer	2025-12-14 11:02:12 +01:00
llm	8ffd5dd122	PyTorch experiments	2025-12-13 22:50:19 +01:00
llm	4d25d9c679	For AI embedding model timing checks	2025-12-13 22:28:55 +01:00