Evaluating Bard Gemini Pro and GPT-4 Vision Against Student Performance in Medical Visual Question Answering: Comparative Case Study

doi:10.2196/57592

Published on 17.Dec.2024 in Vol 8 (2024)

Preprints (earlier versions) of this paper are available at https://preprints.jmir.org/preprint/57592, first published 20.Feb.2024.

AI competitive exam in a modern classroom with students and a large screen displaying AI.

Evaluating Bard Gemini Pro and GPT-4 Vision Against Student Performance in Medical Visual Question Answering: Comparative Case Study

Jonas Roos¹

; Ron Martin²

; Robert Kaczmarczyk³

Article Authors Cited by (14) Tweetations Metrics

Journals

Cornelius J, Knitza J, Hack J, Pavlovic M, Kuhn S. Einsatzmöglichkeiten von Large Language Models in der Unfallchirurgie. Die Unfallchirurgie 2025;128(8):587 View
Bashah A, Salem A, Al-waqeerah A, Ghaleb E, Wahan N, Awad A, Al-tos O, Chen G. Evaluation of deepseek, gemini, ChatGPT-4o, and perplexity in responding to salivary gland cancer. BMC Oral Health 2025;25(1) View
Baldıran Ş, Eryılmaz B. YAPAY ZEKA ARAÇLARININ SEYAHAT PLANLAMADA KULLANIMI: KARŞILAŞTIRMALI BİR ANALİZ. Pamukkale University Journal of Social Sciences Institute 2025;(71) View
Pornwattanakavee S, Leelakanok N, Todsarot T, Guinto G, Takun R, Sumativit A, Senngam M. Effectiveness of ChatGPT, Google Gemini, and Microsoft Copilot in Answering Thai Drug Information Queries: Cross-Sectional Study. JMIR AI 2025;4:e79751 View
Luo D, Liu M, Zhang H, Wang X, Gao Q, Kuang N, Yin T, Zheng Z. Comparative performance of Chinese and international large language models on the Chinese radiology attending physician qualification examination. Scientific Reports 2025;15(1) View
Sheikhalishahi S, Haddadi A, Sadeghipour S, Rafiei F, Soltani H. Comparative performance of ChatGPT-4o, ChatGPT-5, and gemini 2.5 flash on Persian internal medicine subspecialty board exams. Scientific Reports 2025;16(1) View
Aydogan H, Yaşar Teke H, Sevindik M, Öztürk Z. Inferential performance and temporal stability of large language models in suicide method prediction: A forensic psychiatric analysis. Health Informatics Journal 2026;32(1) View
Takahashi Y, Kumakura R, Okamoto R, Omote S. Performance of Large Language Models in the Japanese Public Health Nurse National Examination: Comparative Cross-Sectional Study. JMIR Nursing 2026;9:e82842 View
Mavrych V, Yousef E, Yaqinuddin A, Shaikh A, Bolgova O, Tian J. Visual recognition limitations in multimodal large language models: A comparative analysis of histological image interpretation. PLOS Digital Health 2026;5(3):e0001306 View
Konu Kadirhanoğulları M. Reflections of Artificial Intelligence Use on Student Achievement and Attitudes in Biology Classes. International Journal of Educational Studies and Policy 2026;7(2):227 View
Ibrahim-El-Nur J, Kaczmarek W, Winiarska W, Kuś A, Łoś M. Language-Specific Differences in Large Language Model Diagnostic Reasoning: A Translation-Controlled Clinical Vignette Study. Journal of Clinical Medicine 2026;15(11):4082 View
Seo D, Cheong J, Choi Y, Shin Y, Park W. Large Language Models for Endodontic Symptom Assessment and Treatment Planning Using Image-Free Clinical Records: Comparative Evaluation Study. JMIR Medical Informatics 2026;14:e86145 View

Conference Proceedings

Ngo A, Doan T, Ngo T, Nguyen V. Proceedings of the 2025 10th International Conference on Intelligent Information Technology. Legal Documents Query Application for Vietnamese Law Using LLM and RAG Techniques View
Rughiniș C, Dascălu M, Rasnayake S. 2025 25th International Conference on Control Systems and Computer Science (CSCS). GenAI Reliability in Content Analysis: Assessing Agreement Between LLMs in Measuring Discursive Violence View

This paper is in the following e-collection/theme issue:

Evaluating Bard Gemini Pro and GPT-4 Vision Against Student Performance in Medical Visual Question Answering: Comparative Case Study

Evaluating Bard Gemini Pro and GPT-4 Vision Against Student Performance in Medical Visual Question Answering: Comparative Case Study

Journals

Conference Proceedings