AI4Math - Research Digest

LemmaBench: A Live, Research-Level Benchmark to Evaluate LLM Capabilities in Mathematics

Antoine Peyronnet, Fabian Gloeckle, Amaury Hayat

Source: arxiv

A Minimal Agent for Automated Theorem Proving

Borja Requena Pozo, Austin Letson, Krystian Nowakowski, Izan Beltran Ferreiro, Leopoldo Sarra

Source: arxiv

Recycling Failures: Salvaging Exploration in RLVR via Fine-Grained Off-Policy Guidance

Yanwei Ren, Haotian Zhang, Likang Xiao, Xikai Zhang, Jiaxing Huang, Jiayan Qiu, Baosheng Yu, Quan Chen, Liu Liu

Source: arxiv

On the Limits of Interpretable Machine Learning in Quintic Root Classification

Rohan Thomas, Majid Bani-Yaghoub

Source: arxiv Must Read

Once4All: Skeleton-Guided SMT Solver Fuzzing with LLM-Synthesized Generators

Maolin Sun, Yibiao Yang, Yuming Zhou

Source: arxiv Must Read

VaSST: Variational Inference for Symbolic Regression using Soft Symbolic Trees

Somjit Roy, Pritam Dey, Bani K. Mallick

Source: arxiv Must Read

Foundation World Models for Agents that Learn, Verify, and Adapt Reliably Beyond Static Environments

Florent Delgrange

Source: arxiv Must Read

Unlocking Cognitive Capabilities and Analyzing the Perception-Logic Trade-off

Longyin Zhang, Shuo Sun, Yingxu He, Won Cheng Yi Lewis, Muhammad Huzaifah Bin Md Shahrin, Hardik Bhupendra Sailor, Heng Meng Jeremy Wong, Tarun Kumar Vangani, Yi Ma, Qiongqiong Wang, Minh Duc Pham, Ridong Jiang, Jingtao Li, Jingyi Liao, Zhuohan Liu, Yanfeng Lu, Manas Gupta, Ai Ti Aw

Source: arxiv Must Read

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

Vikash Singh, Debargha Ganguly, Haotian Yu, Chengwei Zhou, Prerna Singh, Brandon Lee, Vipin Chaudhary, Gourav Datta

Source: arxiv Must Read

ReasonX: Declarative Reasoning on Explanations

Laura State, Salvatore Ruggieri, Franco Turini

Source: arxiv Must Read

Humans and LLMs Diverge on Probabilistic Inferences

Gaurav Kamath, Sreenath Madathil, Sebastian Schuster, Marie-Catherine de Marneffe, Siva Reddy

Source: arxiv Must Read

SAGE-LLM: Towards Safe and Generalizable LLM Controller with Fuzzy-CBF Verification and Graph-Structured Knowledge Retrieval for UAV Decision

Wenzhe Zhao, Yang Zhao, Ganchao Liu, Zhiyu Jiang, Dandan Ma, Zihao Li, Xuelong Li

Source: arxiv Must Read

SafeGen-LLM: Enhancing Safety Generalization in Task Planning for Robotic Systems

Jialiang Fan, Weizhe Xu, Mengyu Liu, Oleg Sokolsky, Insup Lee, Fangxin Kong

Source: arxiv Must Read