AI-assisted science - Research Digest

Dynamic Expert-Guided Model Averaging for Causal Discovery

Adrick Tench, Thomas Demeester

Source: arxiv

DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

Fan Nie, Junlin Wang, Harper Hua, Federico Bianchi, Yongchan Kwon, Zhenting Qi, Owen Queen, Shang Zhu, James Zou

Source: arxiv

Generating Literature-Driven Scientific Theories at Scale

Peter Jansen, Peter Clark, Doug Downey, Daniel S. Weld

Source: arxiv

Ordering-based Causal Discovery via Generalized Score Matching

Vy Vo, He Zhao, Trung Le, Edwin V. Bonilla, Dinh Phung

Source: arxiv

DeepEra: A Deep Evidence Reranking Agent for Scientific Retrieval-Augmented Generated Question Answering

Haotian Chen, Qingqing Long, Siyu Pu, Xiao Luo, Wei Ju, Meng Xiao, Yuanchun Zhou, Jianghua Zhao, Xuezhi Wang

Source: arxiv

When Agents Fail to Act: A Diagnostic Framework for Tool Invocation Reliability in Multi-Agent LLM Systems

Donghao Huang, Gauri Malwe, Zhaoxia Wang

Source: arxiv

MRAG: Benchmarking Retrieval-Augmented Generation for Bio-medicine

Wei Zhu

Source: arxiv

VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents

Bing Xu, Terry Chen, Fengzhe Zhou, Tianqi Chen, Yangqing Jia, Vinod Grover, Haicheng Wu, Wei Liu, Craig Wittenbrink, Wen-mei Hwu, Roger Bringmann, Ming-Yu Liu, Luis Ceze, Michael Lightstone, Humphrey Shi

Source: arxiv

Spatial-Agent: Agentic Geo-spatial Reasoning with Scientific Core Concepts

Riyang Bao, Cheng Yang, Dazhou Yu, Zhexiang Tang, Gengchen Mai, Liang Zhao

Source: arxiv

The Art of Being Difficult: Combining Human and AI Strengths to Find Adversarial Instances for Heuristics

Henri Nikoleit, Ankit Anand, Anurag Murty Naredla, Heiko Röglin

Source: arxiv

Bayesian Experimental Design for Model Discrepancy Calibration: A Rivalry between Kullback--Leibler Divergence and Wasserstein Distance

Huchen Yang, Xinghao Dong, Jin-Long Wu

Source: arxiv

Preventing the Collapse of Peer Review Requires Verification-First AI

Lei You, Lele Cao, Iryna Gurevych

Source: arxiv Must Read

SemanticALLI: Caching Reasoning, Not Just Responses, in Agentic Systems

Varun Chillara, Dylan Kline, Christopher Alvares, Evan Wooten, Huan Yang, Shlok Khetan, Cade Bauer, Tré Guillory, Tanishka Shah, Yashodhara Dhariwal, Volodymyr Pavlov, George Popstefanov

Source: arxiv Must Read

Will It Survive? Deciphering the Fate of AI-Generated Code in Open Source

Musfiqur Rahman, Emad Shihab

Source: arxiv Must Read

PyHealth 2.0: A Comprehensive Open-Source Toolkit for Accessible and Reproducible Clinical Deep Learning

John Wu, Yongda Fan, Zhenbang Wu, Paul Landes, Eric Schrock, Sayeed Sajjad Razin, Arjun Chatterjee, Naveen Baskaran, Joshua Steier, Andrea Fitzpatrick, Bilal Arif, Rian Atri, Jathurshan Pradeepkumar, Siddhartha Laghuvarapu, Junyi Gao, Adam R. Cross, Jimeng Sun

Source: arxiv Must Read

Navigating the Shift: A Comparative Analysis of Web Search and Generative AI Response Generation

Mahe Chen, Xiaoxuan Wang, Kaiwen Chen, Nick Koudas

Source: arxiv Must Read