Selbst Top-LLMs schwächeln bei neuem Benchmark für KI-Agenten
Forscher von Salesforce AI Research haben mit MCP-Universe einen neuen Benchmark entwickelt, der die Leistung von KI-Agenten besser beurteilen soll als bestehende Ansätze.
Forscher von Salesforce AI Research haben mit MCP-Universe einen neuen Benchmark entwickelt, der die Leistung von KI-Agenten besser beurteilen soll als bestehende Ansätze.
Nach über 20 Jahren OCCT für Windows hat der Hersteller OCBASE eine Linux-Version freigegeben, die alle Funktionen der Windows-Edition grafisch ansehnlich aufbereitet bietet.
Mozilla hat im Rahmen der Veröffentlichung von Llamafile 0.9.2 mit LocalScore auch eine erste Version des Benchmarks für lokale KI vorgestellt.
Ein kürzlich veröffentlichter neuer Benchmark unter dem Titel "Humanity's Last Exam" lässt alle heutigen Sprachmodelle verzweifeln.