Evaluation Prompts Following the setup in DeepSeek-V3, standard benchmarks such as MMLU, DROP, GPQA Diamond, and SimpleQA are evaluated using prompts from the simpleevals framework. For MMLU-Redux, we adopt the Zero-Eval prompt format (Lin, 2024) in a zero-shot setting. In terms of MMLU-Pro, C-Eval and CLUE-WSC, since the original prompts are few-shot, we slightly modify the prompt to the zero-shot setting. The CoT in few-shot may hurt the performance of DeepSeek-R1. Other datasets follow their original evaluation protocols with default prompts provided by their creators. For code and math benchmarks, the HumanEval-Mul dataset covers eight mainstream programming languages (Python, Java, C++, C#, JavaScript, TypeScript, PHP, and Bash). Model performance on LiveCodeBench is evaluated using CoT format, with data collected between August 2024 and January 2025. The Codeforces dataset is evaluated using problems from 10 Div.2 contests along with expert-crafted test cases, after which the expected ratings and percentages of competitors are calculated. SWE-Bench verified results are obtained via the agentless framework (Xia et al., 2024). AIDER-related benchmarks are measured using a "diff" format. DeepSeek-R1 outputs are capped at a maximum of 32,768 tokens for each benchmark.
「時に御主人はどうしました。相変らず午睡ですかね。午睡も支那人の詩に出てくると風流だが、苦沙弥君のように日課としてやるのは少々俗気がありますね。何の事あない毎日少しずつ死んで見るようなものですぜ、奥さん御手数だがちょっと起していらっしゃい」と催促すると細君は同感と見えて「ええ、ほんとにあれでは困ります。第一あなた、からだが悪るくなるばかりですから。今御飯をいただいたばかりだのに」と立ちかけると迷亭先生は「奥さん、御飯と云やあ、僕はまだ御飯をいただかないんですがね」と平気な顔をして聞きもせぬ事を吹聴する。「おやまあ、時分どきだのにちっとも気が付きませんで――それじゃ何もございませんが御茶漬でも」「いえ御茶漬なんか頂戴しなくっても好いですよ」「それでも、あなた、どうせ御口に合うようなものはございませんが」と細君少々厭味を並べる。迷亭は悟ったもので「いえ御茶漬でも御湯漬でも御免蒙るんです。今途中で御馳走を誂らえて来ましたから、そいつを一つここでいただきますよ」ととうてい素人には出来そうもない事を述べる。細君はたった一言「まあ!」と云ったがそのまあの中には驚ろいたまあと、気を悪るくしたまあと、手数が省けてありがたいと云うまあが合併している
十八年という歳月が過ぎ去ってしまった今でも、僕はあの草原の風景をはっきりと思いだすことができる。何日かつづいたやわらかな雨に夏のあいだのほこりをすっかり洗い流された山肌は深く鮮かな青みをたたえ、十月の風はすすきの穂をあちこちで揺らせ、細長い雲が凍りつくような青い天頂にぴたりとはりついていた。空は高く、じっと見ていると目が痛くなるほどだった。風は草原をわたり、彼女の髪をかすかに揺らせて雑木林に抜けていった。梢の葉がさらさらと音を立て、遠くの方で犬の鳴く声が聞こえた。まるで別の世界の入口から聞こえてくるような小さくかすんだ鳴き声だった。その他にはどんな物音もなかった。どんな物音も我々の耳には届かなかった。誰一人ともすれ違わなかった。まっ赤な鳥が二羽草原の中から何かに怯えたようにとびあがって雑木林の方に飛んでいくのを見かけただけだった。歩きながら直子は僕に井戸の話をしてくれた。記憶というのはなんだか不思議なものだ。その中に実際に身を置いていたとき、僕はそんな風景に殆んど注意なんて払わなかった。とくに印象的な風景だとも思わなかったし、十八年後もその風展を細部まで覚えているかもしれないとは考えつきもしなかった。正直なところ、そのときの僕には風景なんてどうでもいいようなものだったのだ。僕は僕自身のことを考え、そのときとなりを並んで歩いていた一人の美しい女のことを考え、僕と彼女とのことを考え、そしてまた僕自身のことを考えた。それは何を見ても何を感じても何を考えても、結局すべてはブーメランのように自分自身の手もとに戻ってくるという年代だったのだ。おまけに僕は恋をしていて、その恋はひどくややこしい場所に僕を運びこんでいた。まわりの風景に気持を向ける余裕なんてどこにもなかったのだ。
В то самое время, как старательный бухгалтер несся в таксомоторе, чтобы нарваться на самопишущий костюм, из плацкартного мягкого вагона № 9 киевского поезда, пришедшего в Москву, в числе других вышел пассажир с маленьким фибровым чемоданчиком в руке. Пассажир этот был никто иной, как дядя покойного Берлиоза, Максимилиан Андреевич Поплавский, экономист-плановик, проживающий в Киеве на бывшей Институтской улице. Причиной приезда Максимилиана Андреевича в Москву была полученная им позавчера поздним вечером телеграмма следующего содержания: ?Меня только что зарезало трамваем на Патриарших. Похороны пятницу, три часа дня. Приезжай. Берлиоз?. Максимилиан Андреевич считался, и заслуженно, одним из умнейших людей в Киеве. Но и самого умного человека подобная телеграмма может поставить в тупик. Раз человек телеграфирует, что его зарезало, то ясно, что его зарезало не насмерть. Но при чем же тогда похороны? Или он очень плох и предвидит, что умрет? Это возможно, но в высшей степени странна эта точность – откуда он так-таки знает, что хоронить его будут в пятницу в три часа дня? Удивительная телеграмма! Однако умные люди на то и умны, чтобы разбираться в запутанных вещах. Очень просто. Произошла ошибка, и депешу передали исковерканной. Слово ?меня?, без сомнения, попало сюда из другой телеграммы, вместо слова ?Берлиоза?, которое приняло вид ?Берлиоз? и попало в конец телеграммы. С такой поправкой смысл телеграммы становился ясен, но, конечно, трагичен.
In my solitude of heart I feel the sigh of this widowed evening veiled with mist and rain.
A lot
of unique insight and innovation can come from one person doing two
different functions.