看评测基本上是通过选择题的方式进行 请问有人工验证过选择题的结果与生成回复结果的一致性吗? 还有结果是类似ceval是从固定范围的概率中进行选择吗?
看评测基本上是通过选择题的方式进行
请问有人工验证过选择题的结果与生成回复结果的一致性吗?
还有结果是类似ceval是从固定范围的概率中进行选择吗?