Update chatglm2-12b result
This commit is contained in:
parent
41f5c436fb
commit
bd7e7c4fab
10
README.md
10
README.md
@ -50,26 +50,29 @@ ChatGLM2-6B 开源模型旨在与开源社区一起推动大模型技术发展
|
|||||||
| ChatGLM-6B | 40.63 | 33.89 | 44.84 | 39.02 | 45.71 |
|
| ChatGLM-6B | 40.63 | 33.89 | 44.84 | 39.02 | 45.71 |
|
||||||
| ChatGLM2-6B (base) | 47.86 | 41.20 | 54.44 | 43.66 | 54.46 |
|
| ChatGLM2-6B (base) | 47.86 | 41.20 | 54.44 | 43.66 | 54.46 |
|
||||||
| ChatGLM2-6B | 45.46 | 40.06 | 51.61 | 41.23 | 51.24 |
|
| ChatGLM2-6B | 45.46 | 40.06 | 51.61 | 41.23 | 51.24 |
|
||||||
|
| ChatGLM2-12B (base) | 56.18 | 48.18 | 65.13 | 52.58 | 60.93 |
|
||||||
|
|
||||||
> Chat 模型使用 zero-shot CoT (Chain-of-Thought) 的方法测试,Base 模型使用 few-shot answer-only 的方法测试
|
> Chat 模型使用 zero-shot CoT (Chain-of-Thought) 的方法测试,Base 模型使用 few-shot answer-only 的方法测试
|
||||||
|
|
||||||
### C-Eval
|
### C-Eval
|
||||||
|
|
||||||
| Model | Average | STEM | Social Sciences | Humanities | Others |
|
| Model | Average | STEM | Social Sciences | Humanities | Others |
|
||||||
| ----- | ---- | ---- | ----- | ----- | ----- |
|
| ----- | ---- | ---- | ----- |------------|--------|
|
||||||
| ChatGLM-6B | 38.9 | 33.3 | 48.3 | 41.3 | 38.0 |
|
| ChatGLM-6B | 38.9 | 33.3 | 48.3 | 41.3 | 38.0 |
|
||||||
| ChatGLM2-6B (base) | 51.7 | 48.6 | 60.5 | 51.3 | 49.8 |
|
| ChatGLM2-6B (base) | 51.7 | 48.6 | 60.5 | 51.3 | 49.8 |
|
||||||
| ChatGLM2-6B | 50.1 | 46.4 | 60.4 | 50.6 | 46.9 |
|
| ChatGLM2-6B | 50.1 | 46.4 | 60.4 | 50.6 | 46.9 |
|
||||||
|
| ChatGLM2-12B (base) | 61.6 | 55.4 | 73.7 | 64.2 | 59.4 |
|
||||||
|
|
||||||
> Chat 模型使用 zero-shot CoT 的方法测试,Base 模型使用 few-shot answer only 的方法测试
|
> Chat 模型使用 zero-shot CoT 的方法测试,Base 模型使用 few-shot answer only 的方法测试
|
||||||
|
|
||||||
### GSM8K
|
### GSM8K
|
||||||
|
|
||||||
| Model | Accuracy | Accuracy (Chinese)* |
|
| Model | Accuracy | Accuracy (Chinese)* |
|
||||||
| ----- | ----- | ----- |
|
|---------------------|----------| ----- |
|
||||||
| ChatGLM-6B | 4.82 | 5.85 |
|
| ChatGLM-6B | 4.82 | 5.85 |
|
||||||
| ChatGLM2-6B (base) | 32.37 | 28.95 |
|
| ChatGLM2-6B (base) | 32.37 | 28.95 |
|
||||||
| ChatGLM2-6B | 28.05 | 20.45 |
|
| ChatGLM2-6B | 28.05 | 20.45 |
|
||||||
|
| ChatGLM2-12B (base) | 40.94 | 42.71 |
|
||||||
|
|
||||||
> 所有模型均使用 few-shot CoT 的方法测试,CoT prompt 来自 http://arxiv.org/abs/2201.11903
|
> 所有模型均使用 few-shot CoT 的方法测试,CoT prompt 来自 http://arxiv.org/abs/2201.11903
|
||||||
>
|
>
|
||||||
@ -79,10 +82,11 @@ ChatGLM2-6B 开源模型旨在与开源社区一起推动大模型技术发展
|
|||||||
### BBH
|
### BBH
|
||||||
|
|
||||||
| Model | Accuracy |
|
| Model | Accuracy |
|
||||||
| ----- | ----- |
|
|---------------------|----------|
|
||||||
| ChatGLM-6B | 18.73 |
|
| ChatGLM-6B | 18.73 |
|
||||||
| ChatGLM2-6B (base) | 33.68 |
|
| ChatGLM2-6B (base) | 33.68 |
|
||||||
| ChatGLM2-6B | 30.00 |
|
| ChatGLM2-6B | 30.00 |
|
||||||
|
| ChatGLM2-12B (base) | 36.02 |
|
||||||
|
|
||||||
> 所有模型均使用 few-shot CoT 的方法测试,CoT prompt 来自 https://github.com/suzgunmirac/BIG-Bench-Hard/tree/main/cot-prompts
|
> 所有模型均使用 few-shot CoT 的方法测试,CoT prompt 来自 https://github.com/suzgunmirac/BIG-Bench-Hard/tree/main/cot-prompts
|
||||||
|
|
||||||
|
Loading…
Reference in New Issue
Block a user