Evaluate with TCEval_v2
name | acc | acc_err | exact_match,get-answer | exact_match_stderr | exact_match | exact_match_stderr |
---|---|---|---|---|---|---|
tc-eval-v2 | 0.259 | 0.001 | 0.138 | 0.002 | 0.000 | 0.000 |
drcd | nan | nan | nan | nan | 0.000 | 0.000 |
TMMLU+_fewshot-accounting | 0.257 | 0.032 | nan | nan | nan | nan |
TMMLU+_fewshot-administrative_law | 0.248 | 0.021 | nan | nan | nan | nan |
TMMLU+_fewshot-advance_chemistry | 0.260 | 0.040 | nan | nan | nan | nan |
TMMLU+_fewshot-agriculture | 0.252 | 0.035 | nan | nan | nan | nan |
TMMLU+_fewshot-anti_money_laundering | 0.239 | 0.037 | nan | nan | nan | nan |
TMMLU+_fewshot-auditing | 0.273 | 0.019 | nan | nan | nan | nan |
TMMLU+_fewshot-basic_medical_science | 0.252 | 0.014 | nan | nan | nan | nan |
TMMLU+_fewshot-business_management | 0.309 | 0.039 | nan | nan | nan | nan |
TMMLU+_fewshot-chinese_language_and_literature | 0.261 | 0.031 | nan | nan | nan | nan |
TMMLU+_fewshot-clinical_psychology | 0.296 | 0.041 | nan | nan | nan | nan |
TMMLU+_fewshot-computer_science | 0.259 | 0.033 | nan | nan | nan | nan |
TMMLU+_fewshot-culinary_skills | 0.336 | 0.028 | nan | nan | nan | nan |
TMMLU+_fewshot-dentistry | 0.261 | 0.022 | nan | nan | nan | nan |
TMMLU+_fewshot-economics | 0.265 | 0.022 | nan | nan | nan | nan |
TMMLU+_fewshot-education | 0.266 | 0.040 | nan | nan | nan | nan |
TMMLU+fewshot-education(profession_level) | 0.278 | 0.020 | nan | nan | nan | nan |
TMMLU+_fewshot-educational_psychology | 0.250 | 0.033 | nan | nan | nan | nan |
TMMLU+_fewshot-engineering_math | 0.252 | 0.043 | nan | nan | nan | nan |
TMMLU+_fewshot-finance_banking | 0.259 | 0.038 | nan | nan | nan | nan |
TMMLU+_fewshot-financial_analysis | 0.236 | 0.022 | nan | nan | nan | nan |
TMMLU+_fewshot-fire_science | 0.250 | 0.039 | nan | nan | nan | nan |
TMMLU+_fewshot-general_principles_of_law | 0.283 | 0.044 | nan | nan | nan | nan |
TMMLU+_fewshot-geography_of_taiwan | 0.290 | 0.016 | nan | nan | nan | nan |
TMMLU+_fewshot-human_behavior | 0.288 | 0.026 | nan | nan | nan | nan |
TMMLU+_fewshot-insurance_studies | 0.267 | 0.016 | nan | nan | nan | nan |
TMMLU+_fewshot-introduction_to_law | 0.232 | 0.027 | nan | nan | nan | nan |
TMMLU+_fewshot-jce_humanities | 0.322 | 0.050 | nan | nan | nan | nan |
TMMLU+_fewshot-junior_chemistry | 0.220 | 0.029 | nan | nan | nan | nan |
TMMLU+_fewshot-junior_chinese_exam | 0.269 | 0.034 | nan | nan | nan | nan |
TMMLU+_fewshot-junior_math_exam | 0.229 | 0.032 | nan | nan | nan | nan |
TMMLU+_fewshot-junior_science_exam | 0.272 | 0.031 | nan | nan | nan | nan |
TMMLU+_fewshot-junior_social_studies | 0.341 | 0.042 | nan | nan | nan | nan |
TMMLU+_fewshot-logic_reasoning | 0.245 | 0.037 | nan | nan | nan | nan |
TMMLU+_fewshot-macroeconomics | 0.248 | 0.021 | nan | nan | nan | nan |
TMMLU+_fewshot-management_accounting | 0.242 | 0.029 | nan | nan | nan | nan |
TMMLU+_fewshot-marketing_management | 0.226 | 0.044 | nan | nan | nan | nan |
TMMLU+_fewshot-mechanical | 0.254 | 0.040 | nan | nan | nan | nan |
TMMLU+_fewshot-music | 0.209 | 0.024 | nan | nan | nan | nan |
TMMLU+_fewshot-national_protection | 0.213 | 0.028 | nan | nan | nan | nan |
TMMLU+_fewshot-nautical_science | 0.249 | 0.018 | nan | nan | nan | nan |
TMMLU+_fewshot-occupational_therapy_for_psychological_disorders | 0.271 | 0.019 | nan | nan | nan | nan |
TMMLU+_fewshot-official_document_management | 0.270 | 0.030 | nan | nan | nan | nan |
TMMLU+_fewshot-optometry | 0.239 | 0.014 | nan | nan | nan | nan |
TMMLU+_fewshot-organic_chemistry | 0.275 | 0.043 | nan | nan | nan | nan |
TMMLU+_fewshot-pharmacology | 0.232 | 0.018 | nan | nan | nan | nan |
TMMLU+_fewshot-pharmacy | 0.212 | 0.021 | nan | nan | nan | nan |
TMMLU+_fewshot-physical_education | 0.257 | 0.033 | nan | nan | nan | nan |
TMMLU+_fewshot-physics | 0.237 | 0.043 | nan | nan | nan | nan |
TMMLU+_fewshot-politic_science | 0.258 | 0.014 | nan | nan | nan | nan |
TMMLU+_fewshot-real_estate | 0.250 | 0.045 | nan | nan | nan | nan |
TMMLU+_fewshot-secondary_physics | 0.214 | 0.039 | nan | nan | nan | nan |
TMMLU+_fewshot-statistics_and_machine_learning | 0.246 | 0.029 | nan | nan | nan | nan |
TMMLU+_fewshot-taiwanese_hokkien | 0.178 | 0.034 | nan | nan | nan | nan |
TMMLU+_fewshot-taxation | 0.261 | 0.023 | nan | nan | nan | nan |
TMMLU+_fewshot-technical | 0.294 | 0.023 | nan | nan | nan | nan |
TMMLU+_fewshot-three_principles_of_people | 0.302 | 0.039 | nan | nan | nan | nan |
TMMLU+_fewshot-trade | 0.259 | 0.020 | nan | nan | nan | nan |
TMMLU+_fewshot-traditional_chinese_medicine_clinical_medicine | 0.252 | 0.026 | nan | nan | nan | nan |
TMMLU+_fewshot-trust_practice | 0.302 | 0.023 | nan | nan | nan | nan |
TMMLU+_fewshot-ttqav2 | 0.478 | 0.047 | nan | nan | nan | nan |
TMMLU+_fewshot-tve_chinese_language | 0.257 | 0.020 | nan | nan | nan | nan |
TMMLU+_fewshot-tve_design | 0.246 | 0.020 | nan | nan | nan | nan |
TMMLU+_fewshot-tve_mathematics | 0.227 | 0.034 | nan | nan | nan | nan |
TMMLU+_fewshot-tve_natural_sciences | 0.267 | 0.021 | nan | nan | nan | nan |
TMMLU+_fewshot-veterinary_pathology | 0.223 | 0.025 | nan | nan | nan | nan |
TMMLU+_fewshot-veterinary_pharmacology | 0.267 | 0.019 | nan | nan | nan | nan |
TMMLU+_generative_fewshot-accounting | nan | nan | 0.063 | 0.018 | nan | nan |
TMMLU+_generative_fewshot-administrative_law | nan | nan | 0.155 | 0.018 | nan | nan |
TMMLU+_generative_fewshot-advance_chemistry | nan | nan | 0.154 | 0.033 | nan | nan |
TMMLU+_generative_fewshot-agriculture | nan | nan | 0.086 | 0.023 | nan | nan |
TMMLU+_generative_fewshot-anti_money_laundering | nan | nan | 0.164 | 0.032 | nan | nan |
TMMLU+_generative_fewshot-auditing | nan | nan | 0.093 | 0.012 | nan | nan |
TMMLU+_generative_fewshot-basic_medical_science | nan | nan | 0.118 | 0.010 | nan | nan |
TMMLU+_generative_fewshot-business_management | nan | nan | 0.237 | 0.036 | nan | nan |
TMMLU+_generative_fewshot-chinese_language_and_literature | nan | nan | 0.136 | 0.024 | nan | nan |
TMMLU+_generative_fewshot-clinical_psychology | nan | nan | 0.096 | 0.026 | nan | nan |
TMMLU+_generative_fewshot-computer_science | nan | nan | 0.138 | 0.026 | nan | nan |
TMMLU+_generative_fewshot-culinary_skills | nan | nan | 0.164 | 0.022 | nan | nan |
TMMLU+_generative_fewshot-dentistry | nan | nan | 0.085 | 0.014 | nan | nan |
TMMLU+_generative_fewshot-economics | nan | nan | 0.148 | 0.018 | nan | nan |
TMMLU+_generative_fewshot-education | nan | nan | 0.121 | 0.029 | nan | nan |
TMMLU+generative_fewshot-education(profession_level) | nan | nan | 0.107 | 0.014 | nan | nan |
TMMLU+_generative_fewshot-educational_psychology | nan | nan | 0.119 | 0.025 | nan | nan |
TMMLU+_generative_fewshot-engineering_math | nan | nan | 0.126 | 0.033 | nan | nan |
TMMLU+_generative_fewshot-finance_banking | nan | nan | 0.119 | 0.028 | nan | nan |
TMMLU+_generative_fewshot-financial_analysis | nan | nan | 0.120 | 0.017 | nan | nan |
TMMLU+_generative_fewshot-fire_science | nan | nan | 0.081 | 0.025 | nan | nan |
TMMLU+_generative_fewshot-general_principles_of_law | nan | nan | 0.094 | 0.029 | nan | nan |
TMMLU+_generative_fewshot-geography_of_taiwan | nan | nan | 0.174 | 0.014 | nan | nan |
TMMLU+_generative_fewshot-human_behavior | nan | nan | 0.104 | 0.017 | nan | nan |
TMMLU+_generative_fewshot-insurance_studies | nan | nan | 0.138 | 0.013 | nan | nan |
TMMLU+_generative_fewshot-introduction_to_law | nan | nan | 0.160 | 0.024 | nan | nan |
TMMLU+_generative_fewshot-jce_humanities | nan | nan | 0.133 | 0.036 | nan | nan |
TMMLU+_generative_fewshot-junior_chemistry | nan | nan | 0.148 | 0.025 | nan | nan |
TMMLU+_generative_fewshot-junior_chinese_exam | nan | nan | 0.154 | 0.027 | nan | nan |
TMMLU+_generative_fewshot-junior_math_exam | nan | nan | 0.166 | 0.028 | nan | nan |
TMMLU+_generative_fewshot-junior_science_exam | nan | nan | 0.122 | 0.022 | nan | nan |
TMMLU+_generative_fewshot-junior_social_studies | nan | nan | 0.206 | 0.036 | nan | nan |
TMMLU+_generative_fewshot-logic_reasoning | nan | nan | 0.173 | 0.032 | nan | nan |
TMMLU+_generative_fewshot-macroeconomics | nan | nan | 0.173 | 0.019 | nan | nan |
TMMLU+_generative_fewshot-management_accounting | nan | nan | 0.098 | 0.020 | nan | nan |
TMMLU+_generative_fewshot-marketing_management | nan | nan | 0.054 | 0.024 | nan | nan |
TMMLU+_generative_fewshot-mechanical | nan | nan | 0.161 | 0.034 | nan | nan |
TMMLU+_generative_fewshot-music | nan | nan | 0.155 | 0.022 | nan | nan |
TMMLU+_generative_fewshot-national_protection | nan | nan | 0.152 | 0.025 | nan | nan |
TMMLU+_generative_fewshot-nautical_science | nan | nan | 0.178 | 0.016 | nan | nan |
TMMLU+_generative_fewshot-occupational_therapy_for_psychological_disorders | nan | nan | 0.092 | 0.012 | nan | nan |
TMMLU+_generative_fewshot-official_document_management | nan | nan | 0.162 | 0.025 | nan | nan |
TMMLU+_generative_fewshot-optometry | nan | nan | 0.107 | 0.010 | nan | nan |
TMMLU+_generative_fewshot-organic_chemistry | nan | nan | 0.138 | 0.033 | nan | nan |
TMMLU+_generative_fewshot-pharmacology | nan | nan | 0.166 | 0.016 | nan | nan |
TMMLU+_generative_fewshot-pharmacy | nan | nan | 0.113 | 0.016 | nan | nan |
TMMLU+_generative_fewshot-physical_education | nan | nan | 0.145 | 0.026 | nan | nan |
TMMLU+_generative_fewshot-physics | nan | nan | 0.186 | 0.040 | nan | nan |
TMMLU+_generative_fewshot-politic_science | nan | nan | 0.162 | 0.012 | nan | nan |
TMMLU+_generative_fewshot-real_estate | nan | nan | 0.109 | 0.033 | nan | nan |
TMMLU+_generative_fewshot-secondary_physics | nan | nan | 0.071 | 0.024 | nan | nan |
TMMLU+_generative_fewshot-statistics_and_machine_learning | nan | nan | 0.125 | 0.022 | nan | nan |
TMMLU+_generative_fewshot-taiwanese_hokkien | nan | nan | 0.163 | 0.033 | nan | nan |
TMMLU+_generative_fewshot-taxation | nan | nan | 0.040 | 0.010 | nan | nan |
TMMLU+_generative_fewshot-technical | nan | nan | 0.219 | 0.021 | nan | nan |
TMMLU+_generative_fewshot-three_principles_of_people | nan | nan | 0.237 | 0.036 | nan | nan |
TMMLU+_generative_fewshot-trade | nan | nan | 0.179 | 0.017 | nan | nan |
TMMLU+_generative_fewshot-traditional_chinese_medicine_clinical_medicine | nan | nan | 0.079 | 0.016 | nan | nan |
TMMLU+_generative_fewshot-trust_practice | nan | nan | 0.120 | 0.016 | nan | nan |
TMMLU+_generative_fewshot-ttqav2 | nan | nan | 0.345 | 0.045 | nan | nan |
TMMLU+_generative_fewshot-tve_chinese_language | nan | nan | 0.128 | 0.015 | nan | nan |
TMMLU+_generative_fewshot-tve_design | nan | nan | 0.152 | 0.016 | nan | nan |
TMMLU+_generative_fewshot-tve_mathematics | nan | nan | 0.160 | 0.030 | nan | nan |
TMMLU+_generative_fewshot-tve_natural_sciences | nan | nan | 0.146 | 0.017 | nan | nan |
TMMLU+_generative_fewshot-veterinary_pathology | nan | nan | 0.138 | 0.021 | nan | nan |
TMMLU+_generative_fewshot-veterinary_pharmacology | nan | nan | 0.204 | 0.017 | nan | nan |
TMMLU+_zeroshot-accounting | 0.257 | 0.032 | nan | nan | nan | nan |
TMMLU+_zeroshot-administrative_law | 0.248 | 0.021 | nan | nan | nan | nan |
TMMLU+_zeroshot-advance_chemistry | 0.260 | 0.040 | nan | nan | nan | nan |
TMMLU+_zeroshot-agriculture | 0.252 | 0.035 | nan | nan | nan | nan |
TMMLU+_zeroshot-anti_money_laundering | 0.239 | 0.037 | nan | nan | nan | nan |
TMMLU+_zeroshot-auditing | 0.273 | 0.019 | nan | nan | nan | nan |
TMMLU+_zeroshot-basic_medical_science | 0.252 | 0.014 | nan | nan | nan | nan |
TMMLU+_zeroshot-business_management | 0.309 | 0.039 | nan | nan | nan | nan |
TMMLU+_zeroshot-chinese_language_and_literature | 0.261 | 0.031 | nan | nan | nan | nan |
TMMLU+_zeroshot-clinical_psychology | 0.296 | 0.041 | nan | nan | nan | nan |
TMMLU+_zeroshot-computer_science | 0.259 | 0.033 | nan | nan | nan | nan |
TMMLU+_zeroshot-culinary_skills | 0.336 | 0.028 | nan | nan | nan | nan |
TMMLU+_zeroshot-dentistry | 0.261 | 0.022 | nan | nan | nan | nan |
TMMLU+_zeroshot-economics | 0.265 | 0.022 | nan | nan | nan | nan |
TMMLU+_zeroshot-education | 0.266 | 0.040 | nan | nan | nan | nan |
TMMLU+zeroshot-education(profession_level) | 0.278 | 0.020 | nan | nan | nan | nan |
TMMLU+_zeroshot-educational_psychology | 0.250 | 0.033 | nan | nan | nan | nan |
TMMLU+_zeroshot-engineering_math | 0.252 | 0.043 | nan | nan | nan | nan |
TMMLU+_zeroshot-finance_banking | 0.259 | 0.038 | nan | nan | nan | nan |
TMMLU+_zeroshot-financial_analysis | 0.236 | 0.022 | nan | nan | nan | nan |
TMMLU+_zeroshot-fire_science | 0.250 | 0.039 | nan | nan | nan | nan |
TMMLU+_zeroshot-general_principles_of_law | 0.283 | 0.044 | nan | nan | nan | nan |
TMMLU+_zeroshot-geography_of_taiwan | 0.290 | 0.016 | nan | nan | nan | nan |
TMMLU+_zeroshot-human_behavior | 0.288 | 0.026 | nan | nan | nan | nan |
TMMLU+_zeroshot-insurance_studies | 0.267 | 0.016 | nan | nan | nan | nan |
TMMLU+_zeroshot-introduction_to_law | 0.232 | 0.027 | nan | nan | nan | nan |
TMMLU+_zeroshot-jce_humanities | 0.322 | 0.050 | nan | nan | nan | nan |
TMMLU+_zeroshot-junior_chemistry | 0.220 | 0.029 | nan | nan | nan | nan |
TMMLU+_zeroshot-junior_chinese_exam | 0.269 | 0.034 | nan | nan | nan | nan |
TMMLU+_zeroshot-junior_math_exam | 0.229 | 0.032 | nan | nan | nan | nan |
TMMLU+_zeroshot-junior_science_exam | 0.272 | 0.031 | nan | nan | nan | nan |
TMMLU+_zeroshot-junior_social_studies | 0.341 | 0.042 | nan | nan | nan | nan |
TMMLU+_zeroshot-logic_reasoning | 0.245 | 0.037 | nan | nan | nan | nan |
TMMLU+_zeroshot-macroeconomics | 0.248 | 0.021 | nan | nan | nan | nan |
TMMLU+_zeroshot-management_accounting | 0.242 | 0.029 | nan | nan | nan | nan |
TMMLU+_zeroshot-marketing_management | 0.226 | 0.044 | nan | nan | nan | nan |
TMMLU+_zeroshot-mechanical | 0.254 | 0.040 | nan | nan | nan | nan |
TMMLU+_zeroshot-music | 0.209 | 0.024 | nan | nan | nan | nan |
TMMLU+_zeroshot-national_protection | 0.213 | 0.028 | nan | nan | nan | nan |
TMMLU+_zeroshot-nautical_science | 0.249 | 0.018 | nan | nan | nan | nan |
TMMLU+_zeroshot-occupational_therapy_for_psychological_disorders | 0.271 | 0.019 | nan | nan | nan | nan |
TMMLU+_zeroshot-official_document_management | 0.270 | 0.030 | nan | nan | nan | nan |
TMMLU+_zeroshot-optometry | 0.239 | 0.014 | nan | nan | nan | nan |
TMMLU+_zeroshot-organic_chemistry | 0.275 | 0.043 | nan | nan | nan | nan |
TMMLU+_zeroshot-pharmacology | 0.232 | 0.018 | nan | nan | nan | nan |
TMMLU+_zeroshot-pharmacy | 0.212 | 0.021 | nan | nan | nan | nan |
TMMLU+_zeroshot-physical_education | 0.257 | 0.033 | nan | nan | nan | nan |
TMMLU+_zeroshot-physics | 0.237 | 0.043 | nan | nan | nan | nan |
TMMLU+_zeroshot-politic_science | 0.258 | 0.014 | nan | nan | nan | nan |
TMMLU+_zeroshot-real_estate | 0.250 | 0.045 | nan | nan | nan | nan |
TMMLU+_zeroshot-secondary_physics | 0.214 | 0.039 | nan | nan | nan | nan |
TMMLU+_zeroshot-statistics_and_machine_learning | 0.246 | 0.029 | nan | nan | nan | nan |
TMMLU+_zeroshot-taiwanese_hokkien | 0.178 | 0.034 | nan | nan | nan | nan |
TMMLU+_zeroshot-taxation | 0.261 | 0.023 | nan | nan | nan | nan |
TMMLU+_zeroshot-technical | 0.294 | 0.023 | nan | nan | nan | nan |
TMMLU+_zeroshot-three_principles_of_people | 0.302 | 0.039 | nan | nan | nan | nan |
TMMLU+_zeroshot-trade | 0.259 | 0.020 | nan | nan | nan | nan |
TMMLU+_zeroshot-traditional_chinese_medicine_clinical_medicine | 0.252 | 0.026 | nan | nan | nan | nan |
TMMLU+_zeroshot-trust_practice | 0.302 | 0.023 | nan | nan | nan | nan |
TMMLU+_zeroshot-ttqav2 | 0.478 | 0.047 | nan | nan | nan | nan |
TMMLU+_zeroshot-tve_chinese_language | 0.257 | 0.020 | nan | nan | nan | nan |
TMMLU+_zeroshot-tve_design | 0.246 | 0.020 | nan | nan | nan | nan |
TMMLU+_zeroshot-tve_mathematics | 0.227 | 0.034 | nan | nan | nan | nan |
TMMLU+_zeroshot-tve_natural_sciences | 0.267 | 0.021 | nan | nan | nan | nan |
TMMLU+_zeroshot-veterinary_pathology | 0.223 | 0.025 | nan | nan | nan | nan |
TMMLU+_zeroshot-veterinary_pharmacology | 0.267 | 0.019 | nan | nan | nan | nan |