From df8ef5694d5244ab94fcbbf593e8a3717c3a1c63 Mon Sep 17 00:00:00 2001 From: Yushi Bai <48798083+bys0318@users.noreply.github.com> Date: Wed, 18 Dec 2024 14:16:43 +0800 Subject: [PATCH] Delete README_ZH.md --- README_ZH.md | 236 --------------------------------------------------- 1 file changed, 236 deletions(-) delete mode 100644 README_ZH.md diff --git a/README_ZH.md b/README_ZH.md deleted file mode 100644 index daf3656..0000000 --- a/README_ZH.md +++ /dev/null @@ -1,236 +0,0 @@ - -<p align="center"> - 🤗 <a href="https://huggingface.co/datasets/THUDM/LongBench" target="_blank">HF Repo</a> • 📃 <a href="https://arxiv.org/abs/2308.14508" target="_blank">Paper</a> -</p> - -Read this in [English](README.md). - -# 📖 LongBench: 多任务ä¸è‹±åŒè¯é•¿æ–‡æœ¬ç†è§£è¯„测基准 - -**LongBench**是第一个多任务ã€ä¸è‹±åŒè¯ã€é’ˆå¯¹å¤§è¯è¨€æ¨¡åž‹**长文本ç†è§£èƒ½åŠ›**的评测基准。在目å‰å¤§æ¨¡åž‹å¤šè¯è¨€èƒ½åŠ›å¼•èµ·å¹¿æ³›å…³æ³¨çš„背景下,LongBench涵盖了ä¸åŒçš„è¯è¨€ï¼ˆä¸æ–‡å’Œè‹±æ–‡ï¼‰ï¼Œä»¥æ¤æ¥å¯¹å¤§æ¨¡åž‹åœ¨é•¿æ–‡æœ¬ä¸‹çš„多è¯è¨€èƒ½åŠ›è¿›è¡Œæ›´å…¨é¢çš„评估。åŒæ—¶ï¼ŒLongBenchç”±å…大类ã€äºŒå一个ä¸åŒçš„任务组æˆï¼Œè¦†ç›–了å•æ–‡æ¡£QAã€å¤šæ–‡æ¡£QAã€æ‘˜è¦ã€Few-shotå¦ä¹ ã€åˆæˆä»»åŠ¡å’Œä»£ç 补全ç‰å…³é”®çš„长文本应用场景。 - -我们深知模型评测过程ä¸å¯èƒ½äº§ç”Ÿçš„高昂æˆæœ¬ï¼Œå°¤å…¶æ˜¯é•¿æ–‡æœ¬åœºæ™¯ä¸‹ï¼ˆå¦‚äººå·¥æ ‡æ³¨æˆæœ¬æˆ–API调用æˆæœ¬ï¼‰ã€‚å› æ¤ï¼Œæˆ‘们采用了一ç§å…¨è‡ªåŠ¨çš„评测方å¼ï¼Œæ—¨åœ¨ä»¥æœ€ä½Žçš„æˆæœ¬ï¼Œæœ€æœ‰æ•ˆåœ°è¡¡é‡å’Œè¯„估模型的长文本ç†è§£èƒ½åŠ›ã€‚ - -LongBench包å«14个英文任务ã€5个ä¸æ–‡ä»»åŠ¡å’Œ2个代ç 任务,多数任务的平å‡é•¿åº¦åœ¨5k-15k之间,共包å«4750æ¡æµ‹è¯•æ•°æ®ã€‚关于LongBenchæ•°æ®é›†çš„具体统计åŠä»»åŠ¡æž„é€ æ–¹å¼è¯·å‚考[这里](task_zh.md)。æ¤å¤–,我们还通过å‡åŒ€é‡‡æ ·å¾—到了长度分布更å‡åŒ€çš„测试集åˆLongBench-E,在0-4kã€4k-8kã€8k+长度区间内的数æ®é‡ç›¸å½“,以æ供模型在ä¸åŒé•¿åº¦ä¸‹æ€§èƒ½å˜åŒ–的分æžã€‚ - - -| 任务类型 | 英文任务数 | ä¸æ–‡ä»»åŠ¡æ•° | 代ç 任务数 | -| :----------: | :--------: | :--------: | :--------: | -| å•æ–‡æ¡£QA | 3 | 1 | - | -| 多文档QA | 3 | 1 | - | -| æ‘˜è¦ | 3 | 1 | - | -| Few-shotå¦ä¹ | 3 | 1 | - | -| åˆæˆä»»åŠ¡ | 2 | 1 | - | -| 代ç 补全 | - | - | 2 | - -## 🔥 æ›´æ–°ä¿¡æ¯ -**[2023/10/30]** æ–°çš„[ChatGLM3-6B-32k](https://huggingface.co/THUDM/chatglm3-6b-32k) chat模型已ç»å‘布,它更擅长长文本建模,尤其是基于长文档的问ç”ã€æŽ¨ç†å’Œæ€»ç»“。请在LongBench上查看其[性能](#排行榜)。 - -**[2023/08/29]** [LongBench论文](https://arxiv.org/abs/2308.14508)å‘布,åŒæ—¶å¯¹LongBenchè¿›è¡Œäº†ä»¥ä¸‹å‡ é¡¹é‡è¦æ›´æ–°ï¼š -1. **æ›´å…¨é¢çš„æ•°æ®é›†**:在摘è¦ä»»åŠ¡ä¸å¢žåŠ 了多文档摘è¦MultiNewsæ•°æ®é›†ï¼Œåœ¨Few-shotå¦ä¹ 任务ä¸å¢žåŠ 了摘è¦ä»»åŠ¡SAMSum,代替之å‰çš„QA任务NQ,并对TriviaQA, RepoBench-P进行é‡æ–°é‡‡æ ·ä»¥ä¿è¯æ•°æ®é•¿åº¦æ›´åŠ åˆé€‚ï¼› -2. **æ›´å‡åŒ€çš„长度分布**ï¼šæ ¹æ®é•¿åº¦è¿›è¡Œå‡åŒ€é‡‡æ ·å¾—到了LongBench-E,其包å«LongBenchä¸çš„13ä¸ªé•¿åº¦åˆ†å¸ƒæ›´åŠ å‡åŒ€çš„英文数æ®é›†ï¼ŒLongBench-E在0-4k,4-8k,8k+长度区间内å‡æœ‰æ•°é‡ç›¸å½“的测试数æ®ï¼Œæ›´åŠ 适åˆè¯„价模型在ä¸åŒè¾“入长度上的能力å˜åŒ–ï¼› -3. **全部评测代ç 公开**:评测所有模型的代ç 已公开,åŒæ—¶æ供了基于检索ã€åˆ†æ®µæ‘˜è¦çš„长文本压缩ç–略代ç 。 - -## 🔠目录 -- [ðŸ–¥ï¸ æŽ’è¡Œæ¦œ](#排行榜) -- [âš™ï¸ å¦‚ä½•åœ¨LongBench上评测模型](#如何在LongBench上评测模型) -- [📊 详细评测结果](#详细评测结果) -- [📄 致谢](#致谢) -- [📠引用](#引用) - -<a name="排行榜"></a> -## ðŸ–¥ï¸ æŽ’è¡Œæ¦œ -我们在这里展示了所有模型在Zero-shot场景下,在ä¸æ–‡å’Œè‹±æ–‡å„大类任务上得分的平å‡å€¼ï¼ˆ%),å„ä»»åŠ¡è¯„ä¼°æ‰€ç”¨æŒ‡æ ‡è¯·å‚考[这里](task_zh.md)。 - -> 注:对于超出模型处ç†é•¿åº¦èƒ½åŠ›çš„文本,å‚考[Lost in the Middle](https://arxiv.org/abs/2307.03172)的观察,我们从文本ä¸é—´è¿›è¡Œæˆªæ–,ä¿æŒå‰åŽéƒ¨åˆ†çš„ä¿¡æ¯ã€‚实验表明,这ç§æˆªæ–æ–¹å¼å¯¹æ¨¡åž‹æ€§èƒ½å½±å“最å°ã€‚ - -#### è‹±æ–‡æ¦œå• -| | Avg | å•æ–‡æ¡£QA | 多文档QA | æ‘˜è¦ | Few-shotå¦ä¹ | 代ç 补全 | åˆæˆä»»åŠ¡ | -| --- | :-: | :-: | :-: | :-: | :-: | :-: | :-: | -| GPT-3.5-Turbo-16k | 44.0 | 39.8 | 38.7 | 26.5 | 67.1 | 54.1 | 37.8 | -| Llama2-7B-chat-4k | 31.0 | 24.9 | 22.6 | 24.7 | 60.0 | 48.1 | 5.9 | -| LongChat-v1.5-7B-32k | 34.3 | 28.7 | 20.6 | 26.7 | 60.0 | 54.1 | 15.8 | -| XGen-7B-8k | 28.3 | 24.6 | 20.4 | 24.7 | 56.2 | 38.6 | 5.3 | -| InternLM-7B-8k | 24.2 | 17.4 | 20.2 | 16.1 | 50.3 | 36.4 | 4.5 | -| ChatGLM2-6B-32k | 40.9 | 32.9 | 33.7 | 27.6 | 59.1 | 52.7 | 39.2 | -| Vicuna-v1.5-7B-16k | 31.9 | 28.0 | 18.6 | 26.0 | 66.2 | 47.3 | 5.5 | -| ChatGLM3-6B-32k | 48.5 | 40.3 | 46.6 | 29.5 | 68.1 | 56.2 | 50.5 | - -#### ä¸æ–‡æ¦œå• -| | Avg | å•æ–‡æ¡£QA | 多文档QA | æ‘˜è¦ | Few-shotå¦ä¹ | 代ç 补全 | åˆæˆä»»åŠ¡ | -|-------|:---:|:-------------:|:------------:|:-------------:|:-----------------:|:---------------:|:----------------:| -| GPT-3.5-Turbo-16k | 44.5 | 61.2 | 28.7 | 16.0 | 29.2 | 54.1 | 77.5 | -| Llama2-7B-chat-4k | 14.3 | 11.9 | 5.2 | 0.2 | 19.8 | 48.1 | 0.5 | -| LongChat-v1.5-7B-32k | 23.9 | 29.1 | 19.5 | 9.9 | 23.2 | 54.1 | 7.6 | -| XGen-7B-8k | 15.1 | 14.8 | 11.0 | 2.2 | 20.5 | 38.6 | 3.5 | -| InternLM-7B-8k | 18.3 | 33.6 | 11.1 | 12.4 | 15.2 | 36.4 | 0.9 | -| ChatGLM2-6B-32k | 41.7 | 51.6 | 37.6 | 16.2 | 27.7 | 52.7 | 64.5 | -| Vicuna-v1.5-7B-16k | 26.4 | 43.0 | 19.3 | 15.1 | 28.8 | 47.3 | 5.0 | -| ChatGLM3-6B-32k | 52.8 | 62.3 | 44.8 | 17.8 | 42.0 | 56.2 | 94.0 | - -#### 长文本任务能力雷达图 - - -#### ä¸åŒé•¿åº¦æ–‡æœ¬ä¸‹çš„能力å˜åŒ– -为了更有针对性地分æžæ¨¡åž‹åœ¨ä¸åŒæ–‡æœ¬é•¿åº¦ä¸‹çš„表现,下图展示了模型在LongBench-Eä¸ä¸åŒæ–‡æœ¬é•¿åº¦åŒºé—´ä¸Šï¼Œæ‰€æœ‰ä»»åŠ¡ä¸ŠæŒ‰ç…§ä»»åŠ¡ç±»åˆ«è¿›è¡Œå¹³å‡çš„总分。 - - - -<a name="如何在LongBench上评测模型"></a> -## âš™ï¸ å¦‚ä½•åœ¨LongBench上评测模型 - -#### è½½å…¥æ•°æ® -ä½ å¯ä»¥é€šè¿‡Hugging Face datasetsæ¥ä¸‹è½½å¹¶è½½å…¥**LongBench**çš„æ•°æ®ï¼ˆ[🤗 HF Repo](https://huggingface.co/datasets/THUDM/LongBench)): -```python -from datasets import load_dataset - -datasets = ["narrativeqa", "qasper", "multifieldqa_en", "multifieldqa_zh", "hotpotqa", "2wikimqa", "musique", \ - "dureader", "gov_report", "qmsum", "multi_news", "vcsum", "trec", "triviaqa", "samsum", "lsht", \ - "passage_count", "passage_retrieval_en", "passage_retrieval_zh", "lcc", "repobench-p"] - -for dataset in datasets: - data = load_dataset('THUDM/LongBench', dataset, split='test') -``` -类似地,也å¯ä»¥è½½å…¥**LongBench-E**çš„æ•°æ® -```python -from datasets import load_dataset - -datasets = ["qasper", "multifieldqa_en", "hotpotqa", "2wikimqa", "gov_report", "multi_news", "trec", \ - "triviaqa", "samsum", "passage_count", "passage_retrieval_en", "lcc", "repobench-p"] - -for dataset in datasets: - data = load_dataset('THUDM/LongBench', f"{dataset}_e", split='test') -``` -åŒæ ·åœ°ï¼Œä½ 也å¯ä»¥ç›´æŽ¥ç”¨è¿™ä¸ª[链接](https://huggingface.co/datasets/THUDM/LongBench/resolve/main/data.zip)下载所有的评测数æ®ã€‚ - -#### æ•°æ®æ ¼å¼ -**LongBench**(LongBench-E)ä¸æ‰€æœ‰æ•°æ®éƒ½ç»Ÿä¸€ä¸ºä»¥ä¸‹æ ¼å¼ï¼š -```json -{ - "input": "任务的输入/指令,通常较çŸï¼Œæ¯”如QAä¸çš„问题ã€Few-shot任务ä¸çš„æé—®ç‰", - "context": "任务所需的长è¯å¢ƒæ–‡æœ¬ï¼Œæ¯”如文档ã€è·¨æ–‡ä»¶ä»£ç ã€Few-shot任务ä¸çš„few-shotæ ·æœ¬", - "answers": "ç”±æ‰€æœ‰æ ‡å‡†ç”案组æˆçš„列表", - "length": "å‰ä¸‰é¡¹æ–‡æœ¬çš„总长度(ä¸ã€è‹±æ–‡åˆ†åˆ«ç”¨å—ã€è¯æ•°ç»Ÿè®¡ï¼‰", - "dataset": "本æ¡æ•°æ®æ‰€å±žæ•°æ®é›†å称", - "language": "本æ¡æ•°æ®çš„è¯è¨€", - "all_classes": "分类任务ä¸çš„所有类别,éžåˆ†ç±»ä»»åŠ¡åˆ™ä¸ºnull", - "_id": "æ¯æ¡æ•°æ®çš„éšæœºid" -} -``` - -#### 评测 -通过pip安装ä¾èµ–:`pip install -r requirements.txt`。对于基于Llama-2的模型,我们推è使用Flash Attention进行优化并节çœæ˜¾å˜ï¼Œå¯ä»¥æ ¹æ®[Flash Attention](https://github.com/Dao-AILab/flash-attention)的代ç 库æ¥å®‰è£…相关ä¾èµ–。 - -首先,è¿è¡Œä»“库下的[pred.py](pred.py),并通过`--model`é€‰æ‹©ä½ æƒ³è¯„æµ‹çš„æ¨¡åž‹ï¼Œæˆ‘ä»¬ä»¥ChatGLM3-6B-32k模型为例(代ç å°†ä¼šæ ¹æ®[model2path.json](config/model2path.json)ä¸çš„路径自动下载HuggingFaceæ¨¡åž‹ï¼Œä½ å¯ä»¥ä¿®æ”¹æ¤æ–‡ä»¶ä¸çš„路径以从本地载入模型å‚数): -```bash -CUDA_VISIBLE_DEVICES=0 python pred.py --model chatglm3-6b-32k -``` -也å¯ä»¥åŒæ—¶åœ¨å•æœºå¤šå¡ä¸Šå¹¶è¡Œåœ°è¿›è¡ŒæŽ¨ç†ï¼ˆæ¯ä¸ªå¡ä¸Šæœ‰ä¸€ä¸ªæ¨¡åž‹å‰¯æœ¬ï¼‰ï¼š -```bash -CUDA_VISIBLE_DEVICES=0,1,2,3 python pred.py --model chatglm3-6b-32k -``` -å¯ä»¥åœ¨`pred/`对应模型å称的文件夹下得到模型在LongBench所有数æ®é›†ä¸‹çš„输出,类似地,通过`--e`命令: -```bash -CUDA_VISIBLE_DEVICES=0 python pred.py --model chatglm3-6b-32k --e -``` -å¯ä»¥åœ¨`pred_e/`对应模型å称的文件夹下得到模型在LongBench-E所有数æ®é›†ä¸‹çš„输出。æ¤åŽè¿è¡Œ[eval.py](eval.py)的评测代ç : -```bash -python eval.py --model chatglm3-6b-32k -``` -å¯ä»¥åœ¨å˜å‚¨æ¨¡åž‹è¾“出文件夹下的`result.json`ä¸å¾—到模型在LongBenchå„æ•°æ®é›†ä¸Šçš„评测结果。通过`--e`命令也å¯ä»¥å¾—到模型在LongBench-E所有数æ®é›†ä¸ä¸åŒé•¿åº¦åŒºé—´å†…çš„å¹³å‡å¾—分。 - -请注æ„,我们在`config/`下æ供了我们总结出æ¥çš„在å„æ•°æ®é›†ä¸Šé€‚åˆçš„è¾“å…¥æ ¼å¼å’Œæœ€å¤§è¾“出长度é™åˆ¶ï¼Œåœ¨è¯„测的时候å¯ä»¥è¿›è¡Œä¿®æ”¹ä»¥æ›´å¥½åœ°é€‚ç”¨ä½ è¦è¯„测的模型,修改åŽåœ¨[pred.py](pred.py)è¯„æµ‹æ—¶ä¼šè‡ªåŠ¨æŒ‰ç…§æ–°çš„æ ¼å¼åŽ»æ•´ç†æ•°æ®å¹¶å¾—到对应的模型输出。 - -æ¤å¤–我们还æ供了基于检索和分段摘è¦çš„长文本压缩评测代ç (实现方å¼å‚考LongBench论文ä¸çš„4.2节),分别在`retrieval/`å’Œ`summ/`两个文件夹下。 - -<a name="详细评测结果"></a> -## 📊 详细评测结果 -下é¢çš„å‡ å¼ è¡¨æ ¼å±•ç¤ºäº†æ¨¡åž‹åœ¨æ‰€æœ‰å任务数æ®é›†ä¸Šçš„Zero-shot评测结果(%),其ä¸çš„ä¸æ–‡æ•°æ®é›†ä»¥â€œzhâ€æ ‡ç¤ºï¼ˆå„ä»»åŠ¡è¯„ä¼°æ‰€ç”¨æŒ‡æ ‡è¯·å‚考[这里](task_zh.md))。 - -#### å•æ–‡æ¡£QA -| | NarrativeQA | Qasper | MultiFieldQA-en | MultiFieldQA-zh | -|-------------------|:-----------:|:------:|:---------------:|:---------------:| -| GPT-3.5-Turbo-16k | 23.6 | 43.3 | 52.3 | 61.2 | -| Llama2-7B-chat-4k | 18.7 | 19.2 | 36.8 | 11.9 | -| LongChat-v1.5-7B-32k | 16.9 | 27.7 | 41.4 | 29.1 | -| XGen-7B-8k | 18.0 | 18.1 | 37.7 | 14.8 | -| InternLM-7B-8k | 12.1 | 16.7 | 23.4 | 33.6 | -| ChatGLM2-6B-32k | 21.1 | 31.5 | 46.2 | 51.6 | -| Vicuna-v1.5-7B-16k | 19.4 | 26.1 | 38.5 | 43.0 | -| ChatGLM3-6B-32k | 26.0 | 43.3 | 51.7 | 62.3 | - -#### 多文档QA -| | HotpotQA | 2WikiMQA | Musique | DuReader (zh) | -|----------------------|:--------:|:--------:|:-------:|:--------:| -| GPT-3.5-Turbo-16k | 51.6 | 37.7 | 26.9 | 28.7 | -| Llama2-7B-chat-4k | 25.4 | 32.8 | 9.4 | 5.2 | -| LongChat-v1.5-7B-32k | 31.5 | 20.6 | 9.7 | 19.5 | -| XGen-7B-8k | 29.7 | 21.1 | 10.3 | 11.0 | -| InternLM-7B-8k | 28.7 | 22.8 | 9.0 | 11.1 | -| ChatGLM2-6B-32k | 45.1 | 34.0 | 21.9 | 37.6 | -| Vicuna-v1.5-7B-16k | 25.3 | 20.8 | 9.8 | 19.3 | -| ChatGLM3-6B-32k | 54.4 | 44.9 | 40.4 | 44.78 | - -#### æ‘˜è¦ -| | GovReport | QMSum | MultiNews | VCSUM (zh) | -|:-----------|:---------:|:-----:|:-----:|:-----:| -| GPT-3.5-Turbo-16k | 29.5 | 23.4 | 26.7 | 16.0 | -| Llama2-7B-chat-4k | 27.3 | 20.8 | 25.8 | 0.2 | -| LongChat-v1.5-7B-32k | 30.8 | 22.7 | 26.4 | 9.9 | -| XGen-7B-8k | 27.3 | 20.5 | 26.2 | 2.2 | -| InternLM-7B-8k | 9.7 | 15.9 | 22.8 | 12.4 | -| ChatGLM2-6B-32k | 32.4 | 24.0 | 26.5 | 16.2 | -| Vicuna-v1.5-7B-16k | 27.9 | 22.8 | 27.2 | 15.1 | -| ChatGLM3-6B-32k | 36.8 | 23.9 | 27.9 | 17.8 | - -#### Few-shotå¦ä¹ -| | TREC | TriviaQA | SAMSum | LSHT (zh) | -| --- | :-: | :-: | :-: | :-: | -| GPT-3.5-Turbo-16k | 68.0 | 91.4 | 41.7 | 29.2 | -| Llama2-7B-chat-4k | 61.5 | 77.8 | 40.7 | 19.8 | -| LongChat-v1.5-7B-32k | 63.5 | 82.3 | 34.2 | 23.2 | -| XGen-7B-8k | 65.5 | 77.8 | 25.3 | 20.5 | -| InternLM-7B-8k | 52.0 | 77.8 | 21.2 | 15.2 | -| ChatGLM2-6B-32k | 62.5 | 78.7 | 36.3 | 27.7 | -| Vicuna-v1.5-7B-16k | 71.5 | 86.2 | 40.8 | 28.8 | -| ChatGLM3-6B-32k | 79.0 | 87.1 | 38.2 | 42.0 | - -#### åˆæˆä»»åŠ¡ -| | Passage Count | PassageRetrieval-en | PassageRetrieval-zh | -| --- | :-: | :-: | :-: | -| GPT-3.5-Turbo-16k | 4.5 | 71.0 | 77.5 | -| Llama2-7B-chat-4k | 2.1 | 9.8 | 0.5 | -| LongChat-v1.5-7B-32k | 1.0 | 30.5 | 7.6 | -| XGen-7B-8k | 2.1 | 8.5 | 3.5 | -| InternLM-7B-8k | 3.0 | 6.0 | 0.9 | -| ChatGLM2-6B-32k | 1.5 | 77.0 | 64.5 | -| Vicuna-v1.5-7B-16k | 6.5 | 4.5 | 5.0 | -| ChatGLM3-6B-32k | 2.0 | 99.0 | 94.0 | - -#### 代ç 补全 -| | LCC | RepoBench-P | -| --- | :-: | :-: | -| GPT-3.5-Turbo-16k | 54.7 | 53.6 | -| Llama2-7B-chat-4k | 52.4 | 43.8 | -| LongChat-v1.5-7B-32k | 53.0 | 55.3 | -| XGen-7B-8k | 38.6 | 38.6 | -| InternLM-7B-8k | 44.1 | 28.8 | -| ChatGLM2-6B-32k | 55.6 | 49.9 | -| Vicuna-v1.5-7B-16k | 51.0 | 43.5 | -| ChatGLM3-6B-32k | 57.66 | 54.76 | - -<a name="致谢"></a> -## 📄 致谢 -- LongBench的部分任务基于之å‰çš„ç ”ç©¶è€…æ出的数æ®é›†æž„建,包括[HotpotQA](https://hotpotqa.github.io/),[2WikiMultihopQA](https://aclanthology.org/2020.coling-main.580/),[MuSiQue](https://arxiv.org/abs/2108.00573),[DuReader](https://github.com/baidu/DuReader),[NarrativeQA](https://arxiv.org/pdf/1712.07040.pdf),[Qasper](https://arxiv.org/pdf/2105.03011.pdf),[GovReport](https://arxiv.org/pdf/2104.02112.pdf),[QMSum](https://arxiv.org/pdf/2104.05938.pdf),[MultiNews](https://aclanthology.org/P19-1102.pdf),[VCSUM](https://arxiv.org/abs/2305.05280),[TriviaQA](https://nlp.cs.washington.edu/triviaqa/),[TREC](https://aclanthology.org/C02-1150.pdf),[SAMSum](https://aclanthology.org/D19-5409.pdf),[LSHT](http://tcci.ccf.org.cn/conference/2014/dldoc/evatask6.pdf),[LCC](https://arxiv.org/abs/2306.14893)å’Œ[RepoBench-P](https://arxiv.org/abs/2306.03091)。 - -<a name="引用"></a> -## 📠引用 -``` -@article{bai2023longbench, - title={LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding}, - author={Bai, Yushi and Lv, Xin and Zhang, Jiajie and Lyu, Hongchang and Tang, Jiankai and Huang, Zhidian and Du, Zhengxiao and Liu, Xiao and Zeng, Aohan and Hou, Lei and Dong, Yuxiao and Tang, Jie and Li, Juanzi}, - journal={arXiv preprint arXiv:2308.14508}, - year={2023} -} -``` -如果您使用Longbench,请考虑引用LongBench所基于的数æ®é›†å¯¹åº”的论文,相关引用信æ¯åœ¨[这里](refs/ref.bib)。 -- GitLab