基于我們最先進(jìn)的開源 large-v2 Whisper 模型,語(yǔ)音轉(zhuǎn)文本 API 提供了兩個(gè)端點(diǎn):轉(zhuǎn)錄和翻譯。它們可用于:
將音頻轉(zhuǎn)錄成音頻所使用的任何語(yǔ)言。
將音頻翻譯并轉(zhuǎn)錄成英文。
文件上傳目前限制為 25 MB,并且支持以下輸入文件類型:mp3、mp4、mpeg、mpga、m4a、wav 和 webm。
轉(zhuǎn)錄 API 將您要轉(zhuǎn)錄的音頻文件和音頻轉(zhuǎn)錄所需的輸出文件格式作為輸入。我們目前支持多種輸入和輸出文件格式。
python | curl |
|
|
默認(rèn)情況下,響應(yīng)類型將是包含原始文本的 json。
{
"text": "Imagine the wildest idea that you've ever had, and you're curious about how it might scale to something that's a 100, a 1,000 times bigger.
....
}
要在請(qǐng)求中設(shè)置其他參數(shù),您可以添加更多帶有相關(guān)選項(xiàng)的 --form 行。例如,如果要將輸出格式設(shè)置為文本,則可以添加以下行:
...
--form file=@openai.mp3 \
--form model=whisper-1 \
--form response_format=text
翻譯 API 將任何受支持語(yǔ)言的音頻文件作為輸入,并在必要時(shí)將音頻轉(zhuǎn)錄為英語(yǔ)。這與我們的 /Transcriptions 端點(diǎn)不同,因?yàn)檩敵霾皇窃驾斎胝Z(yǔ)言,而是翻譯成英文文本。
python | curl |
|
|
在這種情況下,輸入的音頻是德語(yǔ),輸出的文本如下所示:
Hello, my name is Wolfgang and I come from Germany. Where are you heading today?
我們目前只支持翻譯成英文。
我們目前通過轉(zhuǎn)錄和翻譯端點(diǎn)支持以下語(yǔ)言:
南非荷蘭語(yǔ)、阿拉伯語(yǔ)、亞美尼亞語(yǔ)、阿塞拜疆語(yǔ)、白俄羅斯語(yǔ)、波斯尼亞語(yǔ)、保加利亞語(yǔ)、加泰羅尼亞語(yǔ)、中文、克羅地亞語(yǔ)、捷克語(yǔ)、丹麥語(yǔ)、荷蘭語(yǔ)、英語(yǔ)、愛沙尼亞語(yǔ)、芬蘭語(yǔ)、法語(yǔ)、加利西亞語(yǔ)、德語(yǔ)、希臘語(yǔ)、希伯來語(yǔ)、印地語(yǔ)、匈牙利語(yǔ)、冰島語(yǔ)、印度尼西亞語(yǔ)、意大利語(yǔ)、日語(yǔ)、卡納達(dá)語(yǔ)、哈薩克語(yǔ)、韓語(yǔ)、拉脫維亞語(yǔ)、立陶宛語(yǔ)、馬其頓語(yǔ)、馬來語(yǔ)、馬拉地語(yǔ)、毛利語(yǔ)、尼泊爾語(yǔ)、挪威語(yǔ)、波斯語(yǔ)、波蘭語(yǔ)、葡萄牙語(yǔ)、羅馬尼亞語(yǔ)、俄語(yǔ)、塞爾維亞語(yǔ)、斯洛伐克語(yǔ)、斯洛文尼亞語(yǔ)、西班牙語(yǔ)、斯瓦希里語(yǔ)、瑞典語(yǔ)、他加祿語(yǔ)、泰米爾語(yǔ)、泰語(yǔ)、土耳其語(yǔ)、烏克蘭語(yǔ)、烏爾都語(yǔ)、越南語(yǔ)和威爾士語(yǔ)。
雖然基礎(chǔ)模型是針對(duì) 98 種語(yǔ)言進(jìn)行訓(xùn)練的,但我們只列出了超過 <50% 單詞錯(cuò)誤率 (WER) 的語(yǔ)言,這是語(yǔ)音到文本模型準(zhǔn)確性的行業(yè)標(biāo)準(zhǔn)基準(zhǔn)。該模型將返回上面未列出的語(yǔ)言的結(jié)果,但質(zhì)量會(huì)很低。
更長(zhǎng)的輸入
默認(rèn)情況下,Whisper API 僅支持小于 25 MB 的文件。如果您有比這更長(zhǎng)的音頻文件,則需要將其分成 25 MB 或更小的塊或使用壓縮音頻格式。為了獲得最佳性能,我們建議您避免在句子中間打斷音頻,因?yàn)檫@可能會(huì)導(dǎo)致某些上下文丟失。
處理此問題的一種方法是使用 PyDub 開源 Python 包來分割音頻:
from pydub import AudioSegment
song = AudioSegment.from_mp3("good_morning.mp3")
# PyDub handles time in milliseconds
ten_minutes = 10 * 60 * 1000
first_10_minutes = song[:ten_minutes]
first_10_minutes.export("good_morning_10.mp3", format="mp3")
OpenAI 不保證 PyDub 等第三方軟件的可用性或安全性。
您可以使用提示來提高 Whisper API 生成的轉(zhuǎn)錄本的質(zhì)量。該模型將嘗試匹配提示的樣式,因此如果提示也是如此,它更有可能使用大寫和標(biāo)點(diǎn)符號(hào)。然而,當(dāng)前的提示系統(tǒng)比我們的其他語(yǔ)言模型要受限得多,并且只能對(duì)生成的音頻提供有限的控制。以下是提示如何在不同情況下提供幫助的一些示例:
提示對(duì)于糾正模型經(jīng)常在音頻中錯(cuò)誤識(shí)別的特定單詞或首字母縮略詞非常有幫助。比如下面的提示改進(jìn)了DALL·E和GPT-3這兩個(gè)詞的轉(zhuǎn)寫,之前寫成“GDP 3”和“DALI”。
The transcript is about OpenAI which makes technology like DALL·E, GPT-3, and ChatGPT with the hope of one day building an AGI system that benefits all of humanity
要保留被拆分成多個(gè)片段的文件的上下文,您可以使用前一個(gè)片段的轉(zhuǎn)錄本提示模型。這將使轉(zhuǎn)錄更加準(zhǔn)確,因?yàn)槟P蛯⑹褂孟惹耙纛l中的相關(guān)信息。該模型將只考慮提示的最后 224 個(gè)標(biāo)記,并忽略之前的任何內(nèi)容。
有時(shí),模型可能會(huì)跳過文字記錄中的標(biāo)點(diǎn)符號(hào)。您可以使用包含標(biāo)點(diǎn)符號(hào)的簡(jiǎn)單提示來避免這種情況:
Hello, welcome to my lecture.
該模型還可能會(huì)遺漏音頻中的常見填充詞。如果您想在成績(jī)單中保留填充詞,您可以使用包含它們的提示:
Umm, let me think like, hmm... Okay, here's what I'm, like, thinking."
有些語(yǔ)言可以用不同的方式書寫,例如簡(jiǎn)體中文或繁體中文。默認(rèn)情況下,模型可能不會(huì)始終使用您想要的成績(jī)單寫作風(fēng)格。您可以通過使用您喜歡的寫作風(fēng)格的提示來改進(jìn)這一點(diǎn)。
更多建議: