閱讀(1.8k) 書簽贊(1) 我要糾錯(cuò)

OpenAI API 語(yǔ)音轉(zhuǎn)文字

2023-03-17 16:33 更新

介紹

基于我們最先進(jìn)的開源 large-v2 Whisper 模型，語(yǔ)音轉(zhuǎn)文本 API 提供了兩個(gè)端點(diǎn)：轉(zhuǎn)錄和翻譯。它們可用于：

將音頻轉(zhuǎn)錄成音頻所使用的任何語(yǔ)言。
將音頻翻譯并轉(zhuǎn)錄成英文。

文件上傳目前限制為 25 MB，并且支持以下輸入文件類型：mp3、mp4、mpeg、mpga、m4a、wav 和 webm。

快速開始

錄音

轉(zhuǎn)錄 API 將您要轉(zhuǎn)錄的音頻文件和音頻轉(zhuǎn)錄所需的輸出文件格式作為輸入。我們目前支持多種輸入和輸出文件格式。

python curl

# Note: you need to be using OpenAI Python v0.27.0 for the code below to work
import openai
audio_file= open("/path/to/file/audio.mp3", "rb")
transcript = openai.Audio.transcribe("whisper-1", audio_file)

curl --request POST \
  --url https://api.openai.com/v1/audio/transcriptions \
  --header 'Authorization: Bearer TOKEN' \
  --header 'Content-Type: multipart/form-data' \
  --form file=@/path/to/file/openai.mp3 \
  --form model=whisper-1

默認(rèn)情況下，響應(yīng)類型將是包含原始文本的 json。

{
  "text": "Imagine the wildest idea that you've ever had, and you're curious about how it might scale to something that's a 100, a 1,000 times bigger.
....
}

要在請(qǐng)求中設(shè)置其他參數(shù)，您可以添加更多帶有相關(guān)選項(xiàng)的 --form 行。例如，如果要將輸出格式設(shè)置為文本，則可以添加以下行：

...
--form file=@openai.mp3 \
--form model=whisper-1 \
--form response_format=text

翻譯

翻譯 API 將任何受支持語(yǔ)言的音頻文件作為輸入，并在必要時(shí)將音頻轉(zhuǎn)錄為英語(yǔ)。這與我們的 /Transcriptions 端點(diǎn)不同，因?yàn)檩敵霾皇窃驾斎胝Z(yǔ)言，而是翻譯成英文文本。

python curl

# Note: you need to be using OpenAI Python v0.27.0 for the code below to work
import openai
audio_file= open("/path/to/file/german.mp3", "rb")
transcript = openai.Audio.translate("whisper-1", audio_file)

curl --request POST   --url https://api.openai.com/v1/audio/translations   --header 'Authorization: Bearer TOKEN'   --header 'Content-Type: multipart/form-data'   --form file=@/path/to/file/german.mp3   --form model=whisper-1

在這種情況下，輸入的音頻是德語(yǔ)，輸出的文本如下所示：

Hello, my name is Wolfgang and I come from Germany. Where are you heading today?

我們目前只支持翻譯成英文。

支持的語(yǔ)言

我們目前通過轉(zhuǎn)錄和翻譯端點(diǎn)支持以下語(yǔ)言：

南非荷蘭語(yǔ)、阿拉伯語(yǔ)、亞美尼亞語(yǔ)、阿塞拜疆語(yǔ)、白俄羅斯語(yǔ)、波斯尼亞語(yǔ)、保加利亞語(yǔ)、加泰羅尼亞語(yǔ)、中文、克羅地亞語(yǔ)、捷克語(yǔ)、丹麥語(yǔ)、荷蘭語(yǔ)、英語(yǔ)、愛沙尼亞語(yǔ)、芬蘭語(yǔ)、法語(yǔ)、加利西亞語(yǔ)、德語(yǔ)、希臘語(yǔ)、希伯來語(yǔ)、印地語(yǔ)、匈牙利語(yǔ)、冰島語(yǔ)、印度尼西亞語(yǔ)、意大利語(yǔ)、日語(yǔ)、卡納達(dá)語(yǔ)、哈薩克語(yǔ)、韓語(yǔ)、拉脫維亞語(yǔ)、立陶宛語(yǔ)、馬其頓語(yǔ)、馬來語(yǔ)、馬拉地語(yǔ)、毛利語(yǔ)、尼泊爾語(yǔ)、挪威語(yǔ)、波斯語(yǔ)、波蘭語(yǔ)、葡萄牙語(yǔ)、羅馬尼亞語(yǔ)、俄語(yǔ)、塞爾維亞語(yǔ)、斯洛伐克語(yǔ)、斯洛文尼亞語(yǔ)、西班牙語(yǔ)、斯瓦希里語(yǔ)、瑞典語(yǔ)、他加祿語(yǔ)、泰米爾語(yǔ)、泰語(yǔ)、土耳其語(yǔ)、烏克蘭語(yǔ)、烏爾都語(yǔ)、越南語(yǔ)和威爾士語(yǔ)。

雖然基礎(chǔ)模型是針對(duì) 98 種語(yǔ)言進(jìn)行訓(xùn)練的，但我們只列出了超過 <50% 單詞錯(cuò)誤率 (WER) 的語(yǔ)言，這是語(yǔ)音到文本模型準(zhǔn)確性的行業(yè)標(biāo)準(zhǔn)基準(zhǔn)。該模型將返回上面未列出的語(yǔ)言的結(jié)果，但質(zhì)量會(huì)很低。

更長(zhǎng)的輸入

默認(rèn)情況下，Whisper API 僅支持小于 25 MB 的文件。如果您有比這更長(zhǎng)的音頻文件，則需要將其分成 25 MB 或更小的塊或使用壓縮音頻格式。為了獲得最佳性能，我們建議您避免在句子中間打斷音頻，因?yàn)檫@可能會(huì)導(dǎo)致某些上下文丟失。

處理此問題的一種方法是使用 PyDub 開源 Python 包來分割音頻：

from pydub import AudioSegment

song = AudioSegment.from_mp3("good_morning.mp3")

# PyDub handles time in milliseconds
ten_minutes = 10 * 60 * 1000

first_10_minutes = song[:ten_minutes]

first_10_minutes.export("good_morning_10.mp3", format="mp3")

OpenAI 不保證 PyDub 等第三方軟件的可用性或安全性。

提示

您可以使用提示來提高 Whisper API 生成的轉(zhuǎn)錄本的質(zhì)量。該模型將嘗試匹配提示的樣式，因此如果提示也是如此，它更有可能使用大寫和標(biāo)點(diǎn)符號(hào)。然而，當(dāng)前的提示系統(tǒng)比我們的其他語(yǔ)言模型要受限得多，并且只能對(duì)生成的音頻提供有限的控制。以下是提示如何在不同情況下提供幫助的一些示例：

提示對(duì)于糾正模型經(jīng)常在音頻中錯(cuò)誤識(shí)別的特定單詞或首字母縮略詞非常有幫助。比如下面的提示改進(jìn)了DALL·E和GPT-3這兩個(gè)詞的轉(zhuǎn)寫，之前寫成“GDP 3”和“DALI”。

The transcript is about OpenAI which makes technology like DALL·E, GPT-3, and ChatGPT with the hope of one day building an AGI system that benefits all of humanity

要保留被拆分成多個(gè)片段的文件的上下文，您可以使用前一個(gè)片段的轉(zhuǎn)錄本提示模型。這將使轉(zhuǎn)錄更加準(zhǔn)確，因?yàn)槟Ｐ蛯⑹褂孟惹耙纛l中的相關(guān)信息。該模型將只考慮提示的最后 224 個(gè)標(biāo)記，并忽略之前的任何內(nèi)容。
有時(shí)，模型可能會(huì)跳過文字記錄中的標(biāo)點(diǎn)符號(hào)。您可以使用包含標(biāo)點(diǎn)符號(hào)的簡(jiǎn)單提示來避免這種情況：

Hello, welcome to my lecture.

該模型還可能會(huì)遺漏音頻中的常見填充詞。如果您想在成績(jī)單中保留填充詞，您可以使用包含它們的提示：

Umm, let me think like, hmm... Okay, here's what I'm, like, thinking."

有些語(yǔ)言可以用不同的方式書寫，例如簡(jiǎn)體中文或繁體中文。默認(rèn)情況下，模型可能不會(huì)始終使用您想要的成績(jī)單寫作風(fēng)格。您可以通過使用您喜歡的寫作風(fēng)格的提示來改進(jìn)這一點(diǎn)。

以上內(nèi)容是否對(duì)您有幫助：

在文檔使用的過程中是否遇到以下問題：

內(nèi)容錯(cuò)誤
更新不及時(shí)
鏈接錯(cuò)誤
缺少代碼/圖片示列
太簡(jiǎn)單/步驟待完善
其他

更多建議：

提交建議

← OpenAI API 嵌入

OpenAI API 審核 →

寫筆記

我要補(bǔ)充

查看完整版筆記

99re热这里只有精品视频,7777色鬼xxxx欧美色妇,国产成人精品一区二三区在线观看,内射爽无广熟女亚洲,精品人妻av一区二区三区

OpenAI API 語(yǔ)音轉(zhuǎn)文字

介紹

快速開始

錄音

翻譯

支持的語(yǔ)言

更長(zhǎng)的輸入

提示