【ChatGPT】OpenAI APIによる音声文字起こしの実装：2025.8.2

OpenAI APIによる音声文字起こしの実装
第1章：リアルタイム音声の文字起こし
1. 必要なライブラリ
2. サンプルコード
第2章：音声ファイルの文字起こし
1. サンプルコード
2. サポートされる形式
第3章：リアルタイムと音声ファイルの使い分け
1. リアルタイム音声の利点
2. 音声ファイルの利点
第4章：実用上の注意点
第5章：まとめ

OpenAI APIによる音声文字起こしの実装

この記事では、OpenAIが提供するAPIを使って、リアルタイムの音声入力と音声ファイルからの文字起こしを実装する方法について、章立て形式で説明します。

第1章：リアルタイム音声の文字起こし

リアルタイム音声入力は、マイクから直接取得した音声を即座に文字に変換する技術です。

必要なライブラリ

openai
sounddevice
numpy
scipy

pip install openai sounddevice numpy scipy

サンプルコード

import openai
import sounddevice as sd
import numpy as np
from scipy.io.wavfile import write
import io

openai.api_key = "YOUR_API_KEY"

sample_rate = 44100
duration = 5

def record_audio(duration, sample_rate):
    audio_data = sd.rec(int(duration * sample_rate), samplerate=sample_rate, channels=1, dtype=np.int16)
    sd.wait()
    return audio_data

def audio_to_bytes(audio_data, sample_rate):
    buffer = io.BytesIO()
    write(buffer, sample_rate, audio_data)
    buffer.seek(0)
    return buffer

def transcribe_audio(audio_buffer):
    response = openai.Audio.transcribe(
        model="whisper-1",
        file=audio_buffer,
        language="ja"
    )
    return response['text']

if __name__ == "__main__":
    audio = record_audio(duration, sample_rate)
    audio_buffer = audio_to_bytes(audio, sample_rate)
    transcript = transcribe_audio(audio_buffer)
    print("文字起こし結果:", transcript)

第2章：音声ファイルの文字起こし

音声ファイルからの文字起こしは、事前に録音された音声ファイル（mp3, wavなど）を文字データに変換します。

サンプルコード

import openai

openai.api_key = "YOUR_API_KEY"

def transcribe_audio_file(filepath):
    with open(filepath, "rb") as audio_file:
        response = openai.Audio.transcribe(
            model="whisper-1",
            file=audio_file,
            language="ja"
        )
    return response['text']

if __name__ == "__main__":
    filepath = "example.wav"
    transcript = transcribe_audio_file(filepath)
    print("ファイルからの文字起こし結果:", transcript)