Sora 공개

TLDR

Fiddl.art의 AI 영상 및 통합 기능에 중요한 업그레이드를 적용했습니다. 새로운 MCP 서버를 통해 ChatGPT 앱 및 다른 클라이언트가 HTTP API와 동일한 스키마 및 결제 방식으로 저희 도구를 사용할 수 있습니다. Sora v2 및 v2 Pro는 이제 스마트 폴백 기능을 갖춘 정확한 시작 이미지 준비를 지원합니다. Text-to-Speech(TTS)는 SSE를 통해 스트리밍되어 지연 시간을 줄였습니다. 또한 OAuth 2.1, TikTok 서버 측 이벤트, 엣지 렌더링 SEO 페이지도 추가했습니다.

MCP 서버: 표준화된 도구로 일관된 경험 제공

새로운 Model Context Protocol(MCP) 서버를 통해 ChatGPT 앱과 같은 MCP 호환 클라이언트가 저희 웹 및 모바일 앱에서 사용하는 것과 동일한 도구를 호출할 수 있습니다. 전송 프로토콜은 SSE와 JSON-RPC를 사용하며, 필요한 경우 스트리밍을 지원합니다.

주요 기능으로는 browse_creations, create_image, create_video, 미디어 구매 기능 등과의 도구 호환성이 있습니다. HTTP API와 동일한 입력 스키마, 결제 규칙, 소유권 확인이 적용됩니다. 클라이언트는 자체 구성을 위해 OpenAPI 사양을 가져올 수 있으며, 인증에는 기존 JWT 토큰을 사용하여 서비스 전반의 일관성을 유지합니다.

OAuth 2.1 통합은 검색, 동적 클라이언트 등록, PKCE 인증, 그리고 최소한의 동의 UI로 순환되는 해시 리프레시 토큰을 포함합니다. 토큰은 기존 키로 서명되어 스택 호환성을 유지합니다.

Sora v2 및 v2 Pro: 안정적인 시작 이미지와 더 빨라진 파이프라인

Sora v2 및 Sora v2 Pro에 대한 정식 지원을 추가했으며, 지능적인 시작 이미지 처리 기능을 갖추었습니다. 시스템은 Sora v2의 경우 720×1280 및 1280×720, Sora v2 Pro의 경우 1024×1792 및 1792×1024와 같은 정확한 크기 요구사항을 자동으로 처리합니다.

가로세로 비율이 일치하면 이미지는 간단한 크기 조정을 거칩니다. 비율이 맞지 않으면 시스템은 일반 이미지 생성 비용으로 청구되는 보수적인 아웃페인팅을 생성합니다. JPEG 포맷은 디코더 안정성을 보장하며, 결정론적 캐싱(deterministic caching)으로 중복 처리를 방지합니다.

이제 공급자 통합에는 대용량 결과물을 위한 스트리밍 업로드와 전용 상태 폴링이 포함됩니다. 지연 감지 기능은 높은 완료율에서 15분 이상 멈춘 작업을 자동으로 오류 처리합니다. 또한 소프트 삭제 타임스탬프와 30일 이상 된 원본의 일일 삭제 기능을 구현하여 스토리지를 최적화했습니다.

SSE를 통한 스트리밍 TTS

저희 Text-to-Speech(TTS) 서비스는 이제 Server-Sent Events(SSE)를 통해 스트리밍되어 지연 시간을 크게 줄였습니다. 클라이언트는 먼저 메타데이터를 받고, 이어서 오디오 청크, 진행 상황 이벤트, 완료 신호를 받게 됩니다. 타입 지정 이벤트(Typed events)는 명확한 이벤트 분류와 종료 처리를 통해 클라이언트 구현을 단순화합니다.

인증 및 보안 기능 강화

이제 인증은 HTTP와 MCP 접근 모두에 단일 JWT 토큰을 사용합니다. 공개 읽기는 토큰 없이 가능하지만, 쓰기 작업에는 소유권 확인이 필요합니다. OAuth 스토리지는 클라이언트 데이터, 인증 코드, 리프레시 토큰을 해시하며, 해당하는 경우 PKCE를 강제 적용합니다.

OpenAPI 사양은 시작 시 생성되어 MCP 검색과 HTTP 인터페이스 간의 일관성을 유지합니다. 로컬 테스트 워크플로를 간소화하기 위해 CLI 검사기 예제를 포함했습니다.

분석 및 기여도 측정 개선

TikTok 서버 측 이벤트 통합으로 분석 인프라를 강화했습니다. 시스템은 클라이언트 측에서 기여도 토큰을 캡처하여 구매 및 CompleteRegistration 이벤트에 첨부하고, 매칭률 향상을 위해 서버 측 이벤트를 전송합니다.

픽셀 구현은 이제 더 안전한 초기화와 중앙 집중식 이벤트 관리를 위해 새로운 Meta Pixel ID를 사용합니다. Telegram Mini Apps는 임베드 시 서드파티 스크립트를 피하고, 뷰포트 크기를 올바르게 처리하며, Stars 구매 플로우를 네이티브 인보이스와 통합하는 전용 런타임을 제공합니다.

SEO 및 문서 업데이트

Events 및 Promo Code Claim을 위한 새로운 엣지 렌더링 페이지에는 제어된 캐싱 기능과 함께 JSON-LD 형식의 FAQ 및 HowTo 마크업이 포함됩니다. 사이트맵은 이제 새로운 페이지와 최근 공개 미디어를 통합하여 이미지 및 비디오 검색 가능성을 향상시킵니다.

문서에는 다국어 예제와 라우터 등록 가이드가 포함됩니다. 저희 OpenAPI 사양은 더 나은 개발자 경험을 위해 새로운 엔드포인트와 열거형 업데이트를 반영합니다.

크리에이터 및 팀 기능

커스텀 모델 학습은 Sora 시작 이미지 준비 기능과 호환되는 엔드투엔드 지원을 유지합니다. 모델 랜덤화 및 다중 선택 워크플로는 이제 공개 및 비공개 실행 모두에 대해 정확한 비용 추정치를 제공합니다.

할인 코드 기능을 통해 구매자는 사전 검증을 거쳐 코드를 적용할 수 있습니다. 관리자는 코드를 생성, 업데이트, 목록 조회, 삭제할 수 있으며, 영수증과 함께 제휴사 지급금을 발행할 수 있습니다.

편의성 개선 사항

댓글 기능은 이제 전체 CRUD 작업, 멘션, 개수, 알림 기능을 포함하며, 안전한 브라우징을 위해 NSFW 동의 오버레이를 제공합니다. 학습 세트에는 파일 제한 및 크기 보호 기능과 함께 클라이언트 측 WebP 변환 및 썸네일 생성이 포함됩니다.

관리 통계는 플랫폼 전반의 사용량 및 수익 동향을 모니터링하기 위한 실시간 카운터와 간결한 차트를 제공합니다.

시작하기

MCP 통합을 위해서는 MCP 서버에서 OpenAPI 리소스를 가져오고 Authorization 헤더에 기존 JWT를 사용하여 도구를 등록하십시오. Sora 구현은 시작 이미지를 제공하기만 하면 됩니다. 시스템이 자동으로 크기 조정 또는 캐시된 아웃페인팅을 통해 목표 해상도에 맞춥니다.

TTS 스트리밍을 사용하려면 SSE 엔드포인트에 연결하고 메타데이터, 오디오, 진행 상황, 완료 이벤트를 순차적으로 처리해야 합니다. 정확한 USD 및 포인트 계산을 위해 결제 전에 할인 코드 검증이 이루어져야 합니다.

향후 개발 계획

저희는 공개 개발 보드를 통해 예정된 작업을 추적하고 있습니다. 이번 릴리스 이후 Up Next나 In Progress 목록에 새로운 카드가 추가되지는 않았지만, 목록이 변경되는 대로 업데이트를 공유하겠습니다. 저희 엔지니어링 팀은 AI 아트 생성 및 커스텀 모델 학습을 위해 Fiddl.art의 기능을 지속적으로 향상시키고 있습니다.

이번 업데이트의 중요성

이러한 개선 사항을 통해 Fiddl.art는 더 쉽게 통합하고, 더 빠르게 반복하며, 더 투명하게 운영할 수 있습니다. MCP 서버는 불필요한 연결 코드(glue code)를 제거하고, Sora 파이프라인은 예측 가능하고 비용 효율적인 처리를 제공하며, 스트리밍 TTS는 지연 시간을 크게 줄입니다.

마케팅 팀은 개선된 기여도 측정의 이점을 누리고, 관리자는 더 명확한 제어 기능을 얻으며, 크리에이터는 커스텀 모델을 사용한 AI 아트 생성을 위해 더 안정적인 도구에 접근할 수 있습니다. AI 아트 놀이터를 만들든, 얼굴 합성 생성기를 만들든, 이번 업데이트는 예상치 못한 문제 없이 더 빠르게 나아갈 수 있도록 도와줍니다.

자주 묻는 질문 (FAQ)

MCP 서버는 무엇이며 ChatGPT 앱과 어떻게 작동하나요?

Model Context Protocol(MCP) 서버는 ChatGPT 앱 및 다른 MCP 호환 클라이언트가 HTTP API와 동일한 스키마 및 결제 방식으로 Fiddl.art의 도구에 접근할 수 있게 해줍니다. 이 서버는 SSE와 JSON-RPC 전송 프로토콜을 사용하며, 필요한 경우 스트리밍을 지원합니다.

Sora v2는 가로세로 비율이 잘못된 시작 이미지를 어떻게 처리하나요?

가로세로 비율이 Sora의 요구사항과 일치하지 않으면 시스템은 일반 이미지 생성 비용으로 청구되는 보수적인 아웃페인팅을 생성합니다. 비율이 일치하는 경우에는 간단한 크기 조정을 수행합니다. 두 방식 모두 결정론적 캐싱(deterministic caching)을 사용하여 중복 처리를 방지합니다.

스트리밍 TTS는 이전 구현 방식에 비해 어떤 장점이 있나요?

Server-Sent Events(SSE)를 통한 스트리밍은 첫 번째 오디오 청크부터 재생을 시작할 수 있게 하여 지연 시간을 크게 줄입니다. 타입 지정 이벤트 시스템(메타데이터, 오디오, 진행 상황, 완료, 오류)은 클라이언트 구현을 단순화하고 더 명확한 종료 처리를 제공합니다.

TikTok 서버 측 이벤트 통합은 기여도 측정을 어떻게 개선하나요?

시스템은 클라이언트 측에서 기여도 토큰을 캡처하여 구매 및 가입과 같은 관련 이벤트에 첨부한 후, 서버 측 이벤트를 TikTok으로 전송하여 매칭률을 높이고 더 정확한 전환 추적을 가능하게 합니다.

커스텀 AI 모델을 Sora 영상 생성에 사용할 수 있나요?

네, 가능합니다. 저희 커스텀 모델 학습 시스템은 Sora 시작 이미지 준비 기능과 완벽하게 호환됩니다. 크리에이터는 저희 Forge 시스템을 사용하여 모델을 학습시키고, Sora v2 및 v2 Pro 파이프라인과 원활하게 사용할 수 있습니다.

Available languages