블로그 이미지
Every unexpected event is a path to learning for you.

카테고리

분류 전체보기 (2737)
Unity3D (817)
Programming (474)
Server (33)
Unreal (4)
Gamebryo (56)
Tip & Tech (228)
협업 (58)
3DS Max (3)
Game (12)
Utility (136)
Etc (96)
Link (32)
Portfolio (19)
Subject (90)
iOS,OSX (53)
Android (14)
Linux (5)
잉여 프로젝트 (2)
게임이야기 (3)
Memories (20)
Interest (38)
Thinking (38)
한글 (30)
PaperCraft (5)
Animation (408)
Wallpaper (2)
재테크 (18)
Exercise (3)
나만의 맛집 (3)
냥이 (10)
육아 (16)
Total
Today
Yesterday
04-20 00:00

'Programming'에 해당되는 글 474건

  1. 2010.03.13 [펌] 메모리 할당자의 단편화 문제점
  2. 2010.03.13 [펌] 동기화 객체 1
  3. 2010.03.13 [펌] 유니코드 코드변환
  4. 2010.03.13 [펌] 문자열 인코딩

메모리를 할당받기 위해 사용하는 malloc() 함수는 일반적으로 glibc에 포함된 메모리 할당자에서 구현이 되어있다. 현재 glibc에서 사용하는 메모리 할당자는 ptmalloc(http://www.malloc.de/en/) 이다.

메모리 할당자의 역할은 brk/sbrk/mmap 등을 사용해서 시스템으로부터 큰 메모리 영역을 할당 받아서, 이것을 적절하게 분할하여 어플리케이션이 요청하는 메모리 할당을 처리하게 된다. 즉, malloc()을 호출하더라도 항상 시스템콜을 통해서 시스템으로부터 메모리를 할당 받는게 아니다. 그리고 반대로 메모리를 해제하는 경우도 즉시 시스템으로 반환되지 않고, 메모리 할당자가 자유 메모리 리스트에 추가해서 나중에 프로그램이 다시 메모리 할당을 요청하는 경우 재사용하게 된다.

따라서 빈번하게 메모리를 할당하고 반납하는 프로그램의 경우 메모리 할당자에서 단편화(fragmentation)가 발생해서 실제로 요청한 메모리보다 더 많은 메모리를 시스템으로부터 할당받는 문제가 발생하게 된다. mallinfo()를 사용하면 시스템으로부터 얼마를 할당받았고, 실제 사용은 얼마나 하고 있고, 사용은 안하지만 반납은 안한 메모리가 얼마인지 등의 메모리 사용량 정보를 자세히 확인할 수 있다. 그러나 struct mallinfo 구조체의 멤버들이 int 타입으로 되어있어서 사용량이 큰 경우 제대로된 결과를 표시할 수 없는 문제점이 있다.

그래서 규모가 큰 어플리케이션들은 glibc의 기본 메모리 할당자인 ptmalloc이 메모리 단편화 문제가 심하다고 하여 다른 메모리 할당자를 사용하는 경우도 있다. FireFox의 jemalloc이 대표적인 예이다.

현재 개발 중인 메모리 기반의 데이터베이스 프로그램도 이런 메모리 단편화 문제로 상당히 많은 양의 메모리를 손해 보는 문제가 있었다. 대략 1MB 당 0.2MB의 메모리가 단편화로 손해 보는 것으로 조사 되었다.

그래서 이런 문제를 해결하기 위해 Google Perf-tool(http://code.google.com/p/google-perftools/)에 포함된 TCMalloc 메모리 할당자를 도입해서 사용했다. TCMalloc은 속도도 빠르고 메모리 단편화 문제도 ptmalloc에 비해 상당히 적었다. 그러나 시스템으로부터 할당받은 메모리를 전혀 반환하지 않는 점이 단점이라고 할 수 있다. 즉, 메모리를 한번이라도 할당 받으면, 해당 메모리는 프로그램이 해제를 하더라도 시스템으로 전혀 반환되지 않고 프로세스가 다음에 사용할 때까지 잡고 있는 것이다.

만약 프로그램의 메모리 할당 패턴을 정확하게 알고 있다면 자신만의 메모리 할당자를 만드는것도 한 방법일 수 있다. 하지만 brk/sbrk 시스템콜은 프로세스의 데이터 세그먼트를 선형적으로 확장해서 메모리를 할당받기 때문에 반환 과정을 구현하기가 쉽지 않다. 반면에 mmap은 속도는 조금 느리지만 할당받은 메모리를 munmap으로 쉽게 반환할 수 있는 장점이 있다. 즉, 프로그램이 사용할 전체 메모리량을 미리 예측할 수 있다면 해당 크기만큼 mmap으로 할당 받아서 적절하게 분배하여 사용한 후 munmap으로 반환하도록 구현하면 된다.


<참고 자료>
* Advanced Memory Allocation
* Building your own memory manager for C/C++ projects



반응형

'Programming > C/C++' 카테고리의 다른 글

[펌] C++, 가상함수,순수가상함수  (2) 2010.03.14
[펌] 프로그램, 프로세스, 스레드  (0) 2010.03.13
[펌] 동기화 객체  (1) 2010.03.13
[펌] 유니코드 코드변환  (0) 2010.03.13
[펌] 문자열 인코딩  (0) 2010.03.13
Posted by blueasa
, |
1. Critical Section (임계구역)   
   - 접근 가능한 스레드는 하나
   - 동기화는 하나의 프로세스 안에서만 이루어진다
   - 예) 단일 프로세스 상에서의 접근

2. Mutex (상호배제)
   - 접근 가능한 스레드는 하나
   - 여러 프로세스에서 하나의 자원에 접근하는 경우에 사용된다
   - 예) 다중 프로세스 상에서의 접근

3. Event (이벤트)
   - Mutex와 거의 동일하다
   - 접근 제어 보다는 특정 상황이 발생될 때 이를 알리는 목적으로 사용된다
   - 예) 특정 상황에서 발생되는 접근

4. Semaphore (세마포어)
  - 하나의 자원에 접근할 수 있는 프로세스의 수를 지정할 수 있다
  - 예) 동접자 제한 등

[출처] 동기화 객체|작성자 아스라이



1. 뮤텍스(Mutex) : 커널

모든 thread에 사용될 수 있는 동기화 객체.

mutex를 신호상태로 생성하고 thread에서 wait함수를 호출하면 비신호 상태가 된다. 즉 다른 thread에서 접근 불가.

ReleaseMutex를 사용하여 다시 신호상태로 돌릴 수 있다.

프로그램 중복 실행을 방지하기 위해 사용되기도 한다.

//////////////////////////////////////////////////////////////////////////
 // 프로그램 중복 실행 방지

 HANDLE hMutex = CreateMutex( NULL, FALSE, "MyProject" );
 if(GetLastError() == ERROR_ALREADY_EXISTS)
 {
  return FALSE;
 }

 
2. 크리티컬섹션(Critical section) : 유저

같은 프로세스내에 사용될 수 있는 동기화 객체.

EnterCriticalSection으로 비신호, LeaveCriticalsection으로 신호 상태가 된다.

LeaveCriticalSection 사용하면 다른 thread의 접근이 가능하다.

 
3. 세마 포어(Semaphore) : 커널

뮤텍스와 비슷하다. 하지만 접근 가능한 thread의 개수를 지정할 수 있다.

세마포어는 내부적으로 카운트를 가지고 있는데, wating thread가 있으면 카운트가 하나씩 줄어든다.

그리고 그 카운트가 0이 되면 비신호 상태가 되어 다른 thread에서 접근이 불가능하다.

ReleaseSemaphore 사용 시 카운트가 1 증가하여 다른 threa에서 접근이 가능해진다.

WaitforSingleObject 처럼 thread를 정지시키는 효과를 부여하기 위해 모든 thread를 비신호 상태로 만들기도 한다.


반응형
Posted by blueasa
, |

GDI+를 사용하게 되면 문자는 기본적으로 유니코드를 사용하게되어 있다.

그렇기 때문에 ANSI코드를 직접 입력하게 되면 문자가 깨져나오는 불상사가 생기게 된다.

그렇기때문에 #define UNICODE 메크로를 사용하여 코드가 유니코드를 사용하게 해야하는데 이는 아직 익숙치 않은 것이라 ANSI를 UNICODE로 변환하여 사용하는 방법을 사용한다. 물론 익숙하지 안은 것이외에도 반드시 코드변환을 사용해야 할 경우는 있다.

텍스트 파일에 있는 문자를 읽어 올 때에는 아직까지 모든 텍스트 파일의 문자는 ANSI로 되어 있기 때문에 이를 UNICODE로 변환 해야하는 경우가 있을 수 있다.

 

ANSI 코드를 UNICODE로 변경시켜주는 API 함수는 MultiByteToWideChar()이 있다

MultiByteToWideChar

(

UINT CodePage,               //변환대상의 코드페이지

DWORD dwFlag,               //변환 Flag

LPCSTR lpMultiByteStr,      //변환대상 MBCS 문자열

int cbMultiByte,                //변환대상 문자열 길이 -1이면 자동으로 길이 계산

LPWSTR lpWideCharStr,      //변환결과를 저장할 버퍼

int cchWideChar                //변환결과 문자열 길이 보통 변환대상의 2배로 설정한다.

)

 

UNICODE 를 ANSI로 변환할때는 WideCharToMultiByte()를 사용한다.

MultiByteToWideChar

(

UINT CodePage,                  //변환대상의 코드페이지

DWORD dwFlag,                  //변환 Flag

LPCWSTR lpWideCharStr,      //변환대상 MBCS 문자열

int cchWideChar,                 //변환대상 문자열 길이 -1이면 자동으로 길이 계산

LPSTR lpMultiByteStr,           //변환결과를 저장할 버퍼

int cbMultiByte,                   //변환결과 문자열 길이

LPCSTR lpDefaultChar,         //변환할 수 없는 문자를 대신할 문자

LPBOOL lpUsedDefaultChar   //기본으로 설정된 lpDefaultChar여부를 확인

)

 

char *amsg = "Good programming!";

wchar_t wstr[100];

 

wchar_t *wmsg = L"Perpect programming!";

char astr[100];

 

MultiByteToWideChar(CP_ACP, 0, amsg, -1, wstr, 100);

 

WideCharToMultiByte(CP_ACP, 0, wmsg, -1, astr, 100, NULL, NULL); 

 

 

위와 같이 MultiByteToWideChar 와 WideCharToMultiByte 를 사용해서 코드를 변환 할 수 있지만 문자열이 간단한 것이라면 다음과 같이 wsprintfW 와 wsprintfA를 사용해 더욱 간단하게 코드 변환을 할 수 있다.

char *amsg = "Good programming!";

wchar_t wstr[100];

 

wchar_t *wmsg = L"Perpect programming!";

char astr[100];

 

wsprintfW(wstr, L"%S", amsg);

 

wsprintfA(astr, "%S", wmsg);

 

%S에서 s가 대문자인 것을 유의해야한다. 

 

 

API는 ANSI 와 UNICODE의 혼합 사용을 지원하기 위해 매크로를 지원하고 있다. 실제로는 무척 많은 양이지만 압축하면 다음과 같다.

일반형 UNICODE ANSI Description
TCHAR wchar_t char 문자
LPTSTR wchar_t* char* 문자열
LPCTSTR const wchar_t* const char* 문자열 상수

 

TEXT("문자열")을 사용하면 ANSI, UNICODE 에 상관없이 해당 코드 환경에 알맞게 문자열을 변환해준다.

 

출처 : http://blog.daum.net/crexy/7265111


반응형
Posted by blueasa
, |
 컴퓨터의 문자 표현체계에 대해서 얼마나 알고 계산가요? 혹 아스키 코드, 아스키 확장코드, 유니코드 이 정도로 알고 있는것은 아니신가요?? 부끄럽지만 저는 유니코드의 표현 종류가 한 가지 종류가 아닌것은 알고 있었지만 만 면밀하게 알고 있지는 않았고 오늘 필요에 의한 자료를 찾아보면서 많이 부족했었다는 것을 깨닫게 되었습니다. 유니코드에도 생각외로 많은 종류의 표시집합이 존재하더군요. 예를 들면 UTF-8, UTF-16, UTF-32, UCS2, UCS4 같은 것 말이죠.
  그래서 libiconv 라이브러리를 사용하기 위한 자료를 찾다보니 이 것에 대해서 꽤나 중요하다는 생각이 문득 들더군요. 그래서 일단은 간소하게나마 정리하는게 좋지 않을까 해서 올려봅니다.

1. 조합형( JOHAB )

 
비운이라고 생각해야 할까요? 한글을 표시하는 여러가지 표현방법 중 하나 입니다. 아주 옛날 도스에서 텍스트 에디터 같은 프로그램을 사용해보셨다면 조합형 한글, 완성형 한글등의 한글 표현 방법이 있다는 것을 아실겁니다. 그 중 하나이죠. 그런데 이 표시방법은 최근엔 거의 쓰이지 않습니다. 왜냐하면 Microsoft가 조합형이 아닌 완성형 한글을 채택했기 때문이라고 하네요. 역시 글로업 기업답게 파워가 막강한가 봅니다.
  어쨌든 표현 방식은 16비트를 사용하게 되며, 최상위 비트는 1, 그 후엔 5/5/5로 비트를 나누어 초성, 중성, 종성을 표시하게 됩니다. 말 그대로 조합형이니 만큼  만약 초성에 ㄱ, 중성에 ㅏ, 종성에 ㅇ이라는 코드를 넣게 되면 해당 글자는 ""이라는 글자를 표시하는 비트가 되게 됩니다. 무척 편리한 방법입니다. 예전 하드웨어 성능이 별로 좋지 않을때 한글 오토마타를 처리하는 것에 있어 완성형 보다 CPU도 덜 쓰고, 복잡하지도 않아 조합형이 좋다고 얘기될 때가 많았었는데 말이죠.
  위 방식은 일반적으로 자주 쓰였던 조합형의 종류이고, 조합형에도 여러가지 종류가 있었다고 합니다.

  1. N바이트 조합형

   
이 형태의 출력 방법은 자음 모음을 각각 분리하여 보관된 문자 형태에 맞는 값을 가지고 저장하는 방법입니다. 예를 들면 다음과 같네요. "블로그" 라는 문자에 대한 표기방법은 "ㅂㅡㄹㄹㅗㄱㅡ" 가 됩니다. 초기 때 자주 사용되었다고 하네요. 최대 5바이트까지 사용될 수 있었기 때문에 비효율성 때문에 사라졌을것 같습니다.

  2. 3바이트 조합형

   
이 방법은 위에 언급한 초,중,종의 방식을 하나의 바이트로 사용한 것입니다. 만약 종성이 존재하지않는 ""와 같은 문자일 경우 채움 문자를 적어넣었다고 합니다. n바이트 조합형 보다 효율적이기는 하지만 그래도 비효율 적이죠?

  3. 2바이트 조합형

    흔히 조합형이라고 하면 일컫는 방식입니다. 최상위 비트가 1, 초,중,종성을 각각 5비트로 나누어 표시한 방식이죠. 문제점은 두 번째 바이트의 최상위 비트가 0일 수 있기에 문자열 검색에서 문제가 생긴다고 합니다. 뭐 데이터가 NULL값과 동일하게 되어 문제점이 생기는 것 같습니다.

2. 완성형( EUC-KR )

 
이 문자 집합은 KS X 1001, KS X 1003 인코딩을 사용하는 문자형 입니다. EUC(Extended Unix Code, 확장 유닉스 코드)라는 이름에 걸맞게 확장 코드 중 KR 즉 한글을 표현하는 방식입니다. 표현 방식은 일반 아스키 코드들은 KS X 1003형식을 배당하고, 그 이상의 한글 코드들은 KS X 1001형식을 배당하게 됩니다. 보통 많이 들으셨던 것이 바로 이 방식일 겁니다. 문자 코드의 영역은 대충 아래와 같이 된다고 하는군요.
  • 0x21 ~ 0x2C: 특수 문자(문장 부호, 그림 문자 등), 한글 낱자, 괘선 조각, 외국 문자(히라가나, 가타카나, 그리스 문자, 키릴 문자 등)
  • 0x30 ~ 0x48: 한글 글자 마디 영역. 자주 쓰이는 2350자만 가나다 순서대로 배열
  • 0x49: 사용자 정의 영역 A
  • 0x4A ~ 0x7D: 한자 영역. 4888자를 한글 독음 순서대로 배열했으며, 독음이 다르고 모습이 같은 한자는 중복
  • 0x7E: 사용자 정의 영역 B

  이 문자 표현 형식의 단점은 모든 한글을 표현할 수 없는 단점이 생깁니다. 위에 언급했다 시피 자주 쓰이는 2350자만 배열하였기 때문에 문제가 되는 것이죠.

B0 0 1 2 3 4 5 6 7 8 9 A B C D E F
A0  
B0
C0
D0
E0
F0

  위 표는 KS X 1003에 해당하는 한글 부분 표 입니다. 위키피디아에 존재하는 것인데, 저장하는 방식이 일괄적이더군요. 일단 FIRST BYTE에 해당하는 문자는 제일 왼쪽 상단에 존재하는 B0 이라는 문자입니다. 그리고 두 번째 BYTE는 해당 글자에 위치하는 행+열에 해당되는 값이죠. 만약 "" 라는 문자를 저장하여 Binary로 표기하게 된다면 B0 C2 라는 데이터로 걔의 표기가 가능하게 됩니다.

http://ko.wikipedia.org/wiki/KS_X_1001_%ED%95%9C%EA%B8%80_%EB%B6%80%EB%B6%84_%ED%91%9C 

3. 확장 완성형( CP949 )

 
완성형에서 자주쓰이는 2350자만 표현 가능하게 된 점이 있기에 모든 한글을 표기하기 위하여 추가적으로 확장된 방식입니다. 윈도우 95부터 채택되어 사용이 되었다고 하네요. 이 형태는 완성형인 EUC-KR과 하위 호완성이 존재합니다. 그리하여 A1~FE까지 사용하는 범위의 EUC-KR 과 더불어 빈 공간에 표현하지 못하는 한글을 추가적으로 맵핑하여 한 형태죠. 일단 이 것의 문제는 한글에 대한 순서가 빈공간에 차례대로 끼워넣은 만큼 순서에 대한 정렬 문제가 발생하게 됩니다.
 
4. UCS2

 
흔히 많이 보는 Windows에서의 Unicode라고 생각하시면 됩니다. 이 형태는 각국의 문자표기에 따른 문제점을 해소하기 위해서 바이트의 문자 표기를 위해 등장했고, 일률적인 형태를 위해 영문 문자 마저 2바이트의 공간을 사용하게 됩니다. 결국 영문 같은 경우 공간을 낭비하게 된다고 생각할 수도 있겠군요. 하지만 전체가 2바이트이기 때문에 기타 UTF 방식의 표현 형태보다는 처리가 간단하다고 할 수 있습니다. Windows 같은 경우엔 내부적으로 UCS2 문자열을 사용하는 것으로 알고 있습니다. 그 이유는 속도 처리가 빨라서라고 하는군요^^.
  그래서 일반적으로 Windows 에서 개발 프로그래밍을 할 때에 L"아아아"와 같은 형태의 문자을 사용하면 UCS2의 방식을 따르게 됩니다. 물론 인코딩은 별개로 생각되야 하구요^^.

5. UCS4

 
2바이트를 사용하는 UCS2에 비해 UCS4는 하나의 글자를 4바이트로 표현합니다. 그 만큼 문자의 공간 낭비가 심하다고 할 수 있죠. 하지만 UCS2에서는 65,536개 이상의 문자 표현이 불가능하기 때문에 나타난 방식이라고 생각이 되네요 일단 기본적으로 UCS2로 표현이 되는 문자들은 UCS로 처리 표시되고 그 영역을 벗어나는 부분만 UCS4로 처리를 하게 됩니다. 그리고 GCC 같은 경우 유니코드 문자열은 Windows개발툴과 다르게 UCS2가 아닌 UCS4로 사용되므로 주의가 필요합니다. 이에 대한 소스코드의 호환성을 잘못 썼다간 아이쿠 하는 사태가 발생할 수도 있다는 아주 무시무시한 사실이 @0@

6. UTF-8

 
최근 많이 들어보셨던 단어 인가요? 개발자가 아닌 일반 사용자 분들도 최근엔 자주 보셨던 단어 일 겁니다. 바로 "URL을 항상 UTF-8로 보내기" 라는 옵션 때문이죠. 이 것의 체크 여부에 따라서 한글로 되어있는 그림이 보였다 보이지 않았다 하는 점 때문에 조금 이러저러한 문제가 있을겁니다. 하지만 결과적으로 말하자면 일단 UTF-8 형식을 사용하는 것이 옳다고 얘기할 수 있습니다. 왜냐구요? 이 것은 UCS2에서 말했다 시피 영문 코드마저도 2바이트 공간을 항상 사용해야 하기 때문에 존재하는 낭비를 줄이기 위해서 나온 형태 중에 하나 이기 때문이죠. 다만 다른 점은 UCS2, UCS4는 형태 그대로의 문자집합인데 비하여 하나의 인코딩 방법이라고 할 수 있습니다.
000000-00007F 0xxxxxxx ASCII와 동일한 범위
000080-0007FF 110xxxxx 10xxxxxx 첫 바이트는 110 또는 1110으로 시작하고, 나머지 바이트들은 10으로 시작함
000800-00FFFF 1110xxxx 10xxxxxx 10xxxxxx
010000-10FFFF 11110zzz 10zzxxxx 10xxxxxx 10xxxxxx UTF-16 서로게이트 쌍 영역 (yyyy = zzzzz - 1). UTF-8로 표시된 비트 패턴은 실제 코드 포인트와 동일

  가장 왼쪽은 유니코드 의 범위이고 이 범위에 따라서 해당 문자열에 관련된 Binary 값이 변환될 수 있습니다. 그리하여 문자열에 대한 영어 공간을 절약할 수 있는 것이죠.
  여기서 일어날수 있는 문제점은 바로 Microsoft 문서 편집기와의 호환성 문제 입니다. 흔히 BOM 이라고 불리는 Byte Order Mark 라는 것이 UTF-8에서는 아스키와의 확장성을 띄기 때문에 실제로 사용되지 않는데 최고의 문서 편집기(?)인 Notepad를 보시면 텍스트파일을 읽을 때 UTF-8에 해당하는 BOM마크를 필수적으로 써주어야 합니다. 그로인해 문제점이 생길 수 있을것이라 생각됩니다.

7. UTF-16

  이 인코딩은 UTF-8과는 약간 의미가 다릅니다. UTF-8 같은 경우 아스키와의 호환성, 공간절약을 목적으로 사용한 것이지만 UTF-16은 65,536개의 문자 이상의 표현할 수 없는 문자를 표현하기 위한 인코딩 방식입니다. 고로 UTF-16은 UCS2와 거의 동일하다고 보시면 됩니다. 그래서 Notepad에서도 저장방식이 UTF-8 방식과 Unicode Big Endian, Unicode Little Endian 이 있는 것 같군요. 표현하지 못하는 기본 방식에 대해서는 위키피디아를 참조 하시면 좋을 것 같습니다.

  후.. 너무 많군요.. 단순히 몇개 밖에 안될 것이라 생각했던 것이 너무나 많습니다. 저도 자료를 찾아 정리해가면서 적은 것이라 부정확한 정보가 존재할 수도 있겠군요. 하지만 한 곳의 정보만 참조한 것이 아니라 여러군데를 찾으면서 한 것이라 꽤 정확하게 정리한 것 같습니다. UTF-32 와 같은 추가적인 인코딩방법도 존재하는데, 이 런 인코딩을 필요할 때 자세히 알아서 필요할 때 사용하면 될것 같습니다.
  FreeType을 사용하게 되면서 결과적으로 아주 많은 것을 공부하게 된것 같습니다. 문자열 셋에 대한 여러가지 인덱스 들과 변환 방법을 통한 여러가지 종류의 텍스트 지원을 생각하다 보니 이런 저런 문제점이 발견되고 그 것을 해결하기 위해 자료를 찾다보니 여기 까지 오게 된것 같군요. 나름대로 쓰기 편하게 FontLoader같은 클래스를 만들고 있으니 잘 된다면 공개를 해보도록 하겠습니다.


 

출처 : http://www.filewiki.net/tc/81

반응형
Posted by blueasa
, |